百度近期在人工智能領域再度取得突破,于1月23日正式揭曉了其最新研發成果——EICopilot。這一創新解決方案利用大型語言模型(LLM)技術,極大地簡化了從復雜數據庫中提取信息的流程,為企業知識圖譜的探索和應用提供了強有力的支持。
在當前的企業環境中,知識圖譜因其能夠整合法人、注冊資本、股東信息等多維度數據而備受青睞。然而,盡管知識圖譜的應用價值顯著,但傳統的文本查詢和手動探索方式卻限制了其信息提取的效率。為了解決這一難題,百度研究院精心打造了EICopilot。
EICopilot作為一個基于AI智能體的解決方案,專注于優化存儲在知識圖譜數據庫中的企業數據的搜索、探索和摘要過程。它能夠高效地處理包含數億節點、數百億邊、數千億屬性以及數百萬子圖的龐大數據集,這些數據集涵蓋了國家注冊的企業、組織、公司等各類信息。
為了提升搜索精度,百度研究人員收集了真實的企業相關查詢,構建了種子數據集,并使用Gremlin語言編寫了搜索腳本。通過系統的標注和增強,這些數據被轉化為向量數據庫,從而實現了搜索空間的實時生成,極大地提高了圖譜檢索和探索的效率。
EICopilot不僅是一個基于LLM的聊天機器人,還具備創新的數據預處理流程,能夠優化數據庫查詢。它還擁有強大的推理能力,采用思維鏈(CoT)和上下文學習(ICL)等先進技術,為用戶提供更加精準和有價值的查詢響應。
為了驗證EICopilot的性能,研究人員利用百度內部數據平臺的數據,構建了一個包含查詢和圖數據庫查詢對的數據集。根據查詢的遍歷長度,他們將查詢分為簡單、中等和復雜三類,并采用語法錯誤率(SyntaxErrorRate)和執行正確率(Execution Correctness)作為評估指標。實證結果表明,EICopilot在速度和準確性方面均優于基線方法,Full Mask版本的EICopilot語法錯誤率低至10.00%,執行正確率高達82.14%。
這一突破性成果不僅展示了百度在人工智能領域的深厚積累,也為企業知識圖譜的探索和應用開辟了新的道路。EICopilot的推出,無疑將為企業用戶提供更加便捷、高效的信息提取和數據分析服務。