近日,月之暗面科技公司正式推出了其最新研發的視覺思考模型k1,這一創新成果基于先進的強化學習技術,旨在實現端到端的圖像理解和思維鏈技術的原生支持,并將應用范圍拓展至數學以外的多個基礎科學領域。
據月之暗面官方透露,k1模型在基礎科學學科的基準測試中表現出色,其性能已經超越了OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet等業界知名模型。這一成就標志著k1模型在理解和解答科學問題上的能力邁上了一個新臺階。
k1視覺思考模型一經發布即上線,用戶可以在最新版“Kimi智能助手”的Android和iPhone手機App以及網頁版kimi.com上體驗到這一新功能。用戶只需在App或網頁版中找到“Kimi視覺思考版”,即可通過拍照或上傳圖片進行體驗。該模型不僅能夠給出答題結果,還能完整展示推理思維鏈CoT,讓用戶清晰看到模型思索答案的全過程。
從模型訓練的角度來看,k1視覺思考模型的訓練過程經過了兩個階段的精心打磨。首先,通過預訓練得到基礎模型,然后在基礎模型上進行強化學習后訓練。在基礎模型階段,k1特別優化了字符識別能力,在OCRBench上取得了903分的優異成績。同時,在MathVista-testmini、MMMU-val和DocVQA等基準測試集上,k1也分別獲得了69.1、66.7和96.9的高分。
月之暗面在k1的強化學習后訓練階段也進行了諸多優化,特別是在數據質量和學習效率方面取得了顯著進步。同時,公司在強化學習的規模化上實現了新的突破,為k1模型的高性能表現奠定了堅實基礎。
在科學模型能力基準測試方案方面,月之暗面也面臨著行業內的重要挑戰。由于市場上缺乏針對基礎科學學科的圖形測試集,Kimi模型研發團隊自主構建了一個標準化的測試集Science Vista。該測試集涵蓋了不同難度的數理化圖片題目,且與實際用戶需求較為匹配。月之暗面表示,該測試集將開放給全行業使用,以推動基礎科學領域大模型技術的發展。
然而,在內部測試中,月之暗面也發現了k1視覺思考模型存在的一些局限性。例如,在分布外問題的泛化能力、復雜問題的成功率、噪聲場景的準確率以及多輪問答效果等方面,k1仍有較大的提升空間。與OpenAI的o1系列模型相比,k1在某些場景和泛化能力上仍存在一定差距。月之暗面表示,將繼續努力優化模型性能,為用戶提供更加高效、準確的視覺思考服務。