近日,360智腦官方在其公眾號上發布了一則令人矚目的消息,正式推出了其自主研發的AI大模型——360gpt2-o1。這款新模型在推理能力上實現了顯著提升,尤其在數學與邏輯推理任務上的表現尤為突出。
360gpt2-o1之所以能夠在這些領域取得如此優異的成績,主要得益于其三大技術突破:合成數據優化、模型后訓練以及“慢思考”范式。這些技術使得該模型在多項權威評測中均表現出色,超越了前代模型360gpt2-pro,甚至在與GPT-4o模型的對比中也毫不遜色。
在數學領域的評測中,360gpt2-o1展現出了強大的實力。無論是基礎數學評測,如MATH和高考數學,還是權威的數學競賽,包括AIME24和AMC23,該模型都取得了令人矚目的成績。特別是在數學競賽評測中,360gpt2-o1還超越了阿里巴巴最新開源的o1系列模型QWQ-32B-preview,進一步證明了其卓越的數學推理能力。
為了提升模型的推理能力,360智腦團隊在合成數據優化方面下足了功夫。他們通過指令合成、質量/多樣性篩選等方法,有效解決了高質量數學與邏輯推理數據稀缺的問題,為模型提供了豐富的訓練數據集。
在模型后訓練階段,360智腦團隊采用了兩階段訓練策略。他們首先利用小模型生成多樣化的推理路徑,然后利用大模型進行RFT訓練和強化學習訓練,從而進一步提升了模型的推理能力和反思糾錯能力。
360gpt2-o1還引入了“慢思考”范式,這一創新性的技術使得模型能夠像人類一樣逐步推理和反思。該范式利用蒙特卡洛樹搜索探索多樣化的解決方案,并引入LLM進行錯誤驗證和糾錯,最終形成包含反思、驗證、糾錯和回溯的長思維鏈。
360智腦官方還公布了360gpt2-o1的整體架構圖,展示了其復雜而精密的設計。這一架構的公布,不僅讓人們更加了解了這款AI大模型的內部構造,也為其在未來的應用和發展提供了更多的可能性。