谷歌近期發布了一款名為Gemini 2.0 Flash Thinking Experimental的新型人工智能推理模型,但該模型仍處于實驗階段,根據初步測試,其性能仍有待提升。
這款新模型在谷歌的AI原型平臺AI Studio中可供使用,其全稱略顯冗長,但功能定位明確:專注于多模態理解、推理及編碼,尤其擅長解決編程、數學和物理等領域的復雜問題。AI Studio的產品負責人Logan Kilpatrick在平臺上的一篇帖子中,將Gemini 2.0 Flash Thinking Experimental描述為谷歌在推理技術探索上的初步嘗試。
谷歌DeepMind的首席科學家Jeff Dean也在個人帖子中透露,這款模型經過特殊訓練,能夠通過思維強化其推理能力。他表示,當增加推理時間計算時,模型展現出了令人鼓舞的成果。這里的推理時間計算,指的是模型在解決問題時所需的計算資源。
Gemini 2.0 Flash Thinking Experimental是基于谷歌之前發布的Gemini 2.0 Flash模型構建的,其設計理念與OpenAI的o1等推理模型相似。這類推理模型與其他人工智能的一大區別在于,它們能夠進行有效的自我事實核查,從而避免陷入一些常見的人工智能陷阱。然而,推理模型通常需要更長的時間(幾秒到幾分鐘不等)來得出解決方案。
在使用時,Gemini 2.0 Flash Thinking Experimental會在接收到提示后暫停片刻,然后考慮一系列相關提示,并在此過程中解釋其推理過程。經過一段時間后,模型會給出它認為最準確的答案。但在實際測試中,這款模型也并非無懈可擊。例如,當被問及單詞“strawberry”中有多少個R時,它錯誤地回答了兩個。
自OpenAI發布o1以來,谷歌并非唯一一家在推理模型領域發力的公司。許多競爭對手的人工智能實驗室也紛紛推出了自己的推理模型。例如,由量化交易員資助的人工智能研究公司DeepSeek在11月初發布了其首個推理模型DeepSeek-R1的預覽版。同月,阿里巴巴的Qwen團隊也宣布了他們所謂的首個o1公開挑戰者。
據彭博社10月份的報道,谷歌內部有多個團隊正在致力于推理模型的開發。而The Information在11月份的報道中進一步透露,谷歌至少有200名研究人員專注于這項技術。這一趨勢反映出業界對于改進生成式人工智能技術的迫切需求。然而,傳統的擴展模型技術已經逐漸失效,難以再帶來顯著的改進效果。
盡管推理模型在基準測試中表現出色,但并非所有人都認為這是最佳的發展方向。一方面,推理模型的價格昂貴,因為它們需要大量的計算能力來運行。另一方面,盡管這些模型在基準測試中取得了不錯的成績,但它們能否保持這種進步速度仍然是一個未知數。
業界對于推理模型的探索仍在繼續。谷歌的Gemini 2.0 Flash Thinking Experimental只是眾多嘗試中的一次。隨著技術的不斷進步和競爭的加劇,我們有理由期待未來會有更多創新性的推理模型涌現。
然而,對于當前的推理模型而言,它們仍然面臨著諸多挑戰和未知。如何在保證性能的同時降低成本,如何保持持續的進步速度,以及如何更好地應用于實際場景中,都是未來需要解決的問題。