騰訊近日隆重推出了其自主研發(fā)的深度思考模型——混元T1正式版本,這一創(chuàng)新成果標志著騰訊在人工智能領域的又一重大突破。作為騰訊自研的最強推理模型,混元T1以其卓越的性能和多樣化的功能吸引了業(yè)界的廣泛關注。
混元T1不僅在響應速度上達到了極致,能夠迅速回復用戶的問題,還尤其擅長處理超長文本內容。這得益于其背后的大規(guī)模強化學習技術,以及對數學、邏輯推理、科學和編程等領域的深度優(yōu)化。這些努力使得混元T1的推理能力得到了顯著提升。
在多項基準測試中,混元T1的表現尤為亮眼。例如,在大語言模型評估增強數據集MMLU-PRO中,它取得了87.2分的高分,僅次于另一頂級模型o1。在Ceval、AIME、Zebra Logic等涵蓋中英文知識和競賽級數學、邏輯推理的公開測試中,混元T1也展現出了業(yè)界領先的水平。這些成績充分證明了其強大的推理能力。
混元T1在多項任務中均表現出了極高的適應性。這包括對齊任務、指令跟隨任務和工具利用任務等。其正式版繼承了混元Turbo S的創(chuàng)新架構,并采用了Hybrid-Mamba-Transformer融合模式。這一創(chuàng)新架構首次在工業(yè)界實現了將混合Mamba架構無損應用于超大型推理模型,從而有效降低了傳統(tǒng)Transformer結構的計算復雜度和KV-Cache的內存占用,顯著減少了訓練和推理的成本。
混元T1的長文捕捉能力同樣令人矚目。它能夠有效解決長文本推理過程中常見的上下文丟失和長距離信息依賴問題。這得益于混合Mamba架構對長序列處理的專門優(yōu)化。通過高效的計算方式,該架構在保證長文本信息捕捉能力的同時,顯著降低了資源消耗。在參數激活量相近的情況下,解碼速度提升了兩倍,進一步提升了模型的實用性。
目前,騰訊已經向公眾開放了混元T1的體驗,并上線了相關API服務。用戶可以通過這些服務體驗混元T1的強大功能。收費標準為輸入每百萬tokens 1元,輸出每百萬tokens 4元,為用戶提供了靈活且經濟的使用選擇。