在科技界的矚目之下,火山引擎于上海成功舉辦了FORCE原動力大會·冬,此次大會不僅見證了技術的飛躍,更成為了豆包大模型家族全面升級的重要里程碑。其中,全新發布的豆包視覺理解模型無疑是全場焦點,其卓越的表現令人嘆為觀止。
豆包視覺理解模型憑借其出眾的內容識別、理解與推理能力,以及細膩的視覺描述,為大模型領域樹立了新的標桿。它如同一雙智慧之眼,讓大模型得以洞察現實世界,極大地拓展了人機交互的邊界與應用范疇。在智源研究院的最新評測中,豆包視覺理解模型在視覺語言模型領域榮獲全球第二,僅次于GPT-4o,尤其在中文通用知識與文字識別方面,展現出了顯著優勢。
豆包視覺理解模型的發布,正如生物進化中的眼睛對于物種爆發的重要性,為人工智能生態的多元化與豐富性奠定了堅實的基礎。其領先的內容識別能力,不僅能準確識別圖像中的物體、形狀與類別,更能深入理解物體間的關系、空間布局及場景意義。例如,在發布會演示中,模型能依據影子形狀識別動物,通過光線景象判斷丁達爾效應,甚至對陌生物品進行拍照識別。
豆包視覺理解模型還具備行業領先的OCR能力,可精準提取圖片中的文本信息,無論是純文本圖像、日常圖像還是表格圖像,都能游刃有余。它還能基于指令進行視覺內容識別,對中國傳統文化信息有著深刻理解。而模型的理解與推理能力更是強大,能輕松應對復雜圖片推理任務,如表格圖像、數學問題、代碼圖像等,同時支持參考問答、總結摘要及數學、邏輯、代碼推理。
豆包視覺理解模型的細膩視覺描述能力同樣不容小覷。它能基于圖像信息,細膩描述圖像內容,并根據圖像狀態進行多種文體創作,如產品介紹、宣傳文章、視頻腳本、故事詩歌等。例如,企業可借助模型為文創產品創作暖心祝福語,或根據指令對畫面細節進行描述,甚至根據多張美食圖片剖析菜品特色,撰寫美食與餐廳點評。
火山引擎在此次大會上還宣布,豆包大模型家族迎來全面升級。豆包通用模型pro已對齊GPT-4o,使用價格僅為后者的1/8;音樂模型從生成60秒簡單結構升級至3分鐘完整作品;文生圖模型2.1版本則首次實現了精準生成漢字與一句話P圖的產品化能力。豆包3D生成模型也首次亮相,與火山引擎數字孿生平臺veOmniverse結合,成為支持AIGC創作的物理世界仿真模擬器。
字節跳動在大會上透露,2025年春季將推出具備更長視頻生成能力的豆包視頻生成模型1.5版,以及豆包端到端實時語音模型,解鎖多角色演繹、方言轉換等新能力。自今年5月發布以來,豆包大模型快速迭代,已成為國內最全面、技術最領先的大模型之一,廣泛應用于智能終端、汽車、金融、消費和互聯網等領域。
火山引擎總裁譚待在會上表示,豆包大模型雖然發布較晚,但一直在快速迭代進化,目前日均tokens使用量已超過4萬億,較首次發布時增長了33倍,這標志著豆包大模型的能力正在被C端市場充分驗證,大模型應用正加速向各行各業滲透。與眾多行業客戶的共創合作,讓豆包大模型在智能終端、汽車、金融、消費等領域大放異彩,與八成主流汽車品牌合作,覆蓋終端設備約3億臺,調用量在半年內增長100倍。