在近日于線上舉辦的火山引擎Force大會上,字節(jié)跳動公司正式揭曉了其最新研發(fā)成果——豆包視覺理解模型。這一創(chuàng)新產(chǎn)品旨在為企業(yè)提供強大的多模態(tài)大模型能力,為企業(yè)智能化轉(zhuǎn)型注入新動力。
據(jù)官方介紹,豆包視覺理解模型在成本控制上實現(xiàn)了突破,其千tokens輸入價格僅為3厘,換算下來,一元錢便能處理高達284張720P分辨率的圖片。這一價格策略相較于行業(yè)平均水平,降幅高達85%,引發(fā)了廣泛關(guān)注。
抖音集團副總裁李亮隨后在社交媒體上發(fā)表觀點,強調(diào)豆包大模型的低價并非出于價格戰(zhàn)的目的。他指出,豆包大模型通過深度的技術(shù)創(chuàng)新,在算法設(shè)計、軟件工程以及硬件方案等多個層面進行了全面優(yōu)化,從而實現(xiàn)了成本的大幅降低。3厘/千tokens的定價策略,在保障企業(yè)合理利潤的同時,也體現(xiàn)了公司推動AI技術(shù)普及和應(yīng)用的決心。李亮還提到,豆包大模型的價格策略一步到位,透明公開,摒棄了傳統(tǒng)的“刊例價+折扣”模式,旨在讓每一家企業(yè)都能享受到AI技術(shù)帶來的便利。
在大會現(xiàn)場,豆包3D生成模型也首次亮相,吸引了眾多目光。該模型與火山引擎的數(shù)字孿生平臺veOmniverse相結(jié)合,能夠完成智能訓(xùn)練、數(shù)據(jù)合成以及數(shù)字資產(chǎn)制作等一系列任務(wù)。官方將其譽為“一套支持AIGC創(chuàng)作的物理世界仿真模擬器”,為數(shù)字內(nèi)容的創(chuàng)作提供了全新的可能。
豆包大模型旗下的多款產(chǎn)品也迎來了全面升級。其中,豆包通用模型pro全面對標(biāo)GPT-4o,在性能上毫不遜色,但使用價格僅為后者的1/8,為用戶提供了更具性價比的選擇。音樂模型則能夠生成長達3分鐘的完整音樂作品,為音樂創(chuàng)作領(lǐng)域帶來了新的活力。而文生圖模型2.1版本則實現(xiàn)了精準(zhǔn)生成漢字、一句話P圖等功能,并已成功接入即夢AI和豆包App,進一步拓寬了應(yīng)用場景。