字節跳動在近日于其火山引擎Force大會上揭曉了一項重要技術成果——豆包視覺理解模型。這款模型為企業提供了一種極具成本效益的多模態大模型解決方案,標志著AI技術在商業應用領域的又一重大突破。
據悉,豆包視覺理解模型以其低廉的價格吸引了廣泛關注。具體而言,處理一千個tokens的費用僅為三厘,這意味著一元人民幣足以處理約284張720P分辨率的圖片。這一價格相較于市場同類服務,降低了高達85%,極大地降低了企業采用AI技術的門檻。
火山引擎總裁譚待在會上指出,豆包視覺理解模型不僅具備高精度的視覺內容識別能力,還展現了卓越的理解與推理能力。它能夠基于圖像信息執行復雜的邏輯運算,包括但不限于分析圖表、處理編程代碼以及解答學科難題等。
目前,豆包視覺理解模型已順利接入豆包App及其PC端產品,為用戶提供更加智能、高效的視覺處理服務。字節跳動還透露,豆包視頻生成模型的1.5版本將于2025年春季發布,新版本將具備更強大的長視頻生成能力。同時,豆包端到端實時語音模型也即將上線,進一步拓展其AI技術的應用場景。
在合作方面,豆包大模型已贏得了八成主流汽車品牌的青睞,并與多家手機、PC等智能終端制造商建立了合作關系。據統計,豆包大模型已覆蓋約3億臺終端設備,且在短短半年內,來自智能終端的模型調用量激增了100倍,充分展示了其強大的市場影響力和應用潛力。