亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網 - 新科技與新能源行業網絡媒體

智源發布Emu3:原生多模態世界模型,能否一統圖像文本視頻?

   發布時間:2024-10-22 07:21 作者:趙云飛

智源研究院近期推出了全新的原生多模態世界模型——Emu3,該模型在文本、圖像和視頻三種模態數據的理解和生成上展現出卓越能力。其獨特之處在于,僅需基于下一個token預測,無需依賴擴散模型或組合方法,便能實現多模態數據的統一處理。

在圖像生成任務中,Emu3的表現優于SD-1.5與SDXL模型,獲得了人類偏好評測的高度認可。同時,在視覺語言理解任務中,Emu3也展現出了強大的實力,其對于12項基準測試的平均得分超越了LlaVA-1.6。在視頻生成任務中,Emu3同樣表現出色,VBench基準測試得分高于OpenSora 1.2。

Emu3配備了一個強大的視覺tokenizer,能夠將視頻和圖像轉換為離散token,這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務提供了更加統一的研究范式。

Emu3的研究結果充分證明了下一個token預測作為多模態模型范式的強大潛力,它不僅能實現超越語言本身的大規模多模態學習,還能在多模態任務中取得先進性能。目前,Emu3已開源關鍵技術和模型,為相關研究提供了有力支持。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群