欧美久久久久久久一区二区三区,成人午夜精品久久不卡,一级毛片人与动免费观看

通義萬相登頂權威榜單，全面超越國內(nèi)外主流開閉源視頻生成模型

發(fā)布時間：2025-01-09 11:03 來源：ITBEAR 作者：[db:作者]

1月9日消息，阿里云通義萬相迎來重磅升級，推出萬相2.1視頻生成模型，在大幅度復雜運動、物理規(guī)律遵循、藝術表現(xiàn)等方面全面提升。根據(jù)權威評測榜單VBench的信息顯示，新版通義萬相登上榜首位置，超越混元、海螺AI、Gen3、Pika等國內(nèi)外視頻生成模型。

通義萬相登頂VBench榜單

VBench是視頻生成領域的權威評測集，它一共有16個評分維度，從整體一致性、動作流暢度、畫面穩(wěn)定性等方面對模型進行全方位評估。VBench榜單顯示，通義萬相在運動幅度、多對象生成、空間關系等關鍵能力上拿下最高分，并以總分84.7%的成績斬獲第一。

精準理解和模擬物理世界是當下視頻生成模型的核心難題，現(xiàn)有模型生成的視頻在大幅運動、物理復雜場景表現(xiàn)較差，容易生成肢體扭曲、違背物理定律的視頻。針對這一難題，通義萬相團隊采用自研高效的VAE和DiT架構，有效增強時空上下文關系建模能力。

在DiT的設計中，全新通義萬相使用時空全注意機制，這一機制讓模型能夠更準確地模擬現(xiàn)實世界的復雜動態(tài);團隊還引入了參數(shù)共享機制，不僅提升了模型的性能，還有效降低了訓練成本;此外，針對文本的嵌入進行優(yōu)化，實現(xiàn)更優(yōu)的文本可控性的同時也減少了計算需求。

在視頻VAE方面，通義萬相設計了一種創(chuàng)新的視頻編解碼方案。通過將視頻拆分成若干塊(Chunk)并緩存中間特征的方式，代替直接對長視頻的E2E編解碼過程，實現(xiàn)顯存的使用與原始視頻長度無關，從而能夠支持無限長1080P視頻的高效編解碼，這一關鍵技術為任意時長視頻的訓練提供了新的路徑。

在全新架構下，通義萬相在大幅度的肢體運動和肢體旋轉場景的視頻生成上表現(xiàn)更穩(wěn)定，即便是花樣滑冰、游泳、跳水等運動視頻也能保持肢體協(xié)調(diào)并符合正常運動軌跡。通義萬相在文字視頻生成上實現(xiàn)了突破，成為首個支持中文文字生成能力、且同時支持中英文文字特效生成的視頻生成模型，可滿足廣告設計、短視頻等領域的創(chuàng)作需求。

例如，用戶輸入“平拍一位女性花樣滑冰運動員在冰場上進行表演的全景。她穿著紫色的滑冰服，腳踩白色的滑冰鞋，正在進行一個旋轉動作。她的手臂張開，身體向后傾斜，展現(xiàn)了她的技巧和優(yōu)雅”，通義萬相即可精準理解語義，并生成一段接近專業(yè)滑冰運動員的視頻。

據(jù)悉，目前該模型已全面開放，用戶可在通義萬相官網(wǎng)直接免費使用，個人開發(fā)者和企業(yè)用戶還可在阿里云百煉調(diào)用通義萬相API，進一步創(chuàng)造更豐富的AI工具和應用。

更多>同類內(nèi)容

亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

通義萬相登頂權威榜單，全面超越國內(nèi)外主流開閉源視頻生成模型