昆侖萬(wàn)維近期宣布了一項(xiàng)重大技術(shù)突破,正式向公眾開(kāi)源兩大創(chuàng)新模型:SkyReels-V1與SkyReels-A1。這兩款模型分別針對(duì)AI短劇創(chuàng)作和視頻表情動(dòng)作控制,標(biāo)志著國(guó)內(nèi)在視頻生成技術(shù)領(lǐng)域的重大進(jìn)展。
SkyReels-V1作為首個(gè)面向AI短劇創(chuàng)作的視頻生成模型,其在技術(shù)層面實(shí)現(xiàn)了諸多突破。該模型通過(guò)細(xì)致入微的表演細(xì)節(jié)打標(biāo),以及對(duì)情緒、場(chǎng)景和表演訴求的深入處理,利用海量的好萊塢級(jí)別數(shù)據(jù)進(jìn)行訓(xùn)練和優(yōu)化。據(jù)昆侖萬(wàn)維介紹,SkyReels-V1不僅能夠生成具備電影級(jí)質(zhì)感的畫面,還在構(gòu)圖、演員站位和相機(jī)角度等方面展現(xiàn)出卓越的專業(yè)能力。
SkyReels-V1的另一大亮點(diǎn)在于其強(qiáng)大的表情動(dòng)作生成能力。模型支持33種人物表情與超過(guò)400種自然動(dòng)作的靈活組合,能夠精準(zhǔn)還原真人的情感表達(dá),如大笑、怒吼、驚訝和哭泣等微表情,使生成的短劇更加生動(dòng)和真實(shí)。
SkyReels-V1還具備文生視頻和圖生視頻的雙重能力,成為開(kāi)源視頻生成模型中參數(shù)最大、支持圖生視頻的佼佼者。在自研推理優(yōu)化框架「SkyReels-Infer」的加持下,模型在單臺(tái)4090顯卡上僅需80秒即可完成544p分辨率的視頻推理,并支持分布式多卡并行處理,進(jìn)一步提升了生成效率。
除了視頻生成能力外,SkyReels-V1還構(gòu)建了影視化表情識(shí)別體系,能夠精準(zhǔn)理解11種影視戲劇中的人物表情,如不屑、不耐煩等細(xì)膩情感。同時(shí),模型還具備人物空間位置感知和行為意圖理解能力,能夠基于人體三維重建技術(shù),生成影視級(jí)的人物站位和精準(zhǔn)的行為語(yǔ)義分析。
為了進(jìn)一步提升人物視頻生成的精準(zhǔn)度和可控性,昆侖萬(wàn)維還開(kāi)源了SkyReels-A1模型。這款SOTA級(jí)別的視頻基座模型表情動(dòng)作可控算法,能夠基于任意人體比例生成人物動(dòng)態(tài)視頻,并支持視頻驅(qū)動(dòng)的電影級(jí)表情捕捉。通過(guò)輸入?yún)⒖既宋飯D片和驅(qū)動(dòng)視頻,SkyReels-A1能夠?qū)Ⅱ?qū)動(dòng)視頻中的面部表情和表演細(xì)節(jié)完美“移植”到參考圖片中的人物身上。
SkyReels-A1的開(kāi)源,無(wú)疑為視頻創(chuàng)作者提供了更加靈活和高效的創(chuàng)作工具。無(wú)論是專業(yè)影視制作團(tuán)隊(duì)還是個(gè)人創(chuàng)作者,都能夠利用這兩款模型,輕松實(shí)現(xiàn)高質(zhì)量的視頻內(nèi)容創(chuàng)作。
對(duì)于對(duì)這兩款模型感興趣的開(kāi)發(fā)者和技術(shù)愛(ài)好者,可以通過(guò)以下鏈接獲取更多信息和資源:
SkyReels-V1:https://github.com/SkyworkAI/SkyReels-V1
SkyReels-A1:https://github.com/SkyworkAI/SkyReels-A1