騰訊近日在AI領(lǐng)域邁出了重要一步,其混元大模型推出的文生視頻功能正式上線,標(biāo)志著用戶僅需一句話便能輕松生成視頻。
這款視頻生成大模型擁有驚人的130億參數(shù)量,是目前市面上最大的視頻開源模型。它不僅包含了完整的模型權(quán)重、推理代碼以及算法,還已在Hugging Face平臺和Github上公開發(fā)布,供企業(yè)和個(gè)人開發(fā)者免費(fèi)使用,并鼓勵(lì)他們在此基礎(chǔ)上開發(fā)更多的生態(tài)插件。
用戶現(xiàn)在可以通過騰訊元寶APP中的AI應(yīng)用模塊,進(jìn)入AI視頻功能提交試用申請。同時(shí),企業(yè)客戶也能夠通過騰訊云接入服務(wù),API內(nèi)測申請也已同步開放。
該視頻生成功能支持中英文雙語輸入,并提供多種視頻尺寸和清晰度選項(xiàng),滿足用戶多樣化的需求。生成的視頻質(zhì)量極高,即便是沖浪、跳舞等動作幅度大的場景,畫面也自然流暢,不易變形。
在鏡面或鏡子場景中,該模型生成的視頻更是令人驚嘆,鏡面反射動作與外部場景完全同步,光影反射效果也基本符合物理規(guī)律,展現(xiàn)出其強(qiáng)大的技術(shù)實(shí)力。
騰訊混元視頻生成大模型采用了先進(jìn)的DiT架構(gòu),并在多個(gè)方面進(jìn)行了優(yōu)化升級。新一代文本編碼器的引入,顯著提升了模型的語義理解能力,使其能夠更好地應(yīng)對復(fù)雜場景下的多個(gè)主體描繪,實(shí)現(xiàn)更加細(xì)膩的畫面呈現(xiàn)。
模型還采用了先進(jìn)的圖像視頻混合VAE(3D變分編碼器),使得在細(xì)節(jié)表現(xiàn)上有顯著提升,特別是在小人臉、高速鏡頭等場景中,效果尤為明顯。
騰訊的這一創(chuàng)新之舉,無疑將為視頻創(chuàng)作領(lǐng)域帶來全新的變革,讓更多人能夠輕松享受到AI帶來的便利與樂趣。