近日,阿里巴巴(中國)有限公司在視頻生成技術(shù)領(lǐng)域取得了新進(jìn)展,一項(xiàng)名為“一種圖生視頻方法和裝置”的專利被正式公布。據(jù)天眼查知識(shí)產(chǎn)權(quán)信息顯示,這項(xiàng)專利的公布標(biāo)志著阿里巴巴在智能化視頻生成方面邁出了重要一步。
該專利的核心在于,通過一種創(chuàng)新的實(shí)施例,實(shí)現(xiàn)了從靜態(tài)圖像到動(dòng)態(tài)視頻的智能化轉(zhuǎn)換。具體而言,該方法首先將包含目標(biāo)對(duì)象的源圖像輸入到一個(gè)精心設(shè)計(jì)的第一視頻生成模型中,從而生成一個(gè)基礎(chǔ)的素材視頻。接下來,根據(jù)這個(gè)素材視頻,系統(tǒng)會(huì)自動(dòng)確定一個(gè)幀間變換矩陣序列,這個(gè)序列用于描述視頻中幀與幀之間的變換關(guān)系。
在獲取了幀間變換矩陣序列后,系統(tǒng)會(huì)進(jìn)一步從源圖像中提取出目標(biāo)對(duì)象對(duì)應(yīng)的對(duì)象掩碼圖像。這個(gè)掩碼圖像相當(dāng)于一個(gè)“模板”,用于在后續(xù)步驟中準(zhǔn)確地識(shí)別和提取目標(biāo)對(duì)象。隨后,將幀間變換矩陣序列應(yīng)用于這個(gè)對(duì)象掩碼圖像,生成一系列掩碼圖像,組成掩碼圖像序列。同時(shí),將幀間變換矩陣序列也應(yīng)用于源圖像,生成一系列目標(biāo)對(duì)象圖像,組成目標(biāo)對(duì)象圖像序列。
有了這些基礎(chǔ)數(shù)據(jù)后,系統(tǒng)會(huì)根據(jù)源圖像、掩碼圖像序列和目標(biāo)對(duì)象圖像序列,確定一個(gè)目標(biāo)輸入數(shù)據(jù)。這個(gè)數(shù)據(jù)被輸入到一個(gè)支持局部重繪的第二視頻生成模型中。這個(gè)模型能夠利用前面的數(shù)據(jù),生成一個(gè)與目標(biāo)對(duì)象高度匹配、且運(yùn)動(dòng)軌跡多樣的目標(biāo)視頻。
這種方法實(shí)現(xiàn)了智能化端到端的圖生視頻生成,無需預(yù)先設(shè)定運(yùn)動(dòng)參數(shù)。這意味著,系統(tǒng)能夠自動(dòng)地根據(jù)源圖像中的目標(biāo)對(duì)象,生成具有豐富運(yùn)動(dòng)軌跡的視頻,同時(shí)保持目標(biāo)對(duì)象在視頻中的清晰度和連貫性,避免了目標(biāo)對(duì)象的擴(kuò)散問題。
阿里巴巴的這項(xiàng)專利,無疑為視頻生成技術(shù)帶來了新的突破。隨著智能化技術(shù)的不斷發(fā)展,這種圖生視頻方法將在各個(gè)領(lǐng)域發(fā)揮越來越重要的作用,為人們的生活和工作帶來更多便利和樂趣。