谷歌DeepMind團(tuán)隊(duì)與麻省理工學(xué)院(MIT)合作推出了一款名為“Fluid”的新模型,該模型在文生圖領(lǐng)域取得了顯著成果。據(jù)科技媒體The Decoder報(bào)道,F(xiàn)luid模型在參數(shù)規(guī)模達(dá)到105億時(shí),能夠生成最佳的圖像效果。
在文生圖領(lǐng)域,自回歸模型與擴(kuò)散模型一直存在競(jìng)爭(zhēng)。擴(kuò)散模型通過迭代減少隨機(jī)噪聲來生成高質(zhì)量數(shù)據(jù),而自回歸模型則依賴于序列中的前面元素來預(yù)測(cè)下一個(gè)元素。
Fluid模型之所以能夠在文生圖領(lǐng)域脫穎而出,關(guān)鍵在于其采用了連續(xù)tokens和隨機(jī)生成順序兩個(gè)創(chuàng)新設(shè)計(jì)。連續(xù)tokens能夠更精確地圖像信息存儲(chǔ),減少信息丟失,而隨機(jī)生成順序則讓模型在每一步都能預(yù)測(cè)任意位置的多個(gè)像素,從而更好地理解整體圖像結(jié)構(gòu)。
在重要基準(zhǔn)測(cè)試中,F(xiàn)luid模型超越了Stable Diffusion 3擴(kuò)散模型和谷歌此前的Parti自回歸模型。與Parti相比,F(xiàn)luid在參數(shù)規(guī)模遠(yuǎn)小于Parti的情況下,仍能在MS-COCO上達(dá)到相同的FID分?jǐn)?shù)。