OpenAI近期在人工智能領域取得了重大突破,其研究人員程璐和楊松發表了一篇關于新型連續時間一致性模型(sCM)的論文。這一模型在生成圖像、視頻和音頻等多媒體內容方面,速度相較于傳統擴散模型提升了50倍,僅需十分之一秒即可生成高質量圖像。
sCM模型通過僅兩個采樣步驟,就能實現與傳統擴散模型相當的樣本質量,顯著降低了計算成本和時間。這一創新使得實時生成AI應用變得更加可行,為多媒體內容的快速生成提供了新的解決方案。
擴散模型雖在生成逼真多媒體內容方面表現出色,但其采樣效率低下,限制了實時應用。而sCM模型則克服了這一挑戰,實現了速度與質量的雙重提升。
sCM模型在ImageNet 512×512上進行了訓練,可擴展至15億個參數,同時保持了與最佳擴散模型相媲美的樣本質量。基準測試顯示,sCM模型在減少計算開銷的同時,仍能提供頂級結果。
隨著sCM模型規模的擴大,樣本質量的差距進一步縮小。這一模型的成功還得益于其能夠隨著從中提煉知識的教師傳播模型按比例擴展,使得采樣步驟數的增加會進一步縮小質量差異。
sCM模型的快速采樣和可擴展性為實時生成AI開辟了新的可能性,從圖像生成到音頻和視頻合成,為需要快速、高質量輸出的應用程序提供了實用解決方案。