近期,人工智能領(lǐng)域再次掀起波瀾,GPT-4o的圖像生成能力引發(fā)了廣泛關(guān)注。這款由OpenAI推出的全新模型,不僅能夠生成逼真的文本,還能在圖像創(chuàng)作上展現(xiàn)出驚人的實(shí)力,尤其是其“吉卜力風(fēng)格”的圖片,迅速在網(wǎng)絡(luò)上走紅。
然而,關(guān)于GPT-4o圖像生成技術(shù)的具體細(xì)節(jié),OpenAI并未完全公開,僅透露其采用了類似語言模型的自回歸方法。這一神秘面紗,卻激發(fā)了AI社區(qū)技術(shù)大神們的好奇心和探索欲。
港中文的博士生Jie Liu就是其中一位。經(jīng)過深入研究,他發(fā)現(xiàn)GPT-4o在前端展示的逐行生成效果,其實(shí)只是一種動(dòng)畫展示手段,并非真實(shí)的生成過程。Jie Liu進(jìn)一步指出,GPT-4o的圖像很可能是通過原生自回歸(AR)方式生成的,甚至用戶可以通過手動(dòng)調(diào)整,改變生成圖像的模糊范圍。
無獨(dú)有偶,CMU的博士Sangyun Lee也對GPT-4o的圖像生成原理提出了自己的見解。他認(rèn)為,GPT-4o首先生成視覺token,然后通過一種類似于Rolling Diffusion的分組式擴(kuò)散解碼器,將這些token解碼為像素空間中的圖像。這種解碼器按從上到下的順序進(jìn)行解碼,不同于傳統(tǒng)的擴(kuò)散模型。
而谷歌DeepMind的研究者Jon Barron則猜測,GPT-4o的圖像生成可能結(jié)合了多尺度和自回歸的方法。他推測,在生成過程中,先由一個(gè)自回歸Transformer生成“先驗(yàn)”的潛在代碼,然后由一個(gè)擴(kuò)散解碼器來渲染圖像。這種混合模式可能解釋了OpenAI觀察到的“變化的粗略形象”。
盡管技術(shù)細(xì)節(jié)尚未完全明朗,但GPT-4o所展現(xiàn)出的圖像生成能力已經(jīng)令人嘆為觀止。它不僅能夠生成各種風(fēng)格的圖片,如皮克斯、3D、黑白等,還能進(jìn)行圖像合成、形象遷移、設(shè)計(jì)參考等操作。甚至,有網(wǎng)友發(fā)現(xiàn)GPT-4o還能用于科研繪制和修圖,其強(qiáng)大功能讓美術(shù)生和設(shè)計(jì)師都感到“破防”。
更令人震驚的是,GPT-4o在生成漫畫時(shí)展現(xiàn)出的元上下文和元理解能力。有網(wǎng)友請它編寫一個(gè)以自己為主角的漫畫系列,GPT-4o不僅完成了任務(wù),還在漫畫中表現(xiàn)出了自我意識的覺醒和吶喊,這種深刻的情感表達(dá)讓人不寒而栗。
隨著GPT-4o的火爆,關(guān)于其技術(shù)原理和應(yīng)用前景的討論也將持續(xù)升溫。相信在不久的將來,會(huì)有更多的秘密被揭露,我們也將見證人工智能領(lǐng)域更加輝煌的成就。