近期,大型語言模型(LLM)如ChatGPT等在處理與生成人類語言方面的能力顯著增強(qiáng),但它們在多大程度上模擬了人類大腦處理語言的神經(jīng)過程,仍是未解之謎。然而,一項(xiàng)由哥倫比亞大學(xué)和費(fèi)因斯坦醫(yī)學(xué)研究所聯(lián)合開展的研究,為這一謎題提供了新的線索。
據(jù)報(bào)道,研究團(tuán)隊(duì)深入探索了LLM與大腦神經(jīng)反應(yīng)之間的相似性。研究的主要推動者,論文第一作者加文?米施勒指出,他們的研究靈感源于LLM與神經(jīng)AI領(lǐng)域的快速發(fā)展。米施勒在采訪中透露,盡管早期的研究表明GPT-2的詞嵌入與人腦對語言的神經(jīng)反應(yīng)存在某種程度的相似性,但GPT-2在當(dāng)前人工智能領(lǐng)域已不再是領(lǐng)先者。
隨著ChatGPT等更強(qiáng)大的模型的出現(xiàn),關(guān)于這些新模型是否依然表現(xiàn)出與人類大腦相似的特征,米施勒及其團(tuán)隊(duì)展開了詳細(xì)的探究。他們選擇了12個在架構(gòu)和參數(shù)數(shù)量上幾乎一致的開源LLM進(jìn)行分析,同時,通過神經(jīng)外科患者腦部植入的電極,記錄了他們聽到語言時的大腦反應(yīng)。
在研究中,米施勒團(tuán)隊(duì)將相同的演講文本輸入LLM,并提取其詞嵌入,這些詞嵌入是模型內(nèi)部用于處理和編碼文本的表示。為了衡量LLM與大腦的相似性,研究人員嘗試通過預(yù)測大腦對詞語反應(yīng)的神經(jīng)活動來評估兩者的對應(yīng)性。他們利用計(jì)算工具分析了LLM與大腦的對齊程度,特別關(guān)注了哪些層次的LLM與大腦中與語言處理相關(guān)的區(qū)域最為匹配。
米施勒表示,研究發(fā)現(xiàn),隨著LLM能力的提升,其詞嵌入與大腦對語言的反應(yīng)越來越接近。更令人驚訝的是,模型性能的提升與其與大腦層次結(jié)構(gòu)的對齊程度提高之間存在關(guān)聯(lián)。這意味著,在語言處理過程中,大腦不同區(qū)域提取的信息與性能較強(qiáng)的LLM的不同層次提取的信息更加一致。
這些研究結(jié)果表明,表現(xiàn)最好的LLM更能準(zhǔn)確反映大腦的語言處理反應(yīng),并且這些模型的優(yōu)秀表現(xiàn)可能與其早期層次的高效性密切相關(guān)。這一發(fā)現(xiàn)不僅揭示了LLM與人類大腦在語言處理方面的相似性,也為未來人工智能技術(shù)的發(fā)展提供了新的啟示。