近日,蘋果公司AI研究團隊發表了一篇重要論文,題為“Understanding the Limitations of Large Language Models in Mathematical Reasoning”,揭示了大型語言模型(LLM)在數學推理方面的顯著局限性。
盡管LLM在生成類人文本方面表現出色,但在處理數學問題時,即便問題只是微小改動,如增添無關信息,其表現也會大幅下降。
研究人員通過一個簡單的數學問題證明了這一點。他們提出了一個關于采摘獼猴桃的問題,LLM能夠正確計算出答案。
然而,一旦在問題中加入無關細節,如“其中5個奇異果比平均小”,模型便給出了錯誤答案。研究人員進一步修改了數百個類似問題,發現幾乎所有修改都導致了LLM回答成功率的大幅降低。
這表明,LLM并未真正理解數學問題,而是更多地依賴于訓練數據中的模式進行預測。當需要進行真正的邏輯推理時,這些模型往往無法產生合理結果,這一發現對人工智能的發展提供了重要參考。
盡管LLM在許多領域表現優異,但其在數學推理方面的局限性仍然明顯,推理能力有待提升。