中文字幕综合在线,亚洲免费视频一区二区三区,国产字幕制服中文在线

谷歌DeepMind新突破：AI模型推理性能提升，計算效率不減

發(fā)布時間：2024-12-28 10:17 來源：ITBEAR 作者：顧青青

近期，谷歌DeepMind團(tuán)隊推出了一項名為“可微緩存增強”的創(chuàng)新技術(shù)，這項技術(shù)旨在提升大型語言模型（LLMs）的推理性能，而無需大幅增加計算成本。

在語言和推理領(lǐng)域，大型語言模型發(fā)揮著越來越重要的作用。它們能夠處理復(fù)雜問題，生成準(zhǔn)確的上下文相關(guān)響應(yīng)。然而，隨著這些模型的復(fù)雜性增加，如何在有限的計算資源下保持高性能成為了一個挑戰(zhàn)。特別是，許多LLMs在跨任務(wù)推理或執(zhí)行超出預(yù)訓(xùn)練范圍的計算時表現(xiàn)不佳。

現(xiàn)有的提升模型性能的方法通常涉及在任務(wù)處理過程中生成中間步驟，但這種方法會增加延遲并降低計算效率。這限制了LLMs執(zhí)行復(fù)雜推理任務(wù)的能力，尤其是那些需要長依賴關(guān)系或高預(yù)測準(zhǔn)確性的任務(wù)。為了解決這個問題，DeepMind團(tuán)隊開發(fā)了一種新方法。

“可微緩存增強”通過引入一個訓(xùn)練過的協(xié)處理器來增強LLM的鍵值（kv）緩存。這個協(xié)處理器使用潛在嵌入來豐富模型的內(nèi)部記憶。關(guān)鍵在于，基礎(chǔ)LLM保持凍結(jié)狀態(tài)，而協(xié)處理器則異步運行。這種方法不僅保持了模型的穩(wěn)定性，還提高了性能。

整個工作流程分為三個階段。首先，凍結(jié)的LLM從輸入序列生成kv緩存。然后，協(xié)處理器使用可訓(xùn)練的軟令牌處理這個緩存，并生成潛在嵌入。最后，增強的kv緩存被反饋回LLM，以生成更豐富、更準(zhǔn)確的輸出。

DeepMind團(tuán)隊在Gemma-2 2B模型上測試了這項技術(shù)，并獲得了顯著成果。例如，在GSM8K數(shù)據(jù)集上，準(zhǔn)確率提高了10.05%；在MMLU基準(zhǔn)測試上，性能提升了4.70%。該技術(shù)還降低了模型在多個標(biāo)記位置的困惑度，進(jìn)一步證明了其有效性。

這項研究為增強LLMs的推理能力提供了新的視角。通過引入外部協(xié)處理器來增強kv緩存，DeepMind團(tuán)隊在保持計算效率的同時，顯著提高了模型性能。這為LLMs處理更復(fù)雜、更具挑戰(zhàn)性的任務(wù)提供了可能，也為未來的研究和應(yīng)用開辟了新的道路。

更多>同類內(nèi)容

亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

谷歌DeepMind新突破：AI模型推理性能提升，計算效率不減