亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

美團INT8量化技術(shù):老型號GPU也能滿血運行DeepSeek R1

   發(fā)布時間:2025-03-07 19:25 作者:楊凌霄

近期,美團技術(shù)團隊傳來新進(jìn)展,他們成功對DeepSeek R1模型實施了INT8精度量化處理,此舉意味著該模型將不再受限于特定型號的GPU,能夠在更多設(shè)備上實現(xiàn)高效部署。

自DeepSeek R1發(fā)布以來,眾多企業(yè)和個人用戶紛紛嘗試部署其滿血版本。然而,該模型原生版本的權(quán)重格式為FP8,這一格式對GPU芯片類型有著嚴(yán)格要求,僅支持英偉達(dá)的新型GPU,如Ada和Hopper架構(gòu)芯片,而像A100這樣的老型號GPU則無法直接部署。

面對這一挑戰(zhàn),用戶曾嘗試將FP8權(quán)重反量化為BF16權(quán)重,以便在A100等GPU上進(jìn)行推理。然而,這種方法不僅將顯存需求提升了一倍,還導(dǎo)致了推理吞吐量的下降。這顯然不是最優(yōu)解。

為了打破這一僵局,美團搜索和推薦平臺部技術(shù)團隊決定對DeepSeek R1模型進(jìn)行INT8精度量化嘗試。經(jīng)過努力,他們驚喜地發(fā)現(xiàn),量化后的模型在精度上幾乎沒有損失。這一發(fā)現(xiàn)為DeepSeek R1的廣泛應(yīng)用打開了新的大門。

通過INT8量化,DeepSeek R1模型成功解鎖了芯片限制,現(xiàn)在可以在A100等其他型號的GPU上部署。與BF16格式相比,INT8量化后的模型在推理吞吐量上實現(xiàn)了50%的提升,進(jìn)一步降低了推理成本。這對于那些希望在不同硬件環(huán)境中部署DeepSeek R1的用戶來說,無疑是一個重大利好。

美團技術(shù)團隊已經(jīng)將量化代碼開源到了LLM推理框架SGLang上,供行業(yè)內(nèi)外人士參考和使用。同時,量化后的DeepSeek R1模型也已經(jīng)在Hugging Face社區(qū)發(fā)布,用戶可以直接下載和使用。這一舉措無疑將促進(jìn)DeepSeek R1模型的廣泛應(yīng)用和進(jìn)一步發(fā)展。

對于對DeepSeek R1模型量化過程感興趣的用戶,可以查閱美團官方發(fā)布的技術(shù)報告,以獲取更詳細(xì)的信息和了解背后的技術(shù)原理。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群