国产成人精品一区二区免费,国产最新进精品视频,国产亚洲综合成人91精品

英偉達Blackwell DGX系統刷新DeepSeek推理性能世界紀錄

發布時間：2025-03-19 08:53 來源：ITBEAR 作者：沈瑾瑜

英偉達在NVIDIA GTC 2025大會上宣布，其最新推出的NVIDIA Blackwell DGX系統在DeepSeek-R1大模型推理性能上創造了世界紀錄。這一突破性進展標志著英偉達在人工智能推理技術上的又一次飛躍。

據悉，在單個搭載八塊Blackwell GPU的DGX系統上，DeepSeek-R1模型以6710億參數的滿血狀態運行，實現了每用戶每秒超過250 token的響應速度，系統整體吞吐量更是突破了每秒3萬token的大關。這一數據不僅彰顯了Blackwell GPU的強大性能，也展示了英偉達在優化大型語言模型推理方面的深厚實力。

英偉達強調，隨著Blackwell Ultra GPU和Blackwell GPU的不斷升級，NVIDIA平臺將繼續在推理性能上實現新的突破。這一承諾不僅體現在硬件上，還體現在軟件優化上。英偉達通過結合硬件和軟件的力量，自2025年1月以來，成功將DeepSeek-R1 671B模型的吞吐量提高了約36倍。

在會上，英偉達還展示了不同配置下的DGX系統性能。包括DGX B200（8塊GPU）和DGX H200（8塊GPU）在內的單節點配置，在采用TensorRT-LLM軟件的最新內部版本進行測試時，展現了出色的推理性能。測試參數包括輸入1024 token和輸出2048 token，并發性達到最大。在計算精度上，B200采用了FP4精度，而H200則采用了FP8精度。

英偉達還對比了Blackwell架構與Hopper架構在推理性能上的差異。結果顯示，Blackwell架構與TensorRT軟件相結合，可以顯著提升推理性能。在DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B等模型上，使用FP4精度的DGX B200平臺和DGX H200平臺相比，推理吞吐量提高了3倍以上。

英偉達還展示了不同數據集上DeepSeek-R1模型的精度表現。在FP4和FP8精度下，DeepSeek-R1模型在MMLUG、SM8K、AIME 2024、GPQA和DiamondMATH-500等數據集上的表現均十分出色。值得注意的是，在使用TensorRT Model Optimizer的FP4訓練后量化（PTQ）技術時，DeepSeek-R1模型在不同數據集上的精度損失微乎其微，這進一步證明了英偉達在量化技術上的領先地位。

英偉達表示，在對模型進行量化以利用低精度計算優勢時，確保精度損失最小化是生產部署的關鍵。通過不斷的技術創新和優化，英偉達將繼續為客戶提供更高效、更準確的AI推理解決方案。

更多>同類內容

亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

英偉達Blackwell DGX系統刷新DeepSeek推理性能世界紀錄