科技媒體servethehome近日受邀參觀了由xAI公司打造的全球最大AI訓練集群——Colossus,這一壯舉展示了AI技術的迅猛發展。據悉,xAI在短短122天內便成功搭建了10萬張英偉達H100 GPU,并計劃未來再增加10萬張,其中包括5萬張更先進的H200。
Colossus集群配備了英偉達HGX H100服務器,每臺服務器內含8張H100 GPU,所有服務器均在Supermicro的4U水冷系統中高效運行。每個機架可容納8臺服務器,組成1個含有512個GPU的陣列,整個集群則擁有超過1500個GPU機架。
為了確保高效的數據傳輸,每個GPU都配備了400GbE的網絡接口控制器,使每臺HGX H100服務器達到3.6 Terabit每秒的以太網帶寬。xAI采用了Supermicro的4U通用GPU系統,這些系統憑借先進的液冷技術,提升了散熱效率,確保了高性能計算的穩定性。
此次展示活動得到了埃隆·馬斯克及其團隊的特別批準,由于構建全球最大AI集群的敏感性,部分內容在視頻中進行了模糊處理。Supermicro作為此次巡展的贊助商,進一步彰顯了其在AI行業中的重要地位。