亞馬遜AWS近日宣布,其內部團隊研發的AI訓練芯片Trainium2已正式進入廣泛應用階段,并隨之推出了搭載該芯片的Trn2實例。AWS還揭曉了Trn2 UltraServer大型AI訓練系統,以及更為先進的3nm制程Trainium3芯片。
Trainium2芯片作為AWS的新星,每個Trn2實例內置了16顆這樣的芯片。通過超高速、高帶寬、低延遲的NeuronLink互聯技術,Trn2實例能夠提供高達20.8 petaflops的峰值算力,這對于訓練和處理數以億計參數的模型來說,無疑是一個強大的助力。
AWS聲稱,與當前基于GPU的EC2 P5e和P5en實例相比,Trn2實例在性價比上提升了30-40%,為用戶帶來了更為經濟的AI訓練解決方案。
而Trn2 UltraServer則進一步擴大了算力的邊界。通過NeuronLink技術,4臺Trn2服務器被巧妙地聚合在一起,形成了包含64顆Trainium2芯片的超級系統,其算力峰值可達83.2 petaflops。這一強大的算力,足以滿足當前全球最大規模模型的訓練和部署需求。
不僅如此,AWS還展示了Trn2 UltraServer的實體機架,其規模之大、算力之強,令人嘆為觀止。
AWS還與投資的AI模型企業Anthropic攜手,共同打造名為Project Rainier的EC2 UltraCluster巨型計算集群。這個集群將包含大量的Trn2 UltraServer,總計擁有數十萬顆Trainium2芯片,其算力之強,有望成為全球公開的最大AI計算集群。
據透露,這個巨型計算集群的算力,將是Anthropic目前用于訓練最先進Claude模型所需算力的5倍以上,這無疑將極大地推動AI技術的發展。
AWS還透露了其下一代AI訓練芯片Trainium3的信息。作為AWS首款采用3nm制程的芯片產品,Trainium3的性能將遠超現有的Trainium2。基于Trainium3的UltraServer性能預計可達Trn2 UltraServer的4倍,而首批基于Trainium3的實例也將在2025年底正式推出。