人工智能大模型的迅猛發(fā)展正引領(lǐng)著算力需求的急劇增長,其參數(shù)規(guī)模正向超萬億級別邁進,這無疑對高性能智算基礎(chǔ)設施提出了更高要求。在此背景下,中國移動揭示了算力領(lǐng)域的一項重大革新:傳統(tǒng)單臺智算服務器容納8張GPU芯片的算力模式,正逐步被“超節(jié)點算力集群”所取代。
為了應對這一算力變革,中國移動推出了原創(chuàng)的OISA(全向智感互聯(lián))協(xié)議,旨在構(gòu)建一個高效、智能、靈活且開放的GPU卡間互聯(lián)體系。該體系專為支持大模型訓練、推理及高性能計算等AI應用而生,旨在滿足日益增長的數(shù)據(jù)密集型計算需求。
OISA協(xié)議的設計精髓在于其全向連接和智能感知兩大特性。全向連接確保了大規(guī)模GPU之間的對等通信,使得算力資源得以充分利用。而智能感知則通過定義流量感知標簽,結(jié)合流控和重傳機制,進一步優(yōu)化了數(shù)據(jù)傳輸效率,提升了系統(tǒng)的整體性能。
在協(xié)議層面,OISA采用了多項關(guān)鍵技術(shù),包括精悍的報文格式、內(nèi)存和消息的多語義融合、多層次流控重傳以及預設集合通信加速等。這些技術(shù)的運用,使得OISA能夠?qū)崿F(xiàn)高帶寬、低時延和高可靠的GPU通信能力,為超節(jié)點算力集群的高效運行提供了有力保障。
據(jù)中國移動介紹,目前OISA協(xié)議已迭代至Gen1.1版本,其支持超節(jié)點內(nèi)任意GPU卡間的點對點讀寫互聯(lián)帶寬高達896GB/s。同時,每個OISA-Switch芯片支持128個端口,交換容量達到51.2T,為超節(jié)點算力集群提供了強大的算力支持。
展望未來,中國移動表示將全面支持超節(jié)點算力集群創(chuàng)新聯(lián)合體的發(fā)展,計劃聯(lián)合產(chǎn)業(yè)界優(yōu)先完成在單層Switch條件下基于OISA互聯(lián)技術(shù)的32/64卡超節(jié)點產(chǎn)品落地,并加速推進128卡超節(jié)點產(chǎn)品的研發(fā)與輸出。這一舉措無疑將為人工智能大模型的發(fā)展注入新的動力,推動算力領(lǐng)域邁向新的高度。