AMD近日在AI及高性能計算領域邁出重要一步,發布了ROCm 6.3版本更新。此次更新不僅集成了專為AI推理加速設計的SGLang運行時,還對FlashAttention-2進行了全面優化,旨在提升AI訓練和推理的效率。
SGLang的加入,標志著AMD在優化大型語言模型(LLMs)和視覺語言模型(VLMs)推理方面取得了新進展。AMD承諾,通過集成SGLang,能夠在AMD Instinct GPU上實現高達6倍的吞吐量提升。SGLang還支持Python,并配備了預配置的ROCm Docker容器,為用戶提供了更為便捷的使用體驗。
在FlashAttention-2方面,AMD進行了全面革新。相較于FlashAttention-1,新版本在前向和后向傳遞方面取得了顯著改進,從而大幅提升了Transformer模型的訓練和推理速度。這一改進對于依賴Transformer架構的AI應用而言,無疑是一個重大利好。
除了上述更新外,AMD還推出了全新的Fortran編譯器。這款編譯器支持直接GPU卸載,與舊版本兼容,并完美集成了HIP內核和ROCm庫。這為Fortran開發者提供了更為強大的GPU計算能力,使他們能夠更高效地利用AMD GPU進行高性能計算。
在圖像和視頻處理方面,ROCm 6.3也帶來了諸多增強。rocDecode、rocJPEG和rocAL等計算機視覺庫得到了全面升級,分別支持AV1編解碼、GPU加速JPEG解碼以及更優的音頻增強功能。這些改進為圖像和視頻處理應用提供了更為強大的支持,使得AMD GPU在多媒體處理領域也展現出了出色的性能。
ROCm(Radeon Open Compute)是AMD開發的一個開源軟件棧,旨在支持在AMD GPU上進行編程。它包含了驅動程序、開發工具和API,支持從底層內核到最終用戶應用程序的GPU編程。ROCm針對生成式AI和高性能計算(HPC)應用進行了優化,并涵蓋了通用計算(GPGPU)、高性能計算(HPC)和異構計算等多個領域。
此次ROCm 6.3的發布,不僅展示了AMD在AI和高性能計算領域的持續投入和創新,也為廣大開發者提供了更為強大和便捷的編程工具。相信隨著ROCm的不斷完善和發展,AMD GPU將在更多領域展現出其卓越的性能和潛力。