阿里云近日宣布了一項重大技術(shù)突破,正式向公眾開源了其通義系列中的首款全模態(tài)大模型——Qwen2.5-Omni-7B。
這款模型的最大亮點在于其端到端的處理能力,能夠同時應(yīng)對文本、圖像、音頻和視頻等多種形式的輸入,并即時生成文本輸出與自然語音合成。這意味著,無論是文字對話、圖像識別,還是語音交互,Qwen2.5-Omni-7B都能輕松應(yīng)對。
在業(yè)界權(quán)威的多模態(tài)融合任務(wù)OmniBench的測評中,Qwen2.5-Omni展現(xiàn)出了非凡的實力,刷新了多項紀(jì)錄,全面超越了包括谷歌Gemini-1.5-Pro在內(nèi)的同類模型。這一成就不僅彰顯了阿里云在人工智能領(lǐng)域的深厚積累,更為全球AI技術(shù)的發(fā)展樹立了新的標(biāo)桿。
Qwen2.5-Omni-7B的開源,使得全模態(tài)大模型在產(chǎn)業(yè)中的廣泛應(yīng)用成為可能。相較于那些擁有數(shù)千億參數(shù)的閉源大模型,Qwen2.5-Omni-7B以僅7B的參數(shù)規(guī)模,實現(xiàn)了高效能與低門檻的完美結(jié)合。這意味著,即便是在資源有限的設(shè)備上,如智能手機,也能輕松部署和應(yīng)用這款模型。
阿里云表示,自2023年以來,通義團隊已陸續(xù)開發(fā)出覆蓋0.5B至110B等多種參數(shù)規(guī)模的全尺寸大模型,涵蓋了文本生成、視覺理解與生成、語音理解與生成以及文生圖與視頻模型等全模態(tài)領(lǐng)域。Qwen2.5-Omni-7B的開源,正是這一系列成果的集中體現(xiàn)。
目前,Qwen2.5-Omni已在多個平臺同步開源,包括魔搭社區(qū)、Hugging Face以及GitHub上的QwenLM倉庫。用戶可以通過這些平臺輕松獲取模型,并在Qwen Chat上直接體驗其強大的功能。
此次開源行動,不僅為開發(fā)者提供了豐富的資源和工具,更將推動人工智能技術(shù)在更廣泛的領(lǐng)域得到應(yīng)用和發(fā)展。阿里云以其開放的態(tài)度和強大的技術(shù)實力,為全球AI技術(shù)的創(chuàng)新和發(fā)展注入了新的活力。