近日,無問芯穹公司震撼發布了一項重大開源舉措,將其端側解決方案中的兩大核心模型——全模態理解小模型Megrez-3B-Omni及其純語言版本Megrez-3B-Instruct,向公眾開放。
Megrez-3B-Omni被設計為專為終端而生的全模態理解模型,它集圖片、音頻、文本三種模態數據的處理能力于一身,展現了強大的跨模態融合能力。在圖像理解領域,Megrez-3B-Omni在OpenCompass、MME、MMMU、OCRBench等多個主流測試集上脫穎而出,其精度令人矚目。
在文本理解方面,Megrez-3B-Omni同樣表現出色,它在C-eval、MMLU / MMLU Pro、AlignBench等多個權威測試集上取得了端上模型的最優精度,彰顯了其在自然語言處理領域的卓越實力。
更令人贊嘆的是,Megrez-3B-Omni在語音理解領域也展現出了強大的實力。它支持中文和英文的語音輸入,能夠處理復雜的多輪對話場景,還能對輸入的圖片或文字進行語音提問,實現了不同模態間的自由切換,為用戶帶來了前所未有的交互體驗。
除了全模態理解小模型Megrez-3B-Omni外,無問芯穹還開源了其純語言版本Megrez-3B-Instruct。據官方宣稱,與上一代及其他端側大語言模型相比,單模態版本的Megrez-3B-Instruct在推理速度上取得了顯著提升,最大推理速度可以領先同精度模型300%,為用戶提供了更加高效、快速的語言處理服務。
對于此次開源舉措,無問芯穹表示,他們希望通過開放這兩個核心模型,推動人工智能領域的技術創新和應用發展,為更多開發者提供強有力的技術支持和合作機會。同時,他們也歡迎廣大開發者積極參與到模型的優化和應用中來,共同推動人工智能技術的不斷進步。