近日,科技界迎來了一項新的突破,Hugging Face公司于1月26日正式推出了兩款精心打造的多模態模型——SmolVLM-256M與SmolVLM-500M。這兩款模型是從去年訓練的龐大800億參數模型中提煉而出,成功地在性能與資源消耗之間找到了完美的平衡點。
據悉,SmolVLM-256M采用了先進的SigLIP作為圖像編碼技術,而更高級別的SmolVLM-500M則配備了更為強大的SmolLM2文本編碼器。尤為引人注目的是,SmolVLM-256M憑借其小巧的體積,成功躋身當前最小的多模態模型之列。它不僅能夠接收任意序列的圖像與文本輸入,還能生成豐富的文字輸出,涵蓋圖片描述、視頻字幕生成乃至PDF處理等多樣化功能。
在資源占用方面,這兩款模型同樣展現出了極高的效率。對于移動設備而言,SmolVLM-256M僅需不到1GB的GPU顯存即可完成單張圖片的推理任務,這對于移動應用開發來說無疑是個巨大的福音。而對于追求更高性能的企業級應用環境,SmolVLM-500M則提供了更為精準的輸出結果,盡管其資源需求稍高,僅需1.23GB的GPU顯存,但其在處理復雜任務時的表現更為出色。
值得注意的是,Hugging Face此次推出的兩款模型均采用了Apache 2.0開源授權,這意味著開發者可以自由地獲取、修改和分發這些模型。公司還貼心地提供了基于transformer和WebGUI的示例程序,大大降低了開發者的上手難度。所有模型及其演示代碼均已在公開平臺上發布,方便開發者下載與使用。