近日,銀河通用攜手北京智源人工智能研究院(BAAI)、北京大學及香港大學的科研團隊,共同發布了一款名為GraspVLA的突破性大模型。這款模型專注于具身智能領域,旨在通過人工智能技術的深度融入,使機器人等物理實體具備感知、學習和與環境動態交互的能力。
GraspVLA大模型的構建過程包括預訓練和后訓練兩個階段。其預訓練階段完全基于海量的合成大數據,數據量之巨前所未有,達到了十億幀“視覺-語言-動作”對。這一龐大的數據集使模型掌握了泛化閉環抓取能力,奠定了堅實的基礎。
經過預訓練的GraspVLA模型,能夠直接實現從模擬環境到現實環境的無縫遷移。在未見過的真實場景和物體上,模型無需任何先驗知識即可進行測試,并展現出強大的泛化能力,滿足了大多數產品的實際需求。對于特定場景下的特殊需求,后訓練階段僅需少量樣本學習,即可將基礎能力遷移至特定場景,既保持了高泛化性,又形成了符合產品需求的專業技能。
為了驗證GraspVLA模型的泛化能力,官方提出了七大“金標準”,包括光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態干擾泛化和物體類別泛化。這些標準全面覆蓋了機器人抓取任務中可能遇到的各種復雜情況。
在光照泛化測試中,模型在不同光照條件下均能保持穩定的抓取性能。背景泛化測試中,模型在復雜多變的背景下依然能夠準確識別目標物體。平面位置泛化和空間高度泛化測試中,模型能夠靈活應對不同位置和高度的目標物體。動作策略泛化測試中,模型展現了多樣化的抓取策略。動態干擾泛化測試中,模型在動態環境中依然能夠準確抓取目標。物體類別泛化測試中,模型對不同類別的物體均展現出了良好的抓取能力。
GraspVLA大模型的發布,標志著具身智能領域取得了重大進展。它不僅提升了機器人在復雜環境中的抓取能力,還為未來人工智能與物理實體的深度融合奠定了堅實基礎。