北京智譜華章科技有限公司近日宣布了一項重要進展,其自主研發的智譜GLM-PC現已面向公眾開放體驗。這一創新技術被公司稱為“自主操作電腦的多模態Agent再度升級”,旨在為用戶帶來前所未有的電腦使用體驗。
GLM-PC基于智譜華章的多模態大模型CogAgent,是全球首個允許公眾直接通過回車使用的電腦智能體。它不僅能夠像人類一樣“觀察”和“操作”電腦,還能協助用戶高效完成各類復雜的電腦任務。自2024年11月29日首次發布并開放內測以來,GLM-PC不斷迭代升級,如今推出了“深度思考”模式,并增強了邏輯推理和代碼生成功能,同時實現了對Windows系統的全面支持。
GLM-PC的強大功能體現在多個方面。在代碼生成與邏輯執行上,它能夠綜合分析任務目標和可用資源,生成清晰的執行路線圖,并將大型任務自動拆解為可管理的子任務。隨后,通過啟動代碼生成模塊,GLM-PC能夠執行邏輯循環,逐步推進任務完成,整個過程無需人工干預,實現了從輸入到輸出的完整閉環。
更GLM-PC具備長思考能力。它能夠在執行任務過程中實時調整策略,反思修正和自我糾錯,不斷優化解決方案。例如,當流程因外部因素中斷時,GLM-PC能夠重構邏輯路徑;遇到信息缺失時,它會主動與用戶交互,通過提問來完善任務執行方案,確保任務能夠順利完成。
在圖像與GUI認知方面,GLM-PC同樣表現出色。它能夠準確識別圖形界面元素,如按鈕、圖標、布局等,并理解這些元素的功能與交互邏輯。結合對用戶界面的學習和歷史操作信息的理解,GLM-PC能夠為用戶提供當前界面的智能推薦操作,提升用戶的使用效率。
GLM-PC還具備圖像語義解析能力。它能夠對復雜圖像進行深入語義分析,提取關鍵信息,如文字、標識符以及數據可視化圖表中的趨勢和指標。這一功能使得GLM-PC能夠更好地理解用戶意圖,為用戶提供更加精準的服務。
在多模態信息融合方面,GLM-PC同樣展現出了強大的實力。它能夠融合圖像與文字信息,形成全面感知結果。例如,在用戶界面中,GLM-PC能夠同時識別按鈕位置與文字標簽,為用戶制定精準的操作計劃,助力用戶高效完成電腦任務。