據(jù)最新消息,谷歌正籌備在12月展示其對大型動作模型Rabbit的初步構(gòu)想,該項目內(nèi)部代號為Project Jarvis。Jarvis旨在通過智能技術(shù)幫助用戶完成日常網(wǎng)絡(luò)任務(wù),如研究收集、產(chǎn)品購買及航班預(yù)訂。
據(jù)悉,Jarvis將搭載谷歌Gemini的未來版本,特別針對Chrome瀏覽器進行了優(yōu)化,需與網(wǎng)絡(luò)瀏覽器配合使用。
Jarvis的工作原理是通過截取和解析屏幕截圖,自動執(zhí)行點擊按鈕或輸入文本等操作,以簡化用戶的網(wǎng)絡(luò)任務(wù)流程。然而,目前該工具在執(zhí)行操作間仍需幾秒鐘的等待時間。
其他科技巨頭也在積極探索類似技術(shù)。微軟已推出Copilot Vision,可讓用戶與網(wǎng)頁進行交互;Apple Intelligence則預(yù)計明年將實現(xiàn)屏幕內(nèi)容識別與跨應(yīng)用操作執(zhí)行。
Anthropic也發(fā)布了Claude測試版更新,而OpenAI據(jù)傳也在開發(fā)類似功能。值得注意的是,谷歌12月展示Jarvis的計劃仍有可能變動,公司可能會先向少量測試人員開放該功能以進行漏洞排查。