IT之家 10 月 27 日消息,據 The Information 報道,谷歌計劃在 12 月預覽其大型動作模型“Project Jarvis”。知情人士透露,該項目將幫助用戶執行諸如“收集研究、購買產品或預訂航班”等任務。
報道稱,“Jarvis”將由未來版本的谷歌 Gemini 驅動,專門針對 Chrome 瀏覽器進行優化。該工具旨在通過截取屏幕截圖、解析內容并自動點擊按鈕或輸入文本,幫助用戶“自動化日常的網頁任務”。目前,該工具在執行不同操作的時候,中間會有幾秒鐘的間隔時間。
IT之家注意到,目前所有大型 AI 公司都在研發類似功能的模型。微軟的 Copilot Vision 可以與用戶討論正在瀏覽的網頁;蘋果的 Apple Intelligence 預計將在明年具備跨多個應用程序的屏幕識別能力;Anthropic 剛剛推出的 Claude 測試版已能在計算機上執行操作;OpenAI 也在研發類似的功能。
報道稱,谷歌展示“Jarvis”的計劃也可能會有所變動,預計將首先向少量測試者發布,以幫助公司修復潛在的 Bug。