AI助理新革命!「電腦代理競技場」讓AI幫你搞定複雜電腦任務
想像一下,只要點選一下,AI就能幫你規劃旅遊行程、訂購機票、安排機場接送,這聽起來像是科幻電影的情節,但現在國際研究團隊正將這個夢想變成現實。來自滑鐵盧大學、香港大學、Salesforce研究院和卡內基梅隆大學的研究人員聯手開發了「電腦代理競技場」(Computer Agent Arena),這是一個能夠提升和創造電腦代理的評估平臺。
所謂的電腦代理,是一種能夠代替人類或組織執行任務的軟體,不需要持續的人為幹預。它可以解讀電腦狀態,並自主行動來幫助使用者解決問題。像是Siri和Alexa這樣的語音助理就是典型的例子,它們能協助使用者傳送訊息和安排會議。
然而,基於AI的電腦代理在處理複雜電腦任務時仍面臨挑戰,因為這需要控制多個電腦應用程式和執行多個步驟。舉例來說,報銷費用可能很困難,因為這需要搜尋多封電子郵件和資料夾中的銀行對帳單和收據來更新試算表。
「電腦代理競技場」是第一個專注於跨多個應用程式執行多樣任務的互動式電腦使用評估平臺。這項工作是研究人員在OSWorld(世界上第一個可擴充套件的真實電腦環境)基礎上的延伸。共同開發者、滑鐵盧大學Cheriton電腦科學學院助理教授Victor Zhong博士表示:「電腦代理競技場為研究社群提供了一個平臺,可以開發出有效且高效的代理,並將其推廣到真實世界的電腦使用中。」
與Mind2Web和WebArena等類似研究不同,「電腦代理競技場」提供了統一的應用程式介面,可以在多個應用程式的可執行環境中進行全面的觀察和操作。透過這個平臺,使用者可以基於大型語言模型(LLM)和視覺語言模型來評估和比較各種電腦代理。
使用者首先選擇一個作業系統(如Windows)和應用程式(如Google Chrome和Excel),然後向電腦代理下達任務,兩個AI模型會即時同時執行。完成後,使用者可以評分並提供反饋。研究團隊最終希望提供一個多樣且動態的平臺,來建立和評估能夠像人類一樣安全、有效且高效地執行真實世界電腦任務的代理。
Zhong博士指出:「我們目前的研究顯示,像GPT4和Claude這樣的基礎模型,距離能夠安全有效地擔任助理電腦代理還有很長的路要走。電腦代理競技場為開發下一代AI代理提供了一個及時的測試平臺。」