Anthropic 去年 10 月推出了 Claude 的「Computer Use」功能,讓大型語言模型能夠直接控制電腦進行各種操作。新加坡國立大學的 Show Lab 對此功能進行了深入的測試,旨在研究 AI 代理的能力和限制。
Claude 的「Computer Use」功能是一種圖形使用者介面(GUI)代理,通過分析用戶看到的界面來互動,無需 API 即可自動化多種操作。研究團隊測試了 Claude 在網頁搜尋、工作流程、辦公生產力和遊戲等方面的表現,評估維度包括規劃、執行和評估三方面。
研究結果顯示,Claude 在執行複雜任務上展現了良好表現。它能夠合理規劃多步驟任務,協調不同應用程式的操作,並能持續評估任務進度。然而,模型也在某些方面出現基本錯誤,如未能滾動網頁找到按鈕或在簡單的文字編輯中發生失誤,並且通常無法正確評估自己的錯誤。
研究指出,這項技術目前對企業的大規模部署而言尚未成熟。模型行為的不穩定性可能導致不可預測的結果,而且通過 GUI 介面執行工作的效率遠低於使用 API。研究人員建議,此類工具更適合在產品團隊中用於創意探索和方案迭代,而非直接用於生產環境。








