AI助理失誤研究:針對Claude Computer Use模式進行測試

1732366305 20241111102810630

Anthropic 去年 10 月推出了 Claude 的「Computer Use」功能,讓大型語言模型能夠直接控制電腦進行各種操作。新加坡國立大學的 Show Lab 對此功能進行了深入的測試,旨在研究 AI 代理的能力和限制。

Claude 的「Computer Use」功能是一種圖形使用者介面(GUI)代理,通過分析用戶看到的界面來互動,無需 API 即可自動化多種操作。研究團隊測試了 Claude 在網頁搜尋、工作流程、辦公生產力和遊戲等方面的表現,評估維度包括規劃、執行和評估三方面。

研究結果顯示,Claude 在執行複雜任務上展現了良好表現。它能夠合理規劃多步驟任務,協調不同應用程式的操作,並能持續評估任務進度。然而,模型也在某些方面出現基本錯誤,如未能滾動網頁找到按鈕或在簡單的文字編輯中發生失誤,並且通常無法正確評估自己的錯誤。

研究指出,這項技術目前對企業的大規模部署而言尚未成熟。模型行為的不穩定性可能導致不可預測的結果,而且通過 GUI 介面執行工作的效率遠低於使用 API。研究人員建議,此類工具更適合在產品團隊中用於創意探索和方案迭代,而非直接用於生產環境。

  • DuckDuckGo搜尋流量激增,用戶不滿Google AI. Important: Do not include any text, letters, words, or writing in the image.
    2026-06-02
  • iOS 27 獨立 Siri App 詳細功能與設計一覽. Important: Do not include any text, letters, words, or writing in the image.
    2026-06-02
  • 極簡沉浸式閱讀器 EPUB Reader Pro 特價限時免費下載. Important: Do not include any text, letters, words, or writing in the image.
    2026-06-02
  • 2026-06-02
  • 2026-06-02
  • 2026-06-02
  • DuckDuckGo搜尋流量激增,用戶不滿Google AI. Important: Do not include any text, letters, words, or writing in the image.
    2026-06-02
  • iOS 27 獨立 Siri App 詳細功能與設計一覽. Important: Do not include any text, letters, words, or writing in the image.
    2026-06-02
  • 極簡沉浸式閱讀器 EPUB Reader Pro 特價限時免費下載. Important: Do not include any text, letters, words, or writing in the image.
    2026-06-02
  • 2026-06-02
  • 2026-06-02
  • 2026-06-02
  • Meta AI支持機器人,助駭客劫持Instagram帳號. Important: Do not include any text, letters, words, or writing in the image.
    2026-06-02
  • image 3
    2025-12-18