看了幾篇 2025 年底 AI agents 使用狀況的研究,整理幾個我比較感興趣的部分。這些報告來源包括 LangChain、麥肯錫、世界經濟論壇、BCG、MIT Sloan、UC Berkeley、UIUC、Stanford、IBM 等單位。
一方面是想了解 AI agents 實際導入到什麼程度,另一方面也是替明年要做的事情,先做點準備。
評估(eval)現在還是勞力密集
Eval 被認為是導入 AI 最重要的環節,但現在 AI agent 的評估還是高度仰賴人工。
已部署的 AI agent 中,70% 以上的團隊只靠人工評估
用 LLM 評估的團隊,也都會搭配人工驗證
缺乏通用的 benchmark
AI agents 幾乎都是高度客製化的任務,在特定流程、特定資料、特定限制條件下,公開 benchmark 很難直接套用。
所以實務上的做法是:
少數團隊自己做 benchmark
多數團隊沒有正式 benchmark,只靠 A/B test、專家 review、或直接看使用者回饋
Prompt 現在也都還是人寫,不是 AI 寫
在已經跑在 production 的 agent 系統裡:
prompt 主要是人類撰寫
LLM 比較常被拿來輔助人類寫 prompt,不是自己產生或優化 prompt
自動 prompt optimization、self-improving loop 這類做法,目前採用率很低。
OpenAI 模型仍是主流,但沒有人只用一個模型
超過 2/3 的組織在用 OpenAI 的 GPT 模型
超過 3/4 的組織在生產或開發環境中使用多個模型
Fine-tuning 模型使用比例很低,使用開源模型比例也很低
不少團隊的共識是:「前沿模型 + prompt engineering,對多數使用情境來說已經夠用了。」
就算有用到 Fine-tuning 或開源模型,大部分也都是為了監管需求,或是只針對特定客戶的特定任務。
Fine-tuning 帶來的效益,很難抵銷額外的開發與維運成本。除非是少數高度客製化、且確定能回收成本的情境,否則不會成為企業採用的選項。
AI agents 大家都有興趣,但還在早期實驗階段
60% 以上的企業「至少在嘗試」AI agents
真正大規模部署的不到 10%
AI 目前對整體淨利潤的影響仍然有限。在軟體工程、製造、IT 等領域,已經看到蠻明確的成本效益。收入成長則比較常出現在行銷、銷售、策略與產品開發。
大家最在意的仍然是可靠性
幾乎每份研究都會提到可靠性。不管是在設計、測試,還是已經上線:
可靠性是最優先考量
解法通常是加上更多保護機制、更多人工介入
這也呼應前面提到 eval、prompt 都還是以人工為主。