2025 年底，AI agents 的實際使用狀況

看了幾篇 2025 年底 AI agents 使用狀況的研究，整理幾個我比較感興趣的部分。這些報告來源包括 LangChain、麥肯錫、世界經濟論壇、BCG、MIT Sloan、UC Berkeley、UIUC、Stanford、IBM 等單位。

一方面是想了解 AI agents 實際導入到什麼程度，另一方面也是替明年要做的事情，先做點準備。

評估（eval）現在還是勞力密集

Eval 被認為是導入 AI 最重要的環節，但現在 AI agent 的評估還是高度仰賴人工。

已部署的 AI agent 中，70% 以上的團隊只靠人工評估

用 LLM 評估的團隊，也都會搭配人工驗證

缺乏通用的 benchmark

AI agents 幾乎都是高度客製化的任務，在特定流程、特定資料、特定限制條件下，公開 benchmark 很難直接套用。

所以實務上的做法是：

少數團隊自己做 benchmark

多數團隊沒有正式 benchmark，只靠 A/B test、專家 review、或直接看使用者回饋

在已經跑在 production 的 agent 系統裡：

prompt 主要是人類撰寫

LLM 比較常被拿來輔助人類寫 prompt，不是自己產生或優化 prompt

自動 prompt optimization、self-improving loop 這類做法，目前採用率很低。

超過 2/3 的組織在用 OpenAI 的 GPT 模型

超過 3/4 的組織在生產或開發環境中使用多個模型

不少團隊的共識是：「前沿模型 + prompt engineering，對多數使用情境來說已經夠用了。」

就算有用到 Fine-tuning 或開源模型，大部分也都是為了監管需求，或是只針對特定客戶的特定任務。

Fine-tuning 帶來的效益，很難抵銷額外的開發與維運成本。除非是少數高度客製化、且確定能回收成本的情境，否則不會成為企業採用的選項。

60% 以上的企業「至少在嘗試」AI agents

真正大規模部署的不到 10%

AI 目前對整體淨利潤的影響仍然有限。在軟體工程、製造、IT 等領域，已經看到蠻明確的成本效益。收入成長則比較常出現在行銷、銷售、策略與產品開發。

幾乎每份研究都會提到可靠性。不管是在設計、測試，還是已經上線：

可靠性是最優先考量

解法通常是加上更多保護機制、更多人工介入

這也呼應前面提到 eval、prompt 都還是以人工為主。