看了幾篇 2025 年底 AI agents 使用狀況的研究,整理幾個我比較感興趣的部分。這些報告來源包括 LangChain、麥肯錫、世界經濟論壇、BCG、MIT Sloan、UC Berkeley、UIUC、Stanford、IBM 等單位。

一方面是想了解 AI agents 實際導入到什麼程度,另一方面也是替明年要做的事情,先做點準備。


評估(eval)現在還是勞力密集

Eval 被認為是導入 AI 最重要的環節,但現在 AI agent 的評估還是高度仰賴人工。

已部署的 AI agent 中,70% 以上的團隊只靠人工評估

用 LLM 評估的團隊,也都會搭配人工驗證

缺乏通用的 benchmark

AI agents 幾乎都是高度客製化的任務,在特定流程、特定資料、特定限制條件下,公開 benchmark 很難直接套用。

所以實務上的做法是:

少數團隊自己做 benchmark

多數團隊沒有正式 benchmark,只靠 A/B test、專家 review、或直接看使用者回饋


Prompt 現在也都還是人寫,不是 AI 寫

在已經跑在 production 的 agent 系統裡:

prompt 主要是人類撰寫

LLM 比較常被拿來輔助人類寫 prompt,不是自己產生或優化 prompt

自動 prompt optimization、self-improving loop 這類做法,目前採用率很低。


OpenAI 模型仍是主流,但沒有人只用一個模型

超過 2/3 的組織在用 OpenAI 的 GPT 模型

超過 3/4 的組織在生產或開發環境中使用多個模型


Fine-tuning 模型使用比例很低,使用開源模型比例也很低

不少團隊的共識是:「前沿模型 + prompt engineering,對多數使用情境來說已經夠用了。」

就算有用到 Fine-tuning 或開源模型,大部分也都是為了監管需求,或是只針對特定客戶的特定任務。

Fine-tuning 帶來的效益,很難抵銷額外的開發與維運成本。除非是少數高度客製化、且確定能回收成本的情境,否則不會成為企業採用的選項。


AI agents 大家都有興趣,但還在早期實驗階段

60% 以上的企業「至少在嘗試」AI agents

真正大規模部署的不到 10%

AI 目前對整體淨利潤的影響仍然有限。在軟體工程、製造、IT 等領域,已經看到蠻明確的成本效益。收入成長則比較常出現在行銷、銷售、策略與產品開發。


大家最在意的仍然是可靠性

幾乎每份研究都會提到可靠性。不管是在設計、測試,還是已經上線:

可靠性是最優先考量

解法通常是加上更多保護機制、更多人工介入

這也呼應前面提到 eval、prompt 都還是以人工為主。

延伸閱讀