AI Agent 评估:超越传统 LLM 评估的维度

LLM 评估AI Agent评估openstarry.com

AI Agent 评估:超越传统 LLM 评估的维度

当 LLM 从"回答问题"进化到"执行任务",评估的复杂度也呈指数级增长。AI Agent 的评估需要考察工具使用、多步推理、环境交互等全新维度。

Agent 评估 vs LLM 评估

传统 LLM 评估关注的是"回答质量",而 Agent 评估关注的是"任务完成质量"。两者的评估维度有本质区别:

维度 LLM 评估 Agent 评估
核心目标生成文本质量完成任务效果
交互模式单轮或多轮对话多步骤环境交互
工具使用不涉及需要评估工具调用准确性
状态追踪不涉及需要评估上下文管理能力
错误恢复不涉及需要评估纠错和重试能力
效率指标不涉及需要评估步骤数和成本

Agent 评估的核心维度

1. 任务完成率(Task Success Rate)

最直接的指标:Agent 是否成功完成了目标任务。

任务完成率的定义:
成功完成的任务数
TSR = ─────────────────
       总任务数

评估标准(因任务类型而异):
  问答任务:最终答案是否正确
  操作任务:是否达到了预期状态
  生成任务:输出是否满足约束条件

2. 工具调用准确性(Tool Use Accuracy)

工具调用评估维度:

1. 工具选择:是否选择了正确的工具
   用户: "搜索北京的天气"
   正确: 使用 weather_search API
   错误: 使用 web_search

2. 参数正确性:参数是否准确无误
   正确: search_weather(city="北京")
   错误: search_weather(location="北京天气")  ← 参数名错误

3. 调用时机:是否在需要时调用,不需要时未调用
   用户: "1+1等于几" → 不应该调用计算器

4. 调用次数:是否避免了重复调用或冗余调用
   差: 同一个搜索调用了 3 次
   好: 只调用 1 次,获取了足够信息

3. 多步推理质量(Multi-step Reasoning)

多步推理评估:

步骤完整性:
  任务: "对比 iPhone 16 和 Samsung S25 的价格"
  完整步骤: 搜索价格 → 提取价格 → 格式化对比 → 生成回答
  遗漏步骤: 搜索价格 → 直接回答(未对比)

步骤顺序:
  正确顺序: 先搜索信息,再生成回答
  错误顺序: 先生成回答,再搜索验证

步骤效率:
  最优: 2 步完成
  低效: 7 步完成(包含多次重试和冗余操作)

4. 鲁棒性与错误恢复

错误恢复评估场景:

工具调用失败:
  场景: API 返回 404 错误
  优秀: 尝试替代方案或报告无法完成
  良好: 重试一次
  差: 陷入无限重试循环

信息不足:
  场景: 搜索未返回相关结果
  优秀: 识别信息不足,请求更多信息
  差: 基于不完整信息编造答案

冲突信息:
  场景: 不同来源返回矛盾信息
  优秀: 识别矛盾,说明不确定性
  差: 选择性忽略某些信息

主要 Agent 基准测试

WebArena

WebArena 是一个真实的 Web 环境基准,测试 Agent 在网站上执行复杂任务的能力。

WebArena 任务示例:
1. 电商购物: "在购物网站上找到最便宜的蓝牙耳机并加入购物车"
2. 地图导航: "查找距离办公室最近的咖啡店并获取路线"
3. 代码管理: "在 GitLab 上创建一个新项目并提交代码"
4. 内容管理: "在 CMS 中发布一篇带有图片的博客文章"

评估指标:
- 任务完成率
- 步骤效率(实际步骤 vs 最优步骤)
- 操作准确性

SWE-bench

SWE-bench 评估 Agent 解决真实 GitHub issue 的能力,要求 Agent 阅读代码、定位问题并提交修复。

SWE-bench 评估流程:
1. 给定一个真实的 GitHub issue 描述
2. Agent 需要浏览代码仓库
3. 定位问题根源
4. 编写修复代码
5. 通过项目的测试用例

评估标准:
- 通过的测试用例比例
- 代码修改的正确性
- 是否引入新的 bug

其他重要基准

基准 评估场景 特点
ToolBenchAPI 调用16,000+ 真实 API
AgentBench多环境交互8 种不同环境
GAIA通用 AI 助手需要多工具协作
τ-bench工具使用准确性评估工具调用的精确性
OSWorld操作系统交互桌面环境操作

Agent 评估的最佳实践


总结

AI Agent 评估远比传统 LLM 评估复杂,它需要同时考察任务完成、工具使用、多步推理和错误恢复等多个维度。理解这些评估维度,选择合适的基准测试,能帮助你系统性地衡量和改进 Agent 系统的质量。随着 Agent 能力的不断提升,评估方法也需要持续演进。

以 AI 之力,筑未来之境

现在注册,立即免费获赠 200 次大模型调用权益

免费注册 →