「LLM 评估」分类下共 3 篇文章。
系统介绍 LLM 评估的核心方法:自动指标、基准测试、人工评估,以及当前评估面临的主要挑战和前沿方向。
LLM-as-Judge 用强大的语言模型评估其他模型的输出,是当前最流行的自动化评估方法。深入理解其工作原理、偏见问题和最佳实践。
AI Agent 涉及多步骤推理、工具调用和环境交互,传统 LLM 评估指标无法覆盖。本文介绍 Agent 评估的独特维度、基准测试和实践方法。