OpenStarry Blog

标签：LLM 评估

「LLM 评估」分类下共 4 篇文章。

全部 Coding Plan IDE 配置平台接入 AI 前沿选型指南 + 效率实战 AI行业观察服务升级工具对比行业分析选型指南 AI Agent 个人AI行业事件解读 token计费 LLM 评估 API工程实践实践教程效率实战个人AI行业观察 🔧 技术教程前沿趋势 🔧 技术教程 📅 2026-07-13 大模型应用架构、出海创业、API 工程实践、系统容灾 #GLM5.2 #AI 编码算力 # 工程级代码开发 # 开发者算力服务 # 大模型订阅套餐答疑套餐指南接入教程技术教程 AI Agent 平台 Codex, OpenStarry, AI编程, GLM, 教程 GLM-5.2, API, 错误码, 开发者, 教工具教程大模型开发工具对比评测生成模型 AI 基础 RLHF/对齐 RAG/检索训练优化 IDE 接入教程 ChatGPT 国内接入 Claude 国内接入技术深度成本优化迁移指南模型解读场景对比 · 客观评测平台对比 · 重写版行业洞察安全指南

LLM API 开发最大误区：AI 说“文件已保存” ≠ 磁盘有文件 | 附30秒自检清单

文章揭示了API开发者的普遍认知误区——认为给AI下发"保存文件"的指令等同于实际落盘，并提供了快速定位、分类诊断和系统性修复方案。

📅 2026-07-22

LLM 评估方法论：如何科学衡量大模型能力

系统介绍 LLM 评估的核心方法：自动指标、基准测试、人工评估，以及当前评估面临的主要挑战和前沿方向。

📅 2026-06-09

用 LLM 评估 LLM：大模型裁判的方法与实践

LLM-as-Judge 用强大的语言模型评估其他模型的输出，是当前最流行的自动化评估方法。深入理解其工作原理、偏见问题和最佳实践。

📅 2026-06-09

AI Agent 评估：超越传统 LLM 评估的维度

AI Agent 涉及多步骤推理、工具调用和环境交互，传统 LLM 评估指标无法覆盖。本文介绍 Agent 评估的独特维度、基准测试和实践方法。

📅 2026-06-09