7. AI 自动化评测怎么落地

AI 应用不能只靠人工体验来判断好坏。Prompt 改了、模型升级了、知识库更新了、参数调整了，都可能影响输出质量。如果没有自动化评测，团队很难知道这次变更是提升还是退化。AI 自动化评测的目标，就是把评测集、模型调用、评分规则、结果对比和报告生成工程化，让 AI 质量可以持续监控。

AI 自动化评测不是简单批量调用模型，而是要有标准数据、评分维度、可复现执行、失败样本分析和上线门禁。

一、为什么需要自动化评测

AI 应用变化频繁：

Prompt 修改；
模型版本升级；
知识库更新；
检索参数调整；
Agent 工具变化；
安全策略调整。

每次变化都可能引入回归。

自动化评测可以发现：

准确率下降；
格式错误增加；
幻觉增加；
拒答异常；
安全绕过；
引用错误；
某类问题退化。

二、自动化评测流程

推荐流程：

准备评测集 -> 批量调用 AI 应用 -> 保存输入输出 -> 自动评分 -> 人工抽检 -> 生成报告 -> 对比历史版本

如果用于上线门禁，还要设置通过标准。

三、评测集管理

评测集是核心资产。

字段可以包括：

case_id；
用户问题；
场景标签；
标准答案；
标准证据；
预期行为；
风险等级；
是否需要人工复核。

评测集要持续维护，加入线上真实失败案例。

四、批量执行

自动化脚本要支持：

批量读取评测集；
调用模型或 AI 应用接口；
记录模型版本；
记录 Prompt 版本；
记录 temperature 等参数；
保存响应时间；
保存完整输出；
支持重试和限流。

没有参数记录，结果不可复现。

五、评分方式

自动评分可以组合使用：

规则评分：格式、关键词、字段、引用；
语义相似度：答案和标准答案相似；
模型评分：用 judge 模型按 rubric 打分；
人工抽检：关键样本人工确认。

不同问题用不同评分方式，不要一种方法打天下。

六、报告怎么做

报告应包含：

总体通过率；
平均分；
各类问题得分；
格式错误率；
幻觉样本；
安全失败样本；
与上版本对比；
Top 失败原因；
建议优化方向。

报告要能回答：这次改动是变好还是变差。

七、CI/CD 集成

AI 自动化评测可以接入流水线：

Prompt 合并前评测；
模型升级前评测；
知识库更新后评测；
每日定时评测；
上线前门禁。

如果关键指标低于阈值，则阻止上线或要求人工复核。

八、失败样本沉淀

评测失败样本很有价值。

要沉淀：

用户问题；
模型输出；
标准答案；
失败原因；
修复方案；
是否加入回归集。

AI 测试的评测集应该随着线上问题不断增强。

九、常见难点

没有标准答案；
模型输出不稳定；
模型评分不完全可靠；
评测成本高；
高风险样本需要人工；
线上真实问题难分类；
Prompt 改动影响面大。

解决思路是混合评分、人工抽检、分层评测和版本对比。

十、面试回答模板

如果面试官问“AI 自动化评测怎么落地”，可以这样回答：

AI 自动化评测我会先建立评测集，覆盖正常业务问题、边界问题、未知问题、安全问题和线上失败样本。然后写脚本批量调用 AI 应用接口，记录模型版本、Prompt 版本、参数、输入输出和响应时间。评分上结合规则评分、语义相似度、模型 judge 和人工抽检，比如格式类用规则，答案质量用模型评分，高风险样本人工复核。最后生成报告，展示总体通过率、分类得分、幻觉率、格式错误率、安全失败样本和与历史版本对比。评测可以接入 CI，在 Prompt 或模型升级时作为上线门禁。

十一、常见追问

追问：没有标准答案怎么办？

可以定义评分标准，用模型评分和人工标注结合；也可以对关键事实点进行 checklist 评分。

追问：自动化评测能完全替代人工吗？

不能。它适合大规模回归和初筛，高风险和复杂语义问题仍需要人工抽检。

追问：如何判断新版本是否退化？

用同一评测集、同一参数对比新旧版本，在分类指标和失败样本上分析差异。

十二、练习清单

设计评测集字段；
写批量调用脚本；
保存模型输出；
做 JSON 格式评分；
做关键词评分；
用模型 judge 打分；
人工抽检样本；
对比 Prompt 版本；
生成评测报告；
设置上线阈值。

AI 自动化评测的价值是让模型质量可度量、可回归、可对比。没有评测体系，AI 应用质量只能靠感觉。

配套刷题：

AI测试基础面试题

下一步可以看这些