2. 大模型评测怎么做
大模型评测是 AI 测试中的核心能力。传统测试通常有明确输入和预期输出,而大模型输出往往是开放式文本,可能存在多种正确答案。因此,大模型评测不能只靠简单断言,而要从准确性、完整性、相关性、稳定性、安全性、格式遵循、业务适配等维度综合判断。
面试中问“大模型评测怎么做”,不要只说“让模型回答问题,然后人工看”。更完整的做法是构建评测集、定义评分标准、批量执行、自动化评分、人工抽检、对比不同模型或 Prompt,并输出评测报告。
一、大模型评测目标
评测前要先明确目标。
常见目标:
- 比较不同模型效果;
- 验证 Prompt 修改是否变好;
- 评估智能客服上线质量;
- 评估 RAG 问答准确性;
- 评估安全拒答能力;
- 评估多轮对话能力;
- 评估输出格式稳定性;
- 评估模型升级是否回归。
没有目标的评测容易变成主观体验。
二、评测集怎么构建
评测集是大模型评测的基础。
可以包含:
- 高频业务问题;
- 真实用户问题;
- 边界问题;
- 模糊问题;
- 未知问题;
- 恶意问题;
- 多轮对话;
- 长文本问题;
- 格式要求问题;
- 高风险问题。
每条数据最好包含:问题、标准答案或评分参考、标签、难度、业务场景。
三、评测维度
常见评分维度:
- 准确性:事实是否正确;
- 完整性:是否覆盖关键点;
- 相关性:是否回答用户问题;
- 清晰度:表达是否清楚;
- 一致性:多次回答是否稳定;
- 格式遵循:是否按要求输出 JSON、表格等;
- 安全性:是否拒绝违规内容;
- 业务合规:是否符合业务规则;
- 幻觉率:是否编造信息;
- 引用准确性:是否有依据。
不同 AI 应用可以选择不同维度。
四、评分方式
常见评分方式:
1. 人工评分
人工按评分标准打分,准确但成本高。
2. 规则评分
适合格式、关键词、长度、字段、引用等可规则化判断。
3. 模型评分
用另一个模型作为 judge,根据评分标准打分。
4. 混合评分
规则初筛,模型评分,人工抽检,是比较常见的落地方式。
五、模型评分要注意什么
模型当裁判也可能出错。
要注意:
- 提供清晰评分标准;
- 给出参考答案;
- 要求输出结构化评分;
- 抽样人工复核;
- 避免裁判模型和被测模型偏见;
- 对高风险问题必须人工审查。
模型评分适合提高效率,但不能完全替代人工。
六、稳定性评测
大模型输出有随机性。
可以对同一问题多次请求,观察:
- 答案是否一致;
- 关键事实是否稳定;
- 格式是否稳定;
- 是否偶发幻觉;
- 是否偶发拒答。
Temperature 越高,输出可能越发散。评测时要记录参数。
七、对比评测
常见对比:
- 模型 A vs 模型 B;
- Prompt v1 vs Prompt v2;
- RAG 开启 vs 关闭;
- 新版本 vs 旧版本;
- 不同 temperature 参数。
对比评测要保证评测集、参数和环境一致。
八、评测结果怎么分析
不要只给平均分。
要分析:
- 哪些问题得分低;
- 哪类问题最容易失败;
- 幻觉主要出现在哪些场景;
- 安全拒答是否稳定;
- 格式错误是否集中;
- 新版本相比旧版本提升或退化在哪里。
分类分析比一个总分更有价值。
九、报告怎么写
报告应包含:
- 评测目标;
- 被测模型和参数;
- 评测集规模和来源;
- 评分维度;
- 评分方法;
- 总体结果;
- 分类结果;
- 失败案例;
- 风险问题;
- 优化建议。
十、面试回答模板
如果面试官问“大模型评测怎么做”,可以这样回答:
大模型评测我会先明确评测目标,比如比较模型版本、验证 Prompt 或评估智能客服上线质量。然后构建评测集,覆盖高频业务问题、边界问题、未知问题、多轮问题和安全风险问题。评分维度包括准确性、完整性、相关性、格式遵循、稳定性、安全性和幻觉率。评分方式可以结合规则评分、模型评分和人工抽检:格式和关键词用规则判断,语义质量可以用模型 judge,关键样本和高风险样本人工复核。评测时记录模型版本、temperature、Prompt 和输入输出,最后按问题类型分析失败原因,输出报告和优化建议。
十一、常见追问
追问:AI 输出没有标准答案怎么评测?
可以使用评分标准而不是固定答案,从准确性、完整性、相关性等维度打分,并结合人工或模型评审。
追问:模型评分可靠吗?
可以提高效率,但需要清晰 rubric 和人工抽检,尤其高风险问题不能完全依赖模型评分。
追问:如何判断 Prompt 改动是否变好?
用同一评测集对比 Prompt 改动前后,在相同模型参数下比较得分、失败率、幻觉率和格式错误率。
十二、练习清单
- 构建 50 条评测集;
- 定义评分维度;
- 写评分规则;
- 批量调用模型;
- 保存输入输出;
- 用模型打分;
- 人工抽检;
- 对比两个 Prompt;
- 分析失败样本;
- 输出评测报告。
大模型评测的关键是标准化和可复现。评测集、评分标准、执行参数和分析报告缺一不可。
配套刷题:

