2. 大模型评测怎么做

大模型评测是 AI 测试中的核心能力。传统测试通常有明确输入和预期输出，而大模型输出往往是开放式文本，可能存在多种正确答案。因此，大模型评测不能只靠简单断言，而要从准确性、完整性、相关性、稳定性、安全性、格式遵循、业务适配等维度综合判断。

面试中问“大模型评测怎么做”，不要只说“让模型回答问题，然后人工看”。更完整的做法是构建评测集、定义评分标准、批量执行、自动化评分、人工抽检、对比不同模型或 Prompt，并输出评测报告。

一、大模型评测目标

评测前要先明确目标。

常见目标：

比较不同模型效果；
验证 Prompt 修改是否变好；
评估智能客服上线质量；
评估 RAG 问答准确性；
评估安全拒答能力；
评估多轮对话能力；
评估输出格式稳定性；
评估模型升级是否回归。

没有目标的评测容易变成主观体验。

二、评测集怎么构建

评测集是大模型评测的基础。

可以包含：

高频业务问题；
真实用户问题；
边界问题；
模糊问题；
未知问题；
恶意问题；
多轮对话；
长文本问题；
格式要求问题；
高风险问题。

每条数据最好包含：问题、标准答案或评分参考、标签、难度、业务场景。

三、评测维度

常见评分维度：

准确性：事实是否正确；
完整性：是否覆盖关键点；
相关性：是否回答用户问题；
清晰度：表达是否清楚；
一致性：多次回答是否稳定；
格式遵循：是否按要求输出 JSON、表格等；
安全性：是否拒绝违规内容；
业务合规：是否符合业务规则；
幻觉率：是否编造信息；
引用准确性：是否有依据。

不同 AI 应用可以选择不同维度。

四、评分方式

常见评分方式：

1. 人工评分

人工按评分标准打分，准确但成本高。

2. 规则评分

适合格式、关键词、长度、字段、引用等可规则化判断。

3. 模型评分

用另一个模型作为 judge，根据评分标准打分。

4. 混合评分

规则初筛，模型评分，人工抽检，是比较常见的落地方式。

五、模型评分要注意什么

模型当裁判也可能出错。

要注意：

提供清晰评分标准；
给出参考答案；
要求输出结构化评分；
抽样人工复核；
避免裁判模型和被测模型偏见；
对高风险问题必须人工审查。

模型评分适合提高效率，但不能完全替代人工。

六、稳定性评测

大模型输出有随机性。

可以对同一问题多次请求，观察：

答案是否一致；
关键事实是否稳定；
格式是否稳定；
是否偶发幻觉；
是否偶发拒答。

Temperature 越高，输出可能越发散。评测时要记录参数。

七、对比评测

常见对比：

模型 A vs 模型 B；
Prompt v1 vs Prompt v2；
RAG 开启 vs 关闭；
新版本 vs 旧版本；
不同 temperature 参数。

对比评测要保证评测集、参数和环境一致。

八、评测结果怎么分析

不要只给平均分。

要分析：

哪些问题得分低；
哪类问题最容易失败；
幻觉主要出现在哪些场景；
安全拒答是否稳定；
格式错误是否集中；
新版本相比旧版本提升或退化在哪里。

分类分析比一个总分更有价值。

九、报告怎么写

报告应包含：

评测目标；
被测模型和参数；
评测集规模和来源；
评分维度；
评分方法；
总体结果；
分类结果；
失败案例；
风险问题；
优化建议。

十、面试回答模板

如果面试官问“大模型评测怎么做”，可以这样回答：

大模型评测我会先明确评测目标，比如比较模型版本、验证 Prompt 或评估智能客服上线质量。然后构建评测集，覆盖高频业务问题、边界问题、未知问题、多轮问题和安全风险问题。评分维度包括准确性、完整性、相关性、格式遵循、稳定性、安全性和幻觉率。评分方式可以结合规则评分、模型评分和人工抽检：格式和关键词用规则判断，语义质量可以用模型 judge，关键样本和高风险样本人工复核。评测时记录模型版本、temperature、Prompt 和输入输出，最后按问题类型分析失败原因，输出报告和优化建议。

十一、常见追问

追问：AI 输出没有标准答案怎么评测？

可以使用评分标准而不是固定答案，从准确性、完整性、相关性等维度打分，并结合人工或模型评审。

追问：模型评分可靠吗？

可以提高效率，但需要清晰 rubric 和人工抽检，尤其高风险问题不能完全依赖模型评分。

追问：如何判断 Prompt 改动是否变好？

用同一评测集对比 Prompt 改动前后，在相同模型参数下比较得分、失败率、幻觉率和格式错误率。

十二、练习清单

构建 50 条评测集；
定义评分维度；
写评分规则；
批量调用模型；
保存输入输出；
用模型打分；
人工抽检；
对比两个 Prompt；
分析失败样本；
输出评测报告。

大模型评测的关键是标准化和可复现。评测集、评分标准、执行参数和分析报告缺一不可。

配套刷题：

大模型测试面试题