小牛丨软件测试学习小牛丨软件测试学习
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
  • AI 测试精华文章

    • AI 测试精华文章
    • 1. AI 测试工程师要掌握什么
    • 2. 大模型评测怎么做
    • 3. Prompt 测试怎么设计
    • 4. RAG 测试重点测什么
    • 5. 知识库召回和答案质量怎么评估
    • 6. Agent 测试应该关注哪些风险
    • 7. AI 自动化评测怎么落地
    • 8. 大模型幻觉问题怎么测试
    • 9. AI 应用安全测试怎么入门
    • 10. AI 测试项目怎么写进简历
⌕
🛒项目实战📦资料包🛠测试神器AIAI路线CV简历测评🧭入行测评🧪测开测评🎯训练营🏆案例❤赞赏我

2. 大模型评测怎么做

大模型评测是 AI 测试中的核心能力。传统测试通常有明确输入和预期输出,而大模型输出往往是开放式文本,可能存在多种正确答案。因此,大模型评测不能只靠简单断言,而要从准确性、完整性、相关性、稳定性、安全性、格式遵循、业务适配等维度综合判断。

面试中问“大模型评测怎么做”,不要只说“让模型回答问题,然后人工看”。更完整的做法是构建评测集、定义评分标准、批量执行、自动化评分、人工抽检、对比不同模型或 Prompt,并输出评测报告。

一、大模型评测目标

评测前要先明确目标。

常见目标:

  • 比较不同模型效果;
  • 验证 Prompt 修改是否变好;
  • 评估智能客服上线质量;
  • 评估 RAG 问答准确性;
  • 评估安全拒答能力;
  • 评估多轮对话能力;
  • 评估输出格式稳定性;
  • 评估模型升级是否回归。

没有目标的评测容易变成主观体验。

二、评测集怎么构建

评测集是大模型评测的基础。

可以包含:

  • 高频业务问题;
  • 真实用户问题;
  • 边界问题;
  • 模糊问题;
  • 未知问题;
  • 恶意问题;
  • 多轮对话;
  • 长文本问题;
  • 格式要求问题;
  • 高风险问题。

每条数据最好包含:问题、标准答案或评分参考、标签、难度、业务场景。

三、评测维度

常见评分维度:

  • 准确性:事实是否正确;
  • 完整性:是否覆盖关键点;
  • 相关性:是否回答用户问题;
  • 清晰度:表达是否清楚;
  • 一致性:多次回答是否稳定;
  • 格式遵循:是否按要求输出 JSON、表格等;
  • 安全性:是否拒绝违规内容;
  • 业务合规:是否符合业务规则;
  • 幻觉率:是否编造信息;
  • 引用准确性:是否有依据。

不同 AI 应用可以选择不同维度。

四、评分方式

常见评分方式:

1. 人工评分

人工按评分标准打分,准确但成本高。

2. 规则评分

适合格式、关键词、长度、字段、引用等可规则化判断。

3. 模型评分

用另一个模型作为 judge,根据评分标准打分。

4. 混合评分

规则初筛,模型评分,人工抽检,是比较常见的落地方式。

五、模型评分要注意什么

模型当裁判也可能出错。

要注意:

  • 提供清晰评分标准;
  • 给出参考答案;
  • 要求输出结构化评分;
  • 抽样人工复核;
  • 避免裁判模型和被测模型偏见;
  • 对高风险问题必须人工审查。

模型评分适合提高效率,但不能完全替代人工。

六、稳定性评测

大模型输出有随机性。

可以对同一问题多次请求,观察:

  • 答案是否一致;
  • 关键事实是否稳定;
  • 格式是否稳定;
  • 是否偶发幻觉;
  • 是否偶发拒答。

Temperature 越高,输出可能越发散。评测时要记录参数。

七、对比评测

常见对比:

  • 模型 A vs 模型 B;
  • Prompt v1 vs Prompt v2;
  • RAG 开启 vs 关闭;
  • 新版本 vs 旧版本;
  • 不同 temperature 参数。

对比评测要保证评测集、参数和环境一致。

八、评测结果怎么分析

不要只给平均分。

要分析:

  • 哪些问题得分低;
  • 哪类问题最容易失败;
  • 幻觉主要出现在哪些场景;
  • 安全拒答是否稳定;
  • 格式错误是否集中;
  • 新版本相比旧版本提升或退化在哪里。

分类分析比一个总分更有价值。

九、报告怎么写

报告应包含:

  • 评测目标;
  • 被测模型和参数;
  • 评测集规模和来源;
  • 评分维度;
  • 评分方法;
  • 总体结果;
  • 分类结果;
  • 失败案例;
  • 风险问题;
  • 优化建议。

十、面试回答模板

如果面试官问“大模型评测怎么做”,可以这样回答:

大模型评测我会先明确评测目标,比如比较模型版本、验证 Prompt 或评估智能客服上线质量。然后构建评测集,覆盖高频业务问题、边界问题、未知问题、多轮问题和安全风险问题。评分维度包括准确性、完整性、相关性、格式遵循、稳定性、安全性和幻觉率。评分方式可以结合规则评分、模型评分和人工抽检:格式和关键词用规则判断,语义质量可以用模型 judge,关键样本和高风险样本人工复核。评测时记录模型版本、temperature、Prompt 和输入输出,最后按问题类型分析失败原因,输出报告和优化建议。

十一、常见追问

追问:AI 输出没有标准答案怎么评测?

可以使用评分标准而不是固定答案,从准确性、完整性、相关性等维度打分,并结合人工或模型评审。

追问:模型评分可靠吗?

可以提高效率,但需要清晰 rubric 和人工抽检,尤其高风险问题不能完全依赖模型评分。

追问:如何判断 Prompt 改动是否变好?

用同一评测集对比 Prompt 改动前后,在相同模型参数下比较得分、失败率、幻觉率和格式错误率。

十二、练习清单

  1. 构建 50 条评测集;
  2. 定义评分维度;
  3. 写评分规则;
  4. 批量调用模型;
  5. 保存输入输出;
  6. 用模型打分;
  7. 人工抽检;
  8. 对比两个 Prompt;
  9. 分析失败样本;
  10. 输出评测报告。

大模型评测的关键是标准化和可复现。评测集、评分标准、执行参数和分析报告缺一不可。

配套刷题:

  • 大模型测试面试题
相关推荐

下一步可以看这些

面试通关软件测试面试通关系列精华文章

把面试题、项目、简历和训练营串成一套求职准备路径。

入行路线零基础入行软件测试专题路径

从测评、学习路线、项目、简历到面试,按顺序入行。

进阶路线初中级测试进阶高级专题路径

接口自动化、性能测试、CI/CD、复杂业务质量保障进阶路线。

AI 方向AI 测试学习路线专题页

大模型评测、RAG 测试、Agent 测试和 AI 自动化路线。

求职结果Offer 案例 / 学员案例展示

看看真实学员 Offer 案例,判断目标和学习投入是否匹配。

资料 / 交流群添加小牛微信

备注:资料、简历、AI 或找工作,领取对应资料或进交流群。

添加小牛微信
Prev
1. AI 测试工程师要掌握什么
Next
3. Prompt 测试怎么设计