小牛丨软件测试学习小牛丨软件测试学习
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
  • AI 测试精华文章

    • AI 测试精华文章
    • 1. AI 测试工程师要掌握什么
    • 2. 大模型评测怎么做
    • 3. Prompt 测试怎么设计
    • 4. RAG 测试重点测什么
    • 5. 知识库召回和答案质量怎么评估
    • 6. Agent 测试应该关注哪些风险
    • 7. AI 自动化评测怎么落地
    • 8. 大模型幻觉问题怎么测试
    • 9. AI 应用安全测试怎么入门
    • 10. AI 测试项目怎么写进简历
⌕
🛒项目实战📦资料包🛠测试神器AIAI路线CV简历测评🧭入行测评🧪测开测评🎯训练营🏆案例❤赞赏我

5. 知识库召回和答案质量怎么评估

知识库问答系统的质量,通常由两部分决定:召回质量和答案质量。召回质量决定模型有没有拿到正确资料,答案质量决定模型能不能基于资料生成正确回答。很多 RAG 问答答错,不是模型不会答,而是检索阶段没有召回正确文档;也有一些情况是召回正确,但模型没有正确利用,甚至编造内容。

因此,评估知识库问答不能只看最终答案,要同时评估“找得准”和“答得好”。

一、为什么要分开评估

如果只看答案错误,很难知道原因。

可能原因包括:

  • 知识库没有相关内容;
  • 文档解析失败;
  • 文档切片不合理;
  • 向量检索没有召回;
  • 召回了但排名靠后;
  • 召回内容冲突;
  • 模型生成时幻觉;
  • Prompt 没要求基于引用回答。

分开评估可以定位问题环节。

二、召回评估准备什么

需要准备评测集。

每条数据最好包含:

  • 用户问题;
  • 标准答案;
  • 标准证据文档;
  • 标准证据片段;
  • 问题类型;
  • 难度;
  • 权限标签。

有了标准证据,才能判断检索结果是否命中。

三、召回指标

常见指标:

1. Recall@K

Top K 结果中是否包含正确证据。

例如 Recall@5 表示前 5 个召回片段中是否有正确片段。

2. Precision@K

Top K 中相关片段占比。

3. Top1 命中率

第一个结果是否就是正确证据。

4. MRR

正确结果排名越靠前,分数越高。

测试岗位不一定要计算复杂公式,但要知道这些指标含义。

四、召回质量常见问题

  • 关键词不匹配;
  • 同义词无法召回;
  • 问题改写错误;
  • chunk 太大或太小;
  • 表格内容召回差;
  • 标题和正文断开;
  • 过期文档被召回;
  • 无权限文档被召回;
  • 无关文档排在前面。

五、答案质量评估维度

答案质量可以从这些维度评估:

  • 准确性:事实是否正确;
  • 完整性:是否覆盖关键点;
  • 相关性:是否回答问题;
  • 引用一致性:答案是否能被引用支持;
  • 简洁性:是否啰嗦;
  • 可执行性:步骤是否清楚;
  • 安全性:是否包含风险内容;
  • 业务口径:是否符合公司规则;
  • 幻觉:是否编造知识库不存在的信息。

六、答案评分方法

可以使用 1-5 分制:

  • 5 分:完全正确、完整、引用准确;
  • 4 分:基本正确,少量表达瑕疵;
  • 3 分:部分正确,遗漏关键点;
  • 2 分:相关但明显不完整或有错误;
  • 1 分:错误、无关或幻觉。

评分标准越清晰,评测越稳定。

七、引用一致性评估

RAG 答案要能被引用支持。

检查:

  • 答案中的关键事实是否来自召回片段;
  • 引用是否对应正确文档;
  • 引用是否支持结论;
  • 是否出现“有答案但无依据”;
  • 是否编造引用。

引用一致性是企业知识库问答的重点。

八、未知问题评估

当知识库没有答案时,正确行为是:

  • 明确说明不知道;
  • 不编造;
  • 不引用无关文档;
  • 引导用户补充信息;
  • 建议联系人工或查阅官方资料。

未知问题可以用来评估幻觉控制能力。

九、综合评估流程

推荐流程:

  1. 构建问题和标准证据集;
  2. 执行检索,记录 TopK;
  3. 计算召回命中;
  4. 执行生成,记录答案和引用;
  5. 对答案打分;
  6. 标记失败原因;
  7. 分类分析;
  8. 输出优化建议。

失败原因要区分召回失败和生成失败。

十、面试回答模板

如果面试官问“知识库召回和答案质量怎么评估”,可以这样回答:

我会把知识库问答评估拆成召回和答案两部分。召回评估需要准备问题和标准证据片段,检查 TopK 召回中是否包含正确文档,可以看 Recall@K、Top1 命中率和相关片段排名。如果召回不到正确内容,后续答案很难准确。答案质量评估则看准确性、完整性、相关性、引用一致性、是否幻觉和是否符合业务口径。特别是 RAG 场景,答案中的关键事实必须能被引用片段支持。对于知识库没有答案的问题,模型应该拒答或说明不知道,而不是编造。

十一、常见追问

追问:召回正确但答案错,说明什么?

说明生成阶段或 Prompt 有问题,模型没有正确利用召回内容,可能需要优化 Prompt、重排序或上下文组装。

追问:答案正确但引用错,算通过吗?

企业知识库场景通常不算完全通过,因为引用错误会影响可信度和可追溯性。

追问:如何降低幻觉?

优化 Prompt 要求基于知识库回答,召回不足时拒答,增加引用校验和未知问题评测。

十二、练习清单

  1. 标注标准证据片段;
  2. 测 Recall@5;
  3. 测 Top1 命中率;
  4. 评估答案准确性;
  5. 评估答案完整性;
  6. 检查引用一致性;
  7. 测未知问题;
  8. 区分召回失败和生成失败;
  9. 统计失败类型;
  10. 输出 RAG 评估报告。

知识库问答评估不能只凭主观感觉。召回指标、答案评分、引用校验和失败归因,是 RAG 测试落地的关键。

配套刷题:

  • 大模型测试面试题
相关推荐

下一步可以看这些

面试通关软件测试面试通关系列精华文章

把面试题、项目、简历和训练营串成一套求职准备路径。

入行路线零基础入行软件测试专题路径

从测评、学习路线、项目、简历到面试,按顺序入行。

进阶路线初中级测试进阶高级专题路径

接口自动化、性能测试、CI/CD、复杂业务质量保障进阶路线。

AI 方向AI 测试学习路线专题页

大模型评测、RAG 测试、Agent 测试和 AI 自动化路线。

求职结果Offer 案例 / 学员案例展示

看看真实学员 Offer 案例,判断目标和学习投入是否匹配。

资料 / 交流群添加小牛微信

备注:资料、简历、AI 或找工作,领取对应资料或进交流群。

添加小牛微信
Prev
4. RAG 测试重点测什么
Next
6. Agent 测试应该关注哪些风险