5. 知识库召回和答案质量怎么评估
知识库问答系统的质量,通常由两部分决定:召回质量和答案质量。召回质量决定模型有没有拿到正确资料,答案质量决定模型能不能基于资料生成正确回答。很多 RAG 问答答错,不是模型不会答,而是检索阶段没有召回正确文档;也有一些情况是召回正确,但模型没有正确利用,甚至编造内容。
因此,评估知识库问答不能只看最终答案,要同时评估“找得准”和“答得好”。
一、为什么要分开评估
如果只看答案错误,很难知道原因。
可能原因包括:
- 知识库没有相关内容;
- 文档解析失败;
- 文档切片不合理;
- 向量检索没有召回;
- 召回了但排名靠后;
- 召回内容冲突;
- 模型生成时幻觉;
- Prompt 没要求基于引用回答。
分开评估可以定位问题环节。
二、召回评估准备什么
需要准备评测集。
每条数据最好包含:
- 用户问题;
- 标准答案;
- 标准证据文档;
- 标准证据片段;
- 问题类型;
- 难度;
- 权限标签。
有了标准证据,才能判断检索结果是否命中。
三、召回指标
常见指标:
1. Recall@K
Top K 结果中是否包含正确证据。
例如 Recall@5 表示前 5 个召回片段中是否有正确片段。
2. Precision@K
Top K 中相关片段占比。
3. Top1 命中率
第一个结果是否就是正确证据。
4. MRR
正确结果排名越靠前,分数越高。
测试岗位不一定要计算复杂公式,但要知道这些指标含义。
四、召回质量常见问题
- 关键词不匹配;
- 同义词无法召回;
- 问题改写错误;
- chunk 太大或太小;
- 表格内容召回差;
- 标题和正文断开;
- 过期文档被召回;
- 无权限文档被召回;
- 无关文档排在前面。
五、答案质量评估维度
答案质量可以从这些维度评估:
- 准确性:事实是否正确;
- 完整性:是否覆盖关键点;
- 相关性:是否回答问题;
- 引用一致性:答案是否能被引用支持;
- 简洁性:是否啰嗦;
- 可执行性:步骤是否清楚;
- 安全性:是否包含风险内容;
- 业务口径:是否符合公司规则;
- 幻觉:是否编造知识库不存在的信息。
六、答案评分方法
可以使用 1-5 分制:
- 5 分:完全正确、完整、引用准确;
- 4 分:基本正确,少量表达瑕疵;
- 3 分:部分正确,遗漏关键点;
- 2 分:相关但明显不完整或有错误;
- 1 分:错误、无关或幻觉。
评分标准越清晰,评测越稳定。
七、引用一致性评估
RAG 答案要能被引用支持。
检查:
- 答案中的关键事实是否来自召回片段;
- 引用是否对应正确文档;
- 引用是否支持结论;
- 是否出现“有答案但无依据”;
- 是否编造引用。
引用一致性是企业知识库问答的重点。
八、未知问题评估
当知识库没有答案时,正确行为是:
- 明确说明不知道;
- 不编造;
- 不引用无关文档;
- 引导用户补充信息;
- 建议联系人工或查阅官方资料。
未知问题可以用来评估幻觉控制能力。
九、综合评估流程
推荐流程:
- 构建问题和标准证据集;
- 执行检索,记录 TopK;
- 计算召回命中;
- 执行生成,记录答案和引用;
- 对答案打分;
- 标记失败原因;
- 分类分析;
- 输出优化建议。
失败原因要区分召回失败和生成失败。
十、面试回答模板
如果面试官问“知识库召回和答案质量怎么评估”,可以这样回答:
我会把知识库问答评估拆成召回和答案两部分。召回评估需要准备问题和标准证据片段,检查 TopK 召回中是否包含正确文档,可以看 Recall@K、Top1 命中率和相关片段排名。如果召回不到正确内容,后续答案很难准确。答案质量评估则看准确性、完整性、相关性、引用一致性、是否幻觉和是否符合业务口径。特别是 RAG 场景,答案中的关键事实必须能被引用片段支持。对于知识库没有答案的问题,模型应该拒答或说明不知道,而不是编造。
十一、常见追问
追问:召回正确但答案错,说明什么?
说明生成阶段或 Prompt 有问题,模型没有正确利用召回内容,可能需要优化 Prompt、重排序或上下文组装。
追问:答案正确但引用错,算通过吗?
企业知识库场景通常不算完全通过,因为引用错误会影响可信度和可追溯性。
追问:如何降低幻觉?
优化 Prompt 要求基于知识库回答,召回不足时拒答,增加引用校验和未知问题评测。
十二、练习清单
- 标注标准证据片段;
- 测 Recall@5;
- 测 Top1 命中率;
- 评估答案准确性;
- 评估答案完整性;
- 检查引用一致性;
- 测未知问题;
- 区分召回失败和生成失败;
- 统计失败类型;
- 输出 RAG 评估报告。
知识库问答评估不能只凭主观感觉。召回指标、答案评分、引用校验和失败归因,是 RAG 测试落地的关键。
配套刷题:

