5. 知识库召回和答案质量怎么评估

知识库问答系统的质量，通常由两部分决定：召回质量和答案质量。召回质量决定模型有没有拿到正确资料，答案质量决定模型能不能基于资料生成正确回答。很多 RAG 问答答错，不是模型不会答，而是检索阶段没有召回正确文档；也有一些情况是召回正确，但模型没有正确利用，甚至编造内容。

因此，评估知识库问答不能只看最终答案，要同时评估“找得准”和“答得好”。

一、为什么要分开评估

如果只看答案错误，很难知道原因。

可能原因包括：

知识库没有相关内容；
文档解析失败；
文档切片不合理；
向量检索没有召回；
召回了但排名靠后；
召回内容冲突；
模型生成时幻觉；
Prompt 没要求基于引用回答。

分开评估可以定位问题环节。

二、召回评估准备什么

需要准备评测集。

每条数据最好包含：

用户问题；
标准答案；
标准证据文档；
标准证据片段；
问题类型；
难度；
权限标签。

有了标准证据，才能判断检索结果是否命中。

三、召回指标

常见指标：

1. Recall@K

Top K 结果中是否包含正确证据。

例如 Recall@5 表示前 5 个召回片段中是否有正确片段。

2. Precision@K

Top K 中相关片段占比。

3. Top1 命中率

第一个结果是否就是正确证据。

4. MRR

正确结果排名越靠前，分数越高。

测试岗位不一定要计算复杂公式，但要知道这些指标含义。

四、召回质量常见问题

关键词不匹配；
同义词无法召回；
问题改写错误；
chunk 太大或太小；
表格内容召回差；
标题和正文断开；
过期文档被召回；
无权限文档被召回；
无关文档排在前面。

五、答案质量评估维度

答案质量可以从这些维度评估：

准确性：事实是否正确；
完整性：是否覆盖关键点；
相关性：是否回答问题；
引用一致性：答案是否能被引用支持；
简洁性：是否啰嗦；
可执行性：步骤是否清楚；
安全性：是否包含风险内容；
业务口径：是否符合公司规则；
幻觉：是否编造知识库不存在的信息。

六、答案评分方法

可以使用 1-5 分制：

5 分：完全正确、完整、引用准确；
4 分：基本正确，少量表达瑕疵；
3 分：部分正确，遗漏关键点；
2 分：相关但明显不完整或有错误；
1 分：错误、无关或幻觉。

评分标准越清晰，评测越稳定。

七、引用一致性评估

RAG 答案要能被引用支持。

检查：

答案中的关键事实是否来自召回片段；
引用是否对应正确文档；
引用是否支持结论；
是否出现“有答案但无依据”；
是否编造引用。

引用一致性是企业知识库问答的重点。

八、未知问题评估

当知识库没有答案时，正确行为是：

明确说明不知道；
不编造；
不引用无关文档；
引导用户补充信息；
建议联系人工或查阅官方资料。

未知问题可以用来评估幻觉控制能力。

九、综合评估流程

推荐流程：

构建问题和标准证据集；
执行检索，记录 TopK；
计算召回命中；
执行生成，记录答案和引用；
对答案打分；
标记失败原因；
分类分析；
输出优化建议。

失败原因要区分召回失败和生成失败。

十、面试回答模板

如果面试官问“知识库召回和答案质量怎么评估”，可以这样回答：

我会把知识库问答评估拆成召回和答案两部分。召回评估需要准备问题和标准证据片段，检查 TopK 召回中是否包含正确文档，可以看 Recall@K、Top1 命中率和相关片段排名。如果召回不到正确内容，后续答案很难准确。答案质量评估则看准确性、完整性、相关性、引用一致性、是否幻觉和是否符合业务口径。特别是 RAG 场景，答案中的关键事实必须能被引用片段支持。对于知识库没有答案的问题，模型应该拒答或说明不知道，而不是编造。

十一、常见追问

追问：召回正确但答案错，说明什么？

说明生成阶段或 Prompt 有问题，模型没有正确利用召回内容，可能需要优化 Prompt、重排序或上下文组装。

追问：答案正确但引用错，算通过吗？

企业知识库场景通常不算完全通过，因为引用错误会影响可信度和可追溯性。

追问：如何降低幻觉？

优化 Prompt 要求基于知识库回答，召回不足时拒答，增加引用校验和未知问题评测。

十二、练习清单

标注标准证据片段；
测 Recall@5；
测 Top1 命中率；
评估答案准确性；
评估答案完整性；
检查引用一致性；
测未知问题；
区分召回失败和生成失败；
统计失败类型；
输出 RAG 评估报告。

知识库问答评估不能只凭主观感觉。召回指标、答案评分、引用校验和失败归因，是 RAG 测试落地的关键。

配套刷题：

大模型测试面试题