4. RAG 测试重点测什么
RAG 是 Retrieval-Augmented Generation 的缩写,通常翻译为检索增强生成。它的核心思路是:用户提问后,系统先从知识库中检索相关内容,再把检索结果交给大模型生成答案。很多企业智能客服、知识库问答、文档助手、内部助手都采用 RAG 架构。
RAG 测试不能只看最终答案,还要拆开看检索和生成两个阶段。答案错了,可能是知识库没有资料,可能是文档解析失败,可能是切片不合理,可能是召回错了,也可能是模型生成时幻觉。因此 RAG 测试要同时关注知识库、文档处理、召回质量、答案质量、引用依据、权限隔离和更新时效。
一、RAG 基本流程
典型流程:
用户问题 -> 问题改写 -> 向量检索/关键词检索 -> 召回文档片段 -> 重排序 -> 组装 Prompt -> 大模型生成答案 -> 返回答案和引用
测试时要知道问题出在哪个环节。
二、知识库内容测试
先确认知识库本身是否正确。
测试点:
- 文档是否完整;
- 文档版本是否正确;
- 是否有过期内容;
- 是否有重复内容;
- 是否有冲突内容;
- 权限文档是否正确隔离;
- 文档格式是否支持。
如果知识库内容错了,模型回答很难正确。
三、文档解析测试
RAG 系统通常要解析 PDF、Word、HTML、Markdown、Excel 等文档。
测试点:
- 标题是否保留;
- 表格是否解析正确;
- 图片文字是否 OCR;
- 页眉页脚是否干扰;
- 编号和层级是否保留;
- 特殊符号是否丢失;
- 大文件是否处理成功。
文档解析错误会影响后续检索。
四、切片测试
文档会被切成 chunk。
测试点:
- chunk 大小是否合理;
- 是否切断语义;
- 是否保留上下文;
- overlap 是否合理;
- 表格是否被拆坏;
- 标题和正文是否关联;
- 长文档是否完整切片。
切片不合理,会导致召回片段不完整。
五、召回质量测试
召回是 RAG 的关键。
常见指标:
- Recall@K;
- Precision@K;
- Top1 命中率;
- MRR;
- 相关片段排名;
- 无关召回比例。
测试时可以准备问题和标准证据片段,检查检索结果是否包含正确内容。
六、答案质量测试
生成答案要看:
- 是否准确;
- 是否完整;
- 是否基于召回内容;
- 是否引用正确;
- 是否有幻觉;
- 是否回答用户问题;
- 是否表达清晰;
- 是否符合业务口径。
RAG 答案不是越长越好,重点是基于知识库且准确。
七、引用和溯源测试
企业知识库问答通常要求给出引用来源。
测试点:
- 引用文档是否正确;
- 引用片段是否支持答案;
- 引用链接是否可打开;
- 页码或段落是否准确;
- 答案是否编造引用;
- 引用权限是否正确。
没有可靠引用,RAG 的可信度会下降。
八、未知问题测试
当知识库没有答案时,模型应该说不知道或引导用户补充,而不是编造。
测试点:
- 无知识问题是否拒答;
- 是否错误引用无关文档;
- 是否编造政策;
- 是否提示联系人工;
- 是否给出不确定性说明。
这是防幻觉的重要场景。
九、权限隔离测试
企业知识库往往有权限。
测试点:
- 普通用户不能检索高权限文档;
- A 部门不能看到 B 部门资料;
- 离职/无权限用户不能访问;
- 引用链接权限一致;
- 缓存不会泄露权限数据。
RAG 权限问题是高风险缺陷。
十、知识更新测试
知识库更新后,要验证:
- 新文档是否入库;
- 旧文档是否失效;
- 向量索引是否更新;
- 答案是否使用新版本;
- 缓存是否刷新;
- 删除文档是否仍被召回。
知识更新不及时,会导致答案过期。
十一、面试回答模板
如果面试官问“RAG 测试重点测什么”,可以这样回答:
RAG 测试我会拆成检索和生成两个阶段。首先看知识库内容是否完整、版本是否正确,文档解析和切片是否保留语义;然后评估召回质量,比如 TopK 是否包含正确片段、相关片段排名是否靠前;再看最终答案是否准确、完整、基于召回内容、引用是否正确,是否存在幻觉。还要重点测试未知问题是否拒答、知识更新后是否生效、不同用户的权限隔离是否正确。RAG 不能只看答案好不好,还要能定位是知识库、解析、切片、检索还是生成环节出了问题。
十二、练习清单
- 上传知识库文档;
- 检查文档解析;
- 检查切片结果;
- 准备标准问题;
- 标注标准证据片段;
- 测试 TopK 召回;
- 测试答案准确性;
- 测试引用来源;
- 测试未知问题拒答;
- 测试权限隔离。
RAG 测试的核心是可溯源。最终答案只是结果,召回证据和知识来源才是判断质量的基础。
配套刷题:

