4. RAG 测试重点测什么

RAG 是 Retrieval-Augmented Generation 的缩写，通常翻译为检索增强生成。它的核心思路是：用户提问后，系统先从知识库中检索相关内容，再把检索结果交给大模型生成答案。很多企业智能客服、知识库问答、文档助手、内部助手都采用 RAG 架构。

RAG 测试不能只看最终答案，还要拆开看检索和生成两个阶段。答案错了，可能是知识库没有资料，可能是文档解析失败，可能是切片不合理，可能是召回错了，也可能是模型生成时幻觉。因此 RAG 测试要同时关注知识库、文档处理、召回质量、答案质量、引用依据、权限隔离和更新时效。

一、RAG 基本流程

典型流程：

用户问题 -> 问题改写 -> 向量检索/关键词检索 -> 召回文档片段 -> 重排序 -> 组装 Prompt -> 大模型生成答案 -> 返回答案和引用

测试时要知道问题出在哪个环节。

二、知识库内容测试

先确认知识库本身是否正确。

测试点：

文档是否完整；
文档版本是否正确；
是否有过期内容；
是否有重复内容；
是否有冲突内容；
权限文档是否正确隔离；
文档格式是否支持。

如果知识库内容错了，模型回答很难正确。

三、文档解析测试

RAG 系统通常要解析 PDF、Word、HTML、Markdown、Excel 等文档。

测试点：

标题是否保留；
表格是否解析正确；
图片文字是否 OCR；
页眉页脚是否干扰；
编号和层级是否保留；
特殊符号是否丢失；
大文件是否处理成功。

文档解析错误会影响后续检索。

四、切片测试

文档会被切成 chunk。

测试点：

chunk 大小是否合理；
是否切断语义；
是否保留上下文；
overlap 是否合理；
表格是否被拆坏；
标题和正文是否关联；
长文档是否完整切片。

切片不合理，会导致召回片段不完整。

五、召回质量测试

召回是 RAG 的关键。

常见指标：

Recall@K；
Precision@K；
Top1 命中率；
MRR；
相关片段排名；
无关召回比例。

测试时可以准备问题和标准证据片段，检查检索结果是否包含正确内容。

六、答案质量测试

生成答案要看：

是否准确；
是否完整；
是否基于召回内容；
是否引用正确；
是否有幻觉；
是否回答用户问题；
是否表达清晰；
是否符合业务口径。

RAG 答案不是越长越好，重点是基于知识库且准确。

七、引用和溯源测试

企业知识库问答通常要求给出引用来源。

测试点：

引用文档是否正确；
引用片段是否支持答案；
引用链接是否可打开；
页码或段落是否准确；
答案是否编造引用；
引用权限是否正确。

没有可靠引用，RAG 的可信度会下降。

八、未知问题测试

当知识库没有答案时，模型应该说不知道或引导用户补充，而不是编造。

测试点：

无知识问题是否拒答；
是否错误引用无关文档；
是否编造政策；
是否提示联系人工；
是否给出不确定性说明。

这是防幻觉的重要场景。

九、权限隔离测试

企业知识库往往有权限。

测试点：

普通用户不能检索高权限文档；
A 部门不能看到 B 部门资料；
离职/无权限用户不能访问；
引用链接权限一致；
缓存不会泄露权限数据。

RAG 权限问题是高风险缺陷。

十、知识更新测试

知识库更新后，要验证：

新文档是否入库；
旧文档是否失效；
向量索引是否更新；
答案是否使用新版本；
缓存是否刷新；
删除文档是否仍被召回。

知识更新不及时，会导致答案过期。

十一、面试回答模板

如果面试官问“RAG 测试重点测什么”，可以这样回答：

RAG 测试我会拆成检索和生成两个阶段。首先看知识库内容是否完整、版本是否正确，文档解析和切片是否保留语义；然后评估召回质量，比如 TopK 是否包含正确片段、相关片段排名是否靠前；再看最终答案是否准确、完整、基于召回内容、引用是否正确，是否存在幻觉。还要重点测试未知问题是否拒答、知识更新后是否生效、不同用户的权限隔离是否正确。RAG 不能只看答案好不好，还要能定位是知识库、解析、切片、检索还是生成环节出了问题。

十二、练习清单

上传知识库文档；
检查文档解析；
检查切片结果；
准备标准问题；
标注标准证据片段；
测试 TopK 召回；
测试答案准确性；
测试引用来源；
测试未知问题拒答；
测试权限隔离。

RAG 测试的核心是可溯源。最终答案只是结果，召回证据和知识来源才是判断质量的基础。

配套刷题：

大模型测试面试题

下一步可以看这些