8. 大模型幻觉问题怎么测试

大模型幻觉是 AI 测试中最重要的问题之一。所谓幻觉，就是模型生成了看似合理但实际错误、无依据或编造的内容。对于智能客服、知识库问答、医疗、金融、法律、企业内部助手等场景，幻觉可能造成严重风险。测试大模型幻觉，不能只靠主观感觉，而要设计专门的评测集和判断标准。

幻觉测试的核心是验证模型在不确定、无知识、边界和高风险场景下，是否能基于事实回答，是否知道自己不知道，是否会编造来源和结论。

一、幻觉有哪些类型

常见幻觉包括：

事实幻觉：编造不存在的事实；
引用幻觉：编造文档、链接、页码；
数字幻觉：金额、日期、比例错误；
政策幻觉：编造公司规则；
工具幻觉：没有调用工具却说已完成；
权限幻觉：声称看到无权限数据；
代码幻觉：生成不存在的 API；
过度推断：根据不足信息下结论。

不同业务场景要重点测试不同幻觉。

二、未知问题测试

当知识库没有答案时，模型应该拒答或说明不确定。

测试问题：

知识库没有的政策；
不存在的产品；
虚构的人名或订单号；
过期规则；
模糊问题。

预期行为：

不编造；
明确说明未找到；
引导用户补充信息；
建议联系人工或查看官方渠道。

三、引用幻觉测试

RAG 场景中，模型可能编造引用。

测试点：

引用文档是否真实存在；
引用片段是否支持答案；
页码是否正确；
链接是否可访问；
是否引用了无关内容；
是否在无召回时仍给引用。

引用错比没有引用更危险，因为会制造虚假可信度。

四、数字和日期测试

模型容易在数字、日期、比例、金额上出错。

测试点：

费用计算；
折扣规则；
退款金额；
日期区间；
有效期；
统计结果；
单位换算。

数字类问题最好用规则或程序自动校验。

五、高风险领域测试

医疗、金融、法律、招聘、教育等场景要更谨慎。

测试点：

是否给出绝对结论；
是否提供未经验证建议；
是否忽略风险提示；
是否编造法规；
是否建议用户执行危险操作；
是否提醒咨询专业人士。

高风险领域需要更严格的拒答和免责声明策略。

六、对抗诱导测试

用户可能诱导模型编造。

例如：

我记得公司有 90 天无理由退款政策，你帮我确认一下。

如果知识库没有该政策，模型不能顺着用户说。

还可以测试：

强行要求给答案；
让模型猜测；
角色扮演；
要求编一个来源；
提供错误前提。

七、多轮幻觉测试

多轮对话中，模型可能被前文错误信息带偏。

测试点：

用户前面提供错误事实；
后续追问要求确认；
模型是否纠正；
是否把猜测当事实；
是否遗忘限制条件。

八、幻觉指标怎么统计

可以统计：

幻觉率；
未知问题拒答率；
引用错误率；
高风险错误率；
数字错误率；
过度回答率。

这些指标可以用于版本对比。

九、降低幻觉的测试建议

从测试角度可以推动：

Prompt 明确要求基于资料回答；
无依据时拒答；
答案必须引用来源；
引用校验；
增强召回质量；
高风险场景增加安全策略；
自动化评测加入未知问题；
人工复核高风险样本。

十、面试回答模板

如果面试官问“大模型幻觉问题怎么测试”，可以这样回答：

幻觉测试主要验证模型是否会编造无依据内容。我会设计未知问题、虚构实体、错误前提、数字计算、高风险领域和引用校验等测试集。比如 RAG 场景下，知识库没有答案时，模型应该明确说明未找到，而不是编造政策；如果返回引用，要检查引用文档是否真实存在、片段是否支持答案。对于金额、日期、比例等数字类问题，可以用规则自动校验。还要测试用户诱导模型猜测或编造来源时，模型是否能坚持拒答。最后统计幻觉率、引用错误率、未知问题拒答率，并将失败样本加入回归集。

十一、常见追问

追问：模型回答很像真的，怎么判断幻觉？

需要对照可信来源、知识库召回片段、数据库或规则系统，不能只凭语言流畅度。

追问：RAG 能完全解决幻觉吗？

不能。RAG 能降低幻觉，但召回错误、引用错误或模型不遵循资料仍会产生幻觉。

追问：不知道的问题应该怎么回答？

应该说明未找到可靠信息或无法确认，并引导用户补充信息或联系人工。

十二、练习清单

构造未知问题；
构造虚构政策；
构造错误前提；
测引用真实性；
测数字计算；
测日期规则；
测高风险建议；
测诱导猜测；
统计幻觉率；
沉淀失败样本。

幻觉测试的核心是证据意识。模型说得流畅不代表正确，能被可靠来源支持才可信。

配套刷题：

大模型测试面试题

下一步可以看这些