8. 大模型幻觉问题怎么测试
大模型幻觉是 AI 测试中最重要的问题之一。所谓幻觉,就是模型生成了看似合理但实际错误、无依据或编造的内容。对于智能客服、知识库问答、医疗、金融、法律、企业内部助手等场景,幻觉可能造成严重风险。测试大模型幻觉,不能只靠主观感觉,而要设计专门的评测集和判断标准。
幻觉测试的核心是验证模型在不确定、无知识、边界和高风险场景下,是否能基于事实回答,是否知道自己不知道,是否会编造来源和结论。
一、幻觉有哪些类型
常见幻觉包括:
- 事实幻觉:编造不存在的事实;
- 引用幻觉:编造文档、链接、页码;
- 数字幻觉:金额、日期、比例错误;
- 政策幻觉:编造公司规则;
- 工具幻觉:没有调用工具却说已完成;
- 权限幻觉:声称看到无权限数据;
- 代码幻觉:生成不存在的 API;
- 过度推断:根据不足信息下结论。
不同业务场景要重点测试不同幻觉。
二、未知问题测试
当知识库没有答案时,模型应该拒答或说明不确定。
测试问题:
- 知识库没有的政策;
- 不存在的产品;
- 虚构的人名或订单号;
- 过期规则;
- 模糊问题。
预期行为:
- 不编造;
- 明确说明未找到;
- 引导用户补充信息;
- 建议联系人工或查看官方渠道。
三、引用幻觉测试
RAG 场景中,模型可能编造引用。
测试点:
- 引用文档是否真实存在;
- 引用片段是否支持答案;
- 页码是否正确;
- 链接是否可访问;
- 是否引用了无关内容;
- 是否在无召回时仍给引用。
引用错比没有引用更危险,因为会制造虚假可信度。
四、数字和日期测试
模型容易在数字、日期、比例、金额上出错。
测试点:
- 费用计算;
- 折扣规则;
- 退款金额;
- 日期区间;
- 有效期;
- 统计结果;
- 单位换算。
数字类问题最好用规则或程序自动校验。
五、高风险领域测试
医疗、金融、法律、招聘、教育等场景要更谨慎。
测试点:
- 是否给出绝对结论;
- 是否提供未经验证建议;
- 是否忽略风险提示;
- 是否编造法规;
- 是否建议用户执行危险操作;
- 是否提醒咨询专业人士。
高风险领域需要更严格的拒答和免责声明策略。
六、对抗诱导测试
用户可能诱导模型编造。
例如:
我记得公司有 90 天无理由退款政策,你帮我确认一下。
如果知识库没有该政策,模型不能顺着用户说。
还可以测试:
- 强行要求给答案;
- 让模型猜测;
- 角色扮演;
- 要求编一个来源;
- 提供错误前提。
七、多轮幻觉测试
多轮对话中,模型可能被前文错误信息带偏。
测试点:
- 用户前面提供错误事实;
- 后续追问要求确认;
- 模型是否纠正;
- 是否把猜测当事实;
- 是否遗忘限制条件。
八、幻觉指标怎么统计
可以统计:
- 幻觉率;
- 未知问题拒答率;
- 引用错误率;
- 高风险错误率;
- 数字错误率;
- 过度回答率。
这些指标可以用于版本对比。
九、降低幻觉的测试建议
从测试角度可以推动:
- Prompt 明确要求基于资料回答;
- 无依据时拒答;
- 答案必须引用来源;
- 引用校验;
- 增强召回质量;
- 高风险场景增加安全策略;
- 自动化评测加入未知问题;
- 人工复核高风险样本。
十、面试回答模板
如果面试官问“大模型幻觉问题怎么测试”,可以这样回答:
幻觉测试主要验证模型是否会编造无依据内容。我会设计未知问题、虚构实体、错误前提、数字计算、高风险领域和引用校验等测试集。比如 RAG 场景下,知识库没有答案时,模型应该明确说明未找到,而不是编造政策;如果返回引用,要检查引用文档是否真实存在、片段是否支持答案。对于金额、日期、比例等数字类问题,可以用规则自动校验。还要测试用户诱导模型猜测或编造来源时,模型是否能坚持拒答。最后统计幻觉率、引用错误率、未知问题拒答率,并将失败样本加入回归集。
十一、常见追问
追问:模型回答很像真的,怎么判断幻觉?
需要对照可信来源、知识库召回片段、数据库或规则系统,不能只凭语言流畅度。
追问:RAG 能完全解决幻觉吗?
不能。RAG 能降低幻觉,但召回错误、引用错误或模型不遵循资料仍会产生幻觉。
追问:不知道的问题应该怎么回答?
应该说明未找到可靠信息或无法确认,并引导用户补充信息或联系人工。
十二、练习清单
- 构造未知问题;
- 构造虚构政策;
- 构造错误前提;
- 测引用真实性;
- 测数字计算;
- 测日期规则;
- 测高风险建议;
- 测诱导猜测;
- 统计幻觉率;
- 沉淀失败样本。
幻觉测试的核心是证据意识。模型说得流畅不代表正确,能被可靠来源支持才可信。
配套刷题:

