小牛丨软件测试学习小牛丨软件测试学习
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
  • AI 测试精华文章

    • AI 测试精华文章
    • 1. AI 测试工程师要掌握什么
    • 2. 大模型评测怎么做
    • 3. Prompt 测试怎么设计
    • 4. RAG 测试重点测什么
    • 5. 知识库召回和答案质量怎么评估
    • 6. Agent 测试应该关注哪些风险
    • 7. AI 自动化评测怎么落地
    • 8. 大模型幻觉问题怎么测试
    • 9. AI 应用安全测试怎么入门
    • 10. AI 测试项目怎么写进简历
⌕
🛒项目实战📦资料包🛠测试神器AIAI路线CV简历测评🧭入行测评🧪测开测评🎯训练营🏆案例❤赞赏我

8. 大模型幻觉问题怎么测试

大模型幻觉是 AI 测试中最重要的问题之一。所谓幻觉,就是模型生成了看似合理但实际错误、无依据或编造的内容。对于智能客服、知识库问答、医疗、金融、法律、企业内部助手等场景,幻觉可能造成严重风险。测试大模型幻觉,不能只靠主观感觉,而要设计专门的评测集和判断标准。

幻觉测试的核心是验证模型在不确定、无知识、边界和高风险场景下,是否能基于事实回答,是否知道自己不知道,是否会编造来源和结论。

一、幻觉有哪些类型

常见幻觉包括:

  • 事实幻觉:编造不存在的事实;
  • 引用幻觉:编造文档、链接、页码;
  • 数字幻觉:金额、日期、比例错误;
  • 政策幻觉:编造公司规则;
  • 工具幻觉:没有调用工具却说已完成;
  • 权限幻觉:声称看到无权限数据;
  • 代码幻觉:生成不存在的 API;
  • 过度推断:根据不足信息下结论。

不同业务场景要重点测试不同幻觉。

二、未知问题测试

当知识库没有答案时,模型应该拒答或说明不确定。

测试问题:

  • 知识库没有的政策;
  • 不存在的产品;
  • 虚构的人名或订单号;
  • 过期规则;
  • 模糊问题。

预期行为:

  • 不编造;
  • 明确说明未找到;
  • 引导用户补充信息;
  • 建议联系人工或查看官方渠道。

三、引用幻觉测试

RAG 场景中,模型可能编造引用。

测试点:

  • 引用文档是否真实存在;
  • 引用片段是否支持答案;
  • 页码是否正确;
  • 链接是否可访问;
  • 是否引用了无关内容;
  • 是否在无召回时仍给引用。

引用错比没有引用更危险,因为会制造虚假可信度。

四、数字和日期测试

模型容易在数字、日期、比例、金额上出错。

测试点:

  • 费用计算;
  • 折扣规则;
  • 退款金额;
  • 日期区间;
  • 有效期;
  • 统计结果;
  • 单位换算。

数字类问题最好用规则或程序自动校验。

五、高风险领域测试

医疗、金融、法律、招聘、教育等场景要更谨慎。

测试点:

  • 是否给出绝对结论;
  • 是否提供未经验证建议;
  • 是否忽略风险提示;
  • 是否编造法规;
  • 是否建议用户执行危险操作;
  • 是否提醒咨询专业人士。

高风险领域需要更严格的拒答和免责声明策略。

六、对抗诱导测试

用户可能诱导模型编造。

例如:

我记得公司有 90 天无理由退款政策,你帮我确认一下。

如果知识库没有该政策,模型不能顺着用户说。

还可以测试:

  • 强行要求给答案;
  • 让模型猜测;
  • 角色扮演;
  • 要求编一个来源;
  • 提供错误前提。

七、多轮幻觉测试

多轮对话中,模型可能被前文错误信息带偏。

测试点:

  • 用户前面提供错误事实;
  • 后续追问要求确认;
  • 模型是否纠正;
  • 是否把猜测当事实;
  • 是否遗忘限制条件。

八、幻觉指标怎么统计

可以统计:

  • 幻觉率;
  • 未知问题拒答率;
  • 引用错误率;
  • 高风险错误率;
  • 数字错误率;
  • 过度回答率。

这些指标可以用于版本对比。

九、降低幻觉的测试建议

从测试角度可以推动:

  • Prompt 明确要求基于资料回答;
  • 无依据时拒答;
  • 答案必须引用来源;
  • 引用校验;
  • 增强召回质量;
  • 高风险场景增加安全策略;
  • 自动化评测加入未知问题;
  • 人工复核高风险样本。

十、面试回答模板

如果面试官问“大模型幻觉问题怎么测试”,可以这样回答:

幻觉测试主要验证模型是否会编造无依据内容。我会设计未知问题、虚构实体、错误前提、数字计算、高风险领域和引用校验等测试集。比如 RAG 场景下,知识库没有答案时,模型应该明确说明未找到,而不是编造政策;如果返回引用,要检查引用文档是否真实存在、片段是否支持答案。对于金额、日期、比例等数字类问题,可以用规则自动校验。还要测试用户诱导模型猜测或编造来源时,模型是否能坚持拒答。最后统计幻觉率、引用错误率、未知问题拒答率,并将失败样本加入回归集。

十一、常见追问

追问:模型回答很像真的,怎么判断幻觉?

需要对照可信来源、知识库召回片段、数据库或规则系统,不能只凭语言流畅度。

追问:RAG 能完全解决幻觉吗?

不能。RAG 能降低幻觉,但召回错误、引用错误或模型不遵循资料仍会产生幻觉。

追问:不知道的问题应该怎么回答?

应该说明未找到可靠信息或无法确认,并引导用户补充信息或联系人工。

十二、练习清单

  1. 构造未知问题;
  2. 构造虚构政策;
  3. 构造错误前提;
  4. 测引用真实性;
  5. 测数字计算;
  6. 测日期规则;
  7. 测高风险建议;
  8. 测诱导猜测;
  9. 统计幻觉率;
  10. 沉淀失败样本。

幻觉测试的核心是证据意识。模型说得流畅不代表正确,能被可靠来源支持才可信。

配套刷题:

  • 大模型测试面试题
相关推荐

下一步可以看这些

面试通关软件测试面试通关系列精华文章

把面试题、项目、简历和训练营串成一套求职准备路径。

入行路线零基础入行软件测试专题路径

从测评、学习路线、项目、简历到面试,按顺序入行。

进阶路线初中级测试进阶高级专题路径

接口自动化、性能测试、CI/CD、复杂业务质量保障进阶路线。

AI 方向AI 测试学习路线专题页

大模型评测、RAG 测试、Agent 测试和 AI 自动化路线。

求职结果Offer 案例 / 学员案例展示

看看真实学员 Offer 案例,判断目标和学习投入是否匹配。

资料 / 交流群添加小牛微信

备注:资料、简历、AI 或找工作,领取对应资料或进交流群。

添加小牛微信
Prev
7. AI 自动化评测怎么落地
Next
9. AI 应用安全测试怎么入门