小牛丨软件测试学习小牛丨软件测试学习
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
  • AI面试题

    • AI测试面试题必刷
    • AI 测试学习路线
    • AI测试基础面试题
    • 大模型测试面试题
    • AI自动化测开面试题
    • AI Agent测试面试题
    • AI性能与稳定性测试面试题
    • AI应用安全测试面试题
⌕
🛒项目实战📦资料包🛠测试神器AIAI路线CV简历测评🧭入行测评🧪测开测评🎯训练营🏆案例❤赞赏我

大模型测试面试题

涵盖 Prompt 测试、幻觉评估、RAG 测试、多轮对话评测等高频题。

一、大模型基础与测试认知

1. 大模型测试和传统软件测试有什么区别?

参考回答: 大模型测试除了验证功能流程是否正确,还要验证模型输出质量、事实准确性、稳定性、安全性和业务可用性。传统测试多是确定性断言,大模型测试更多是概率性评估,需要结合规则、人工评审、自动评分、业务指标和线上反馈综合判断。

2. 大模型应用测试主要包含哪些测试范围?

参考回答: 一般包含 Prompt 测试、模型效果测试、幻觉测试、RAG 检索测试、多轮对话测试、内容安全测试、接口性能测试、稳定性测试、权限测试和业务流程测试。如果是企业知识库问答,还要重点测试知识库更新、召回准确性、无答案兜底和引用来源。

3. 大模型输出为什么具有不确定性?测试时如何处理?

参考回答: 大模型生成内容受到采样策略、温度参数、上下文、Prompt 表达和模型版本影响,所以同一个问题可能输出不同文本。测试时应固定版本和参数,建立黄金测试集,采用语义判断、关键点匹配、多次运行统计和人工复核,而不是只做完全字符串匹配。

4. 大模型测试中如何定义“正确答案”?

参考回答: 大模型场景下正确答案不一定是唯一文本,而是要满足事实正确、覆盖关键点、逻辑清晰、符合业务规则、无违规内容。对于知识库问答,还要要求答案来源于知识库,不能编造;对于客服场景,还要看是否真正解决用户问题。

5. 大模型应用上线前需要做哪些核心测试?

参考回答: 上线前要做功能链路测试、Prompt 效果测试、RAG 召回测试、幻觉与事实性测试、多轮对话测试、内容安全测试、性能压测、稳定性测试和灰度验证。核心是证明它不只是能回答,还要稳定、准确、安全、可监控。

6. 大模型测试中人工评测和自动化评测分别适合什么场景?

参考回答: 自动化评测适合大批量、规则清晰、回归频繁的场景,比如关键词、格式、引用、相似度和模型打分。人工评测适合复杂主观场景,比如答案专业性、逻辑完整性、语气体验和业务合理性。实际工作通常两者结合,自动化提高效率,人工保证质量上限。

7. 大模型应用测试中如何构造高质量测试集?

参考回答: 测试集要来源于真实业务,包括高频问题、长尾问题、边界问题、异常输入、历史 Bug、安全攻击和无答案场景。还要按业务类型、难度、风险等级分层,保证既能覆盖日常使用,也能覆盖最容易出问题的场景。

8. 大模型版本升级后如何做回归测试?

参考回答: 我会用固定黄金测试集做新旧版本对比,关注准确性、幻觉率、拒答率、安全拦截率、响应时间和用户体验是否变化。对于核心业务问题,要逐条确认不能退化;对于生成式答案,可以用自动评分加人工抽检判断。

9. 如何判断大模型能力是否满足业务需求?

参考回答: 不能只看模型通用能力,而要看业务场景中的任务完成效果。比如客服看解决率和转人工率,知识库问答看答案命中率和引用准确率,写作场景看可用率和修改率。最终要用业务指标证明模型确实解决了问题。

10. 大模型测试报告应该包含哪些核心内容?

参考回答: 测试报告应包含测试范围、模型版本、Prompt 版本、知识库版本、测试集说明、评估指标、通过率、典型失败案例、风险分析、性能结果、安全结果和上线建议。大模型报告最好给出问题分类,方便产品、算法和研发定位优化。

二、Prompt测试

11. 什么是 Prompt 测试?主要测试哪些内容?

参考回答: Prompt 测试是验证提示词能否稳定引导模型输出符合业务要求的内容。主要测试角色设定、任务约束、输出格式、边界处理、拒答策略、安全约束、多轮上下文和不同表达方式下的稳定性。

12. 如何评估 Prompt 的稳定性?

参考回答: 可以固定测试集,多次调用同一 Prompt,统计关键点命中率、格式正确率、答案一致性和失败率。还可以用同义改写、长短输入、异常输入做扰动测试,看 Prompt 是否仍能稳定控制模型输出。

13. 如何测试 Prompt 在不同表达方式下的效果?

参考回答: 可以把同一意图改写成不同口语表达、错别字表达、长句表达和模糊表达,观察模型是否仍能理解需求并输出正确结果。如果表达方式轻微变化就导致结果明显偏差,说明 Prompt 或意图理解不够鲁棒。

14. Prompt 中角色设定失效时如何定位问题?

参考回答: 我会先确认系统 Prompt 是否正确传入,再看用户输入是否覆盖或干扰了角色设定,然后检查上下文拼接顺序、模型参数和安全策略。还要分析失败样本,看是角色约束不够明确,还是业务规则和用户指令冲突。

15. 如何测试 Prompt 对边界输入的处理能力?

参考回答: 边界输入包括超长文本、空输入、无关问题、模糊问题、多个任务混合、冲突指令等。测试重点是看 Prompt 是否能要求模型澄清、拒答或兜底,而不是强行编造答案。

16. 如何测试 Prompt 对异常输入的鲁棒性?

参考回答: 可以输入乱码、特殊字符、恶意指令、格式错误、错别字和不完整信息,验证模型是否仍能保持安全和稳定。好的 Prompt 应该能让模型识别异常并给出合理提示,而不是输出无关或危险内容。

17. 如何判断 Prompt 是否存在歧义?

参考回答: 如果同一 Prompt 在不同样本上输出方向不一致,或者多个测试人员对任务理解不同,通常说明存在歧义。可以通过失败案例归因,看模型是误解角色、误解任务,还是输出格式和业务规则描述不清。

18. Prompt 变更后如何做回归测试?

参考回答: Prompt 变更后要跑固定回归集,对比变更前后的答案质量、格式正确率、安全性和拒答策略。特别要关注历史 Bug 和核心业务问题,避免优化一个场景却破坏另一个场景。

19. 如何设计 Prompt A/B 测试方案?

参考回答: 可以准备同一批测试问题,分别用 A、B 两个 Prompt 调用模型,对比关键点覆盖率、事实准确率、用户满意度、输出长度、格式正确率和安全通过率。线上 A/B 还要控制流量比例,观察真实用户指标。

20. 如何评估 Prompt 优化是否真正提升效果?

参考回答: 要看优化前后在固定测试集和真实业务数据上的指标变化,比如正确率提升、幻觉率下降、格式错误减少、用户追问减少。不能只看几个样例变好,要看整体统计结果和高风险场景是否稳定。

三、幻觉与事实性评估

21. 什么是大模型幻觉?常见表现有哪些?

参考回答: 幻觉是指模型生成看似合理但事实错误或没有依据的内容。常见表现包括编造不存在的信息、错误引用资料、把不确定内容说得很肯定、混淆概念、给出错误步骤或错误结论。

22. 如何测试大模型是否会编造事实?

参考回答: 可以设计知识库没有答案的问题、冷门事实问题、时间敏感问题和专业领域问题,观察模型是否承认不知道,还是强行回答。对于企业知识库问答,要验证答案是否能在资料中找到依据。

23. 如何评估大模型回答的事实准确性?

参考回答: 可以用人工专家评审、知识库引用校验、标准答案比对和检索验证结合评估。评估时不仅看结论是否正确,还要看关键事实、数字、时间、实体名称和引用来源是否准确。

24. 如何设计问题来诱发模型幻觉?

参考回答: 可以设计不存在的人名、伪造政策、错误前提、模糊问题、超出知识库范围的问题和诱导性问题。目的是验证模型在不确定时是否能拒答或澄清,而不是顺着错误前提继续编造。

25. 如何测试模型对不知道的问题是否会拒答?

参考回答: 准备无答案测试集,确保知识库或业务范围内确实没有对应信息。然后检查模型是否明确表示无法回答、是否引导用户提供更多信息、是否避免编造。拒答不是越多越好,要平衡可答问题和不可答问题。

26. 如何测试模型引用来源是否真实可靠?

参考回答: 对带引用的回答,要校验引用文档是否存在、引用段落是否包含答案依据、引用和结论是否一致。不能只看有链接或编号,还要检查模型是否“引用了但没依据”,这是 RAG 场景常见问题。

27. 如何评估模型在专业领域的事实准确性?

参考回答: 专业领域需要构造领域测试集,并让业务专家或资深人员参与评审。评估重点包括术语准确、流程正确、边界条件合理、风险提示充分。比如金融、医疗、法律领域还要重点关注合规性和误导风险。

28. 大模型出现幻觉后测试人员如何定位原因?

参考回答: 我会先看问题是否超出模型或知识库范围,再看检索结果是否正确,Prompt 是否要求严格基于资料,模型参数是否过于发散,最后分析答案是否来自错误上下文。定位时要区分是检索错、Prompt 控制弱,还是模型生成阶段编造。

29. 如何通过测试降低幻觉风险?

参考回答: 测试侧可以建立幻觉测试集、无答案测试集和事实核验规则,把幻觉率纳入发布门禁。产品和技术侧可以通过强化 Prompt、增加引用校验、限制回答范围、优化 RAG 召回和增加拒答策略来降低风险。

30. 幻觉率指标如何设计和统计?

参考回答: 可以定义幻觉率等于出现事实错误、无依据编造或引用不实的回答数除以总评测回答数。统计时要按问题类型、业务模块和风险等级分层,不只看整体平均值,这样才能定位具体薄弱场景。

四、RAG测试

31. 什么是 RAG?RAG 应用测试重点是什么?

参考回答: RAG 是检索增强生成,先从知识库检索相关资料,再让模型基于资料生成答案。测试重点是知识库质量、切片策略、召回准确性、引用可靠性、答案是否基于资料、无答案兜底和端到端响应性能。

32. RAG 测试中如何评估召回准确性?

参考回答: 可以为测试问题标注标准文档或标准段落,检查检索结果 Top-K 是否命中。常用指标包括 Recall@K、命中率和排序位置。召回不准会直接导致模型回答错误,即使模型本身能力很强也没用。

33. 如何测试知识库切片策略是否合理?

参考回答: 要看切片是否保留完整语义,是否过长导致噪声多,是否过短导致上下文缺失。可以对比不同切片长度、重叠策略和元数据配置下的召回效果和答案质量,选择业务效果最好的方案。

34. 如何测试向量检索结果是否符合预期?

参考回答: 准备查询和期望文档集合,检查向量检索返回内容是否语义相关、排序是否合理、是否漏掉关键资料。还可以加入同义词、错别字和不同表达方式,验证检索鲁棒性。

35. 如何评估 Top-K 参数对回答质量的影响?

参考回答: Top-K 太小可能漏召回,太大可能引入噪声。测试时可以在固定问题集上对比不同 Top-K 的命中率、答案准确率、幻觉率和响应时间,找到效果和性能的平衡点。

36. 如何测试 RAG 回答是否严格基于知识库?

参考回答: 可以要求回答必须带引用,并检查答案中的关键结论是否能在召回片段中找到依据。对于知识库没有的信息,模型应拒答或说明资料不足,而不能凭常识补充企业内部不存在的内容。

37. 如何测试知识库更新后的生效情况?

参考回答: 更新知识库后,要验证文档是否成功入库、切片是否生成、向量是否更新、检索是否命中新内容、旧内容是否失效。还要准备更新前后对比问题,确认答案确实使用了最新资料。

38. 如何设计 RAG 的无答案场景测试?

参考回答: 可以准备知识库范围外的问题、过期政策、虚构信息和权限不可见内容,验证系统是否拒答或提示资料不足。无答案场景很关键,因为很多幻觉就是模型在没有依据时强行回答。

39. RAG 中检索正确但回答错误,可能是什么原因?

参考回答: 可能是 Prompt 没有强约束基于资料回答,模型理解片段错误,召回内容太多引入噪声,或者答案生成时遗漏关键条件。定位时要分别查看用户问题、检索片段、Prompt 拼接和模型最终输出。

40. 如何评估 RAG 系统整体效果?

参考回答: 要同时评估检索和生成两部分。检索看命中率、Recall@K、排序质量;生成看答案准确率、引用准确率、幻觉率、拒答合理性和用户满意度。端到端还要看响应时间、稳定性和知识更新及时性。

五、多轮对话与上下文测试

41. 如何测试大模型多轮对话能力?

参考回答: 可以设计连续追问、补充条件、意图切换、纠错和总结类用例,验证模型是否能记住前文、理解当前问题和保持回答一致。多轮测试不能只看单轮答案,要看整个对话链路是否连贯。

42. 如何验证模型是否正确理解上下文?

参考回答: 可以在前文埋入关键信息,后续用代词、省略表达或追问来验证模型是否正确引用。比如前面说用户买了 A 产品,后面问“它怎么退货”,模型应知道“它”指 A 产品。

43. 如何测试模型在长上下文下的稳定性?

参考回答: 构造长对话、长文档和多主题混合上下文,观察模型是否遗漏关键信息、混淆内容或响应变慢。还要测试关键信息出现在开头、中间、结尾时是否都能被正确利用。

44. 如何测试模型对历史对话信息的引用是否正确?

参考回答: 可以设计带有用户偏好、历史选择和之前结论的对话,后续要求模型引用这些信息。验证时看引用是否准确、是否张冠李戴、是否把无关历史当成当前依据。

45. 如何测试上下文丢失或污染问题?

参考回答: 上下文丢失可以通过连续追问验证,污染可以插入无关或错误信息,看模型是否被干扰。测试重点是模型是否能区分当前任务、历史信息和无关内容,避免回答偏离。

46. 如何测试多轮对话中的意图切换能力?

参考回答: 可以先让模型处理一个任务,再突然切换到另一个任务,观察模型是否能识别新意图,而不是继续沿用旧上下文。客服和 Agent 场景中意图切换非常常见,测试时必须覆盖。

47. 如何测试模型是否能纠正前文错误?

参考回答: 可以先让模型给出一个答案,再在后续指出错误或补充新信息,看模型是否能承认并修正,而不是固执坚持原答案。这能验证模型的上下文更新和纠错能力。

48. 多轮对话测试用例应该如何设计?

参考回答: 用例要包含对话目标、每轮用户输入、期望状态变化、关键记忆点和最终验收标准。不要只写单轮问答,要把多轮过程中的上下文引用、信息补充、意图变化和异常兜底都设计出来。

49. 如何评估多轮对话的连贯性和一致性?

参考回答: 可以看模型是否保持角色一致、事实一致、语气一致和业务规则一致。比如前面说不能办理,后面不能又说可以办理;前面确认的用户信息,后面不能遗忘或篡改。

50. 大模型多轮对话回归测试如何自动化?

参考回答: 可以把多轮对话写成结构化用例,自动按轮次调用接口,记录每轮响应,并用规则、关键点、语义相似度或模型裁判评分。自动化要保留完整上下文和响应日志,方便失败时回放定位。

相关推荐

下一步可以看这些

面试通关软件测试面试通关系列精华文章

把面试题、项目、简历和训练营串成一套求职准备路径。

入行路线零基础入行软件测试专题路径

从测评、学习路线、项目、简历到面试,按顺序入行。

进阶路线初中级测试进阶高级专题路径

接口自动化、性能测试、CI/CD、复杂业务质量保障进阶路线。

AI 方向AI 测试学习路线专题页

大模型评测、RAG 测试、Agent 测试和 AI 自动化路线。

求职结果Offer 案例 / 学员案例展示

看看真实学员 Offer 案例,判断目标和学习投入是否匹配。

资料 / 交流群添加小牛微信

备注:资料、简历、AI 或找工作,领取对应资料或进交流群。

添加小牛微信
Prev
AI测试基础面试题
Next
AI自动化测开面试题