大模型测试面试题

涵盖 Prompt 测试、幻觉评估、RAG 测试、多轮对话评测等高频题。

一、大模型基础与测试认知

1. 大模型测试和传统软件测试有什么区别？

参考回答： 大模型测试除了验证功能流程是否正确，还要验证模型输出质量、事实准确性、稳定性、安全性和业务可用性。传统测试多是确定性断言，大模型测试更多是概率性评估，需要结合规则、人工评审、自动评分、业务指标和线上反馈综合判断。

2. 大模型应用测试主要包含哪些测试范围？

参考回答： 一般包含 Prompt 测试、模型效果测试、幻觉测试、RAG 检索测试、多轮对话测试、内容安全测试、接口性能测试、稳定性测试、权限测试和业务流程测试。如果是企业知识库问答，还要重点测试知识库更新、召回准确性、无答案兜底和引用来源。

3. 大模型输出为什么具有不确定性？测试时如何处理？

参考回答： 大模型生成内容受到采样策略、温度参数、上下文、Prompt 表达和模型版本影响，所以同一个问题可能输出不同文本。测试时应固定版本和参数，建立黄金测试集，采用语义判断、关键点匹配、多次运行统计和人工复核，而不是只做完全字符串匹配。

4. 大模型测试中如何定义“正确答案”？

参考回答： 大模型场景下正确答案不一定是唯一文本，而是要满足事实正确、覆盖关键点、逻辑清晰、符合业务规则、无违规内容。对于知识库问答，还要要求答案来源于知识库，不能编造；对于客服场景，还要看是否真正解决用户问题。

5. 大模型应用上线前需要做哪些核心测试？

参考回答： 上线前要做功能链路测试、Prompt 效果测试、RAG 召回测试、幻觉与事实性测试、多轮对话测试、内容安全测试、性能压测、稳定性测试和灰度验证。核心是证明它不只是能回答，还要稳定、准确、安全、可监控。

6. 大模型测试中人工评测和自动化评测分别适合什么场景？

参考回答： 自动化评测适合大批量、规则清晰、回归频繁的场景，比如关键词、格式、引用、相似度和模型打分。人工评测适合复杂主观场景，比如答案专业性、逻辑完整性、语气体验和业务合理性。实际工作通常两者结合，自动化提高效率，人工保证质量上限。

7. 大模型应用测试中如何构造高质量测试集？

参考回答： 测试集要来源于真实业务，包括高频问题、长尾问题、边界问题、异常输入、历史 Bug、安全攻击和无答案场景。还要按业务类型、难度、风险等级分层，保证既能覆盖日常使用，也能覆盖最容易出问题的场景。

8. 大模型版本升级后如何做回归测试？

参考回答： 我会用固定黄金测试集做新旧版本对比，关注准确性、幻觉率、拒答率、安全拦截率、响应时间和用户体验是否变化。对于核心业务问题，要逐条确认不能退化；对于生成式答案，可以用自动评分加人工抽检判断。

9. 如何判断大模型能力是否满足业务需求？

参考回答： 不能只看模型通用能力，而要看业务场景中的任务完成效果。比如客服看解决率和转人工率，知识库问答看答案命中率和引用准确率，写作场景看可用率和修改率。最终要用业务指标证明模型确实解决了问题。

10. 大模型测试报告应该包含哪些核心内容？

参考回答： 测试报告应包含测试范围、模型版本、Prompt 版本、知识库版本、测试集说明、评估指标、通过率、典型失败案例、风险分析、性能结果、安全结果和上线建议。大模型报告最好给出问题分类，方便产品、算法和研发定位优化。

二、Prompt测试

11. 什么是 Prompt 测试？主要测试哪些内容？

参考回答： Prompt 测试是验证提示词能否稳定引导模型输出符合业务要求的内容。主要测试角色设定、任务约束、输出格式、边界处理、拒答策略、安全约束、多轮上下文和不同表达方式下的稳定性。

12. 如何评估 Prompt 的稳定性？

参考回答： 可以固定测试集，多次调用同一 Prompt，统计关键点命中率、格式正确率、答案一致性和失败率。还可以用同义改写、长短输入、异常输入做扰动测试，看 Prompt 是否仍能稳定控制模型输出。

13. 如何测试 Prompt 在不同表达方式下的效果？

参考回答： 可以把同一意图改写成不同口语表达、错别字表达、长句表达和模糊表达，观察模型是否仍能理解需求并输出正确结果。如果表达方式轻微变化就导致结果明显偏差，说明 Prompt 或意图理解不够鲁棒。

14. Prompt 中角色设定失效时如何定位问题？

参考回答： 我会先确认系统 Prompt 是否正确传入，再看用户输入是否覆盖或干扰了角色设定，然后检查上下文拼接顺序、模型参数和安全策略。还要分析失败样本，看是角色约束不够明确，还是业务规则和用户指令冲突。

15. 如何测试 Prompt 对边界输入的处理能力？

参考回答： 边界输入包括超长文本、空输入、无关问题、模糊问题、多个任务混合、冲突指令等。测试重点是看 Prompt 是否能要求模型澄清、拒答或兜底，而不是强行编造答案。

16. 如何测试 Prompt 对异常输入的鲁棒性？

参考回答： 可以输入乱码、特殊字符、恶意指令、格式错误、错别字和不完整信息，验证模型是否仍能保持安全和稳定。好的 Prompt 应该能让模型识别异常并给出合理提示，而不是输出无关或危险内容。

17. 如何判断 Prompt 是否存在歧义？

参考回答： 如果同一 Prompt 在不同样本上输出方向不一致，或者多个测试人员对任务理解不同，通常说明存在歧义。可以通过失败案例归因，看模型是误解角色、误解任务，还是输出格式和业务规则描述不清。

18. Prompt 变更后如何做回归测试？

参考回答： Prompt 变更后要跑固定回归集，对比变更前后的答案质量、格式正确率、安全性和拒答策略。特别要关注历史 Bug 和核心业务问题，避免优化一个场景却破坏另一个场景。

19. 如何设计 Prompt A/B 测试方案？

参考回答： 可以准备同一批测试问题，分别用 A、B 两个 Prompt 调用模型，对比关键点覆盖率、事实准确率、用户满意度、输出长度、格式正确率和安全通过率。线上 A/B 还要控制流量比例，观察真实用户指标。

20. 如何评估 Prompt 优化是否真正提升效果？

参考回答： 要看优化前后在固定测试集和真实业务数据上的指标变化，比如正确率提升、幻觉率下降、格式错误减少、用户追问减少。不能只看几个样例变好，要看整体统计结果和高风险场景是否稳定。

三、幻觉与事实性评估

21. 什么是大模型幻觉？常见表现有哪些？

参考回答： 幻觉是指模型生成看似合理但事实错误或没有依据的内容。常见表现包括编造不存在的信息、错误引用资料、把不确定内容说得很肯定、混淆概念、给出错误步骤或错误结论。

22. 如何测试大模型是否会编造事实？

参考回答： 可以设计知识库没有答案的问题、冷门事实问题、时间敏感问题和专业领域问题，观察模型是否承认不知道，还是强行回答。对于企业知识库问答，要验证答案是否能在资料中找到依据。

23. 如何评估大模型回答的事实准确性？

参考回答： 可以用人工专家评审、知识库引用校验、标准答案比对和检索验证结合评估。评估时不仅看结论是否正确，还要看关键事实、数字、时间、实体名称和引用来源是否准确。

24. 如何设计问题来诱发模型幻觉？

参考回答： 可以设计不存在的人名、伪造政策、错误前提、模糊问题、超出知识库范围的问题和诱导性问题。目的是验证模型在不确定时是否能拒答或澄清，而不是顺着错误前提继续编造。

25. 如何测试模型对不知道的问题是否会拒答？

参考回答： 准备无答案测试集，确保知识库或业务范围内确实没有对应信息。然后检查模型是否明确表示无法回答、是否引导用户提供更多信息、是否避免编造。拒答不是越多越好，要平衡可答问题和不可答问题。

26. 如何测试模型引用来源是否真实可靠？

参考回答： 对带引用的回答，要校验引用文档是否存在、引用段落是否包含答案依据、引用和结论是否一致。不能只看有链接或编号，还要检查模型是否“引用了但没依据”，这是 RAG 场景常见问题。

27. 如何评估模型在专业领域的事实准确性？

参考回答： 专业领域需要构造领域测试集，并让业务专家或资深人员参与评审。评估重点包括术语准确、流程正确、边界条件合理、风险提示充分。比如金融、医疗、法律领域还要重点关注合规性和误导风险。

28. 大模型出现幻觉后测试人员如何定位原因？

参考回答： 我会先看问题是否超出模型或知识库范围，再看检索结果是否正确，Prompt 是否要求严格基于资料，模型参数是否过于发散，最后分析答案是否来自错误上下文。定位时要区分是检索错、Prompt 控制弱，还是模型生成阶段编造。

29. 如何通过测试降低幻觉风险？

参考回答： 测试侧可以建立幻觉测试集、无答案测试集和事实核验规则，把幻觉率纳入发布门禁。产品和技术侧可以通过强化 Prompt、增加引用校验、限制回答范围、优化 RAG 召回和增加拒答策略来降低风险。

30. 幻觉率指标如何设计和统计？

参考回答： 可以定义幻觉率等于出现事实错误、无依据编造或引用不实的回答数除以总评测回答数。统计时要按问题类型、业务模块和风险等级分层，不只看整体平均值，这样才能定位具体薄弱场景。

四、RAG测试

31. 什么是 RAG？RAG 应用测试重点是什么？

参考回答： RAG 是检索增强生成，先从知识库检索相关资料，再让模型基于资料生成答案。测试重点是知识库质量、切片策略、召回准确性、引用可靠性、答案是否基于资料、无答案兜底和端到端响应性能。

32. RAG 测试中如何评估召回准确性？

参考回答： 可以为测试问题标注标准文档或标准段落，检查检索结果 Top-K 是否命中。常用指标包括 Recall@K、命中率和排序位置。召回不准会直接导致模型回答错误，即使模型本身能力很强也没用。

33. 如何测试知识库切片策略是否合理？

参考回答： 要看切片是否保留完整语义，是否过长导致噪声多，是否过短导致上下文缺失。可以对比不同切片长度、重叠策略和元数据配置下的召回效果和答案质量，选择业务效果最好的方案。

34. 如何测试向量检索结果是否符合预期？

参考回答： 准备查询和期望文档集合，检查向量检索返回内容是否语义相关、排序是否合理、是否漏掉关键资料。还可以加入同义词、错别字和不同表达方式，验证检索鲁棒性。

35. 如何评估 Top-K 参数对回答质量的影响？

参考回答： Top-K 太小可能漏召回，太大可能引入噪声。测试时可以在固定问题集上对比不同 Top-K 的命中率、答案准确率、幻觉率和响应时间，找到效果和性能的平衡点。

36. 如何测试 RAG 回答是否严格基于知识库？

参考回答： 可以要求回答必须带引用，并检查答案中的关键结论是否能在召回片段中找到依据。对于知识库没有的信息，模型应拒答或说明资料不足，而不能凭常识补充企业内部不存在的内容。

37. 如何测试知识库更新后的生效情况？

参考回答： 更新知识库后，要验证文档是否成功入库、切片是否生成、向量是否更新、检索是否命中新内容、旧内容是否失效。还要准备更新前后对比问题，确认答案确实使用了最新资料。

38. 如何设计 RAG 的无答案场景测试？

参考回答： 可以准备知识库范围外的问题、过期政策、虚构信息和权限不可见内容，验证系统是否拒答或提示资料不足。无答案场景很关键，因为很多幻觉就是模型在没有依据时强行回答。

39. RAG 中检索正确但回答错误，可能是什么原因？

参考回答： 可能是 Prompt 没有强约束基于资料回答，模型理解片段错误，召回内容太多引入噪声，或者答案生成时遗漏关键条件。定位时要分别查看用户问题、检索片段、Prompt 拼接和模型最终输出。

40. 如何评估 RAG 系统整体效果？

参考回答： 要同时评估检索和生成两部分。检索看命中率、Recall@K、排序质量；生成看答案准确率、引用准确率、幻觉率、拒答合理性和用户满意度。端到端还要看响应时间、稳定性和知识更新及时性。

五、多轮对话与上下文测试

41. 如何测试大模型多轮对话能力？

参考回答： 可以设计连续追问、补充条件、意图切换、纠错和总结类用例，验证模型是否能记住前文、理解当前问题和保持回答一致。多轮测试不能只看单轮答案，要看整个对话链路是否连贯。

42. 如何验证模型是否正确理解上下文？

参考回答： 可以在前文埋入关键信息，后续用代词、省略表达或追问来验证模型是否正确引用。比如前面说用户买了 A 产品，后面问“它怎么退货”，模型应知道“它”指 A 产品。

43. 如何测试模型在长上下文下的稳定性？

参考回答： 构造长对话、长文档和多主题混合上下文，观察模型是否遗漏关键信息、混淆内容或响应变慢。还要测试关键信息出现在开头、中间、结尾时是否都能被正确利用。

44. 如何测试模型对历史对话信息的引用是否正确？

参考回答： 可以设计带有用户偏好、历史选择和之前结论的对话，后续要求模型引用这些信息。验证时看引用是否准确、是否张冠李戴、是否把无关历史当成当前依据。

45. 如何测试上下文丢失或污染问题？

参考回答： 上下文丢失可以通过连续追问验证，污染可以插入无关或错误信息，看模型是否被干扰。测试重点是模型是否能区分当前任务、历史信息和无关内容，避免回答偏离。

46. 如何测试多轮对话中的意图切换能力？

参考回答： 可以先让模型处理一个任务，再突然切换到另一个任务，观察模型是否能识别新意图，而不是继续沿用旧上下文。客服和 Agent 场景中意图切换非常常见，测试时必须覆盖。

47. 如何测试模型是否能纠正前文错误？

参考回答： 可以先让模型给出一个答案，再在后续指出错误或补充新信息，看模型是否能承认并修正，而不是固执坚持原答案。这能验证模型的上下文更新和纠错能力。

48. 多轮对话测试用例应该如何设计？

参考回答： 用例要包含对话目标、每轮用户输入、期望状态变化、关键记忆点和最终验收标准。不要只写单轮问答，要把多轮过程中的上下文引用、信息补充、意图变化和异常兜底都设计出来。

49. 如何评估多轮对话的连贯性和一致性？

参考回答： 可以看模型是否保持角色一致、事实一致、语气一致和业务规则一致。比如前面说不能办理，后面不能又说可以办理；前面确认的用户信息，后面不能遗忘或篡改。

50. 大模型多轮对话回归测试如何自动化？

参考回答： 可以把多轮对话写成结构化用例，自动按轮次调用接口，记录每轮响应，并用规则、关键点、语义相似度或模型裁判评分。自动化要保留完整上下文和响应日志，方便失败时回放定位。

下一步可以看这些