AI测试基础面试题
覆盖 AI 测试概念、评估指标、测试流程、数据质量与模型质量面试考点。
一、AI测试基础认知
1. 什么是 AI 测试?它和传统软件测试有什么区别?
面试回答: AI 测试是对 AI 系统从数据、模型、服务到业务应用的整体质量验证。传统测试更多验证确定性逻辑,比如输入固定就应该得到固定输出;AI 测试面对的是概率性输出,同一个输入在不同模型版本、参数和上下文下可能不同。所以 AI 测试除了功能正确性,还要关注准确率、召回率、鲁棒性、稳定性、幻觉率、数据偏差和模型退化。
2. AI 应用测试主要测试哪些对象?
面试回答: 我会从端到端链路看,主要测数据层、模型层、服务层和应用层。数据层看采集、清洗、标注和分布;模型层看效果、泛化和鲁棒性;服务层看接口、性能、并发、限流和稳定性;应用层看用户流程、异常处理、权限、安全和业务效果。如果是大模型,还要测 Prompt、RAG、上下文、内容安全和 Agent 工具调用。
3. 为什么 AI 系统的测试结果通常不是绝对确定的?
面试回答: 因为 AI 输出往往基于概率计算。比如大模型会受到温度参数、采样策略、上下文、Prompt 表达和知识库召回结果影响,所以答案可能语义一致但表达不同。测试时不能只用固定字符串断言,而要结合规则、语义相似度、指标评估、人工复核和业务标准综合判断。
4. AI 测试中为什么要关注模型效果和工程质量两部分?
面试回答: 模型效果解决“准不准、好不好”的问题,比如准确率、召回率、幻觉率;工程质量解决“稳不稳、能不能上线”的问题,比如接口可用性、响应时间、并发、降级、监控和安全。模型离线指标再好,如果线上经常超时或链路异常,用户体验仍然很差,所以两部分都必须覆盖。
5. AI 产品测试常见的业务场景有哪些?
面试回答: 常见场景包括智能客服、知识库问答、搜索推荐、内容审核、OCR、语音识别、图像识别、智能质检、智能写作、代码助手和 AI Agent。不同场景重点不同,比如客服重多轮和兜底,OCR 重识别率和复杂图片,推荐重召回排序,Agent 重任务规划、工具调用和权限边界。
6. AI 测试工程师需要掌握哪些基础能力?
面试回答: 首先要有传统测试能力,包括需求分析、用例设计、接口测试、自动化、性能和缺陷定位。其次要理解 AI 基础,比如训练集、测试集、准确率、召回率、F1、过拟合、数据漂移和模型退化。大模型方向还要懂 Prompt、RAG、幻觉、多轮对话、安全和自动化评测,最好能用 Python 做数据处理和评测脚本。
7. AI 测试中“数据、模型、服务、应用”分别应该怎么测?
面试回答: 数据层测完整性、准确性、标注质量、类别均衡和数据分布;模型层测准确率、召回率、鲁棒性、泛化和偏见;服务层测接口、响应时间、并发、超时、限流、降级和监控;应用层测用户流程、交互体验、异常提示、权限和业务闭环。我一般总结为:数据决定上限,模型决定效果,服务决定稳定,应用决定体验。
8. AI 测试和算法测试有什么区别?
面试回答: 算法测试更关注模型本身,比如离线指标、训练数据、评估集和效果对比。AI 测试范围更大,除了模型效果,还包括接口、系统集成、性能、稳定性、安全、业务流程和线上监控。可以理解为算法测试看“模型好不好”,AI 测试看“模型放到产品里后能不能稳定解决业务问题”。
9. AI 测试和大数据测试有什么关联?
面试回答: AI 依赖数据,所以两者关系很紧。大数据测试保障数据采集、清洗、ETL、口径和延迟正确;AI 测试进一步看这些数据对模型效果的影响,比如数据偏差、标注质量、分布变化和数据漂移。如果数据链路不可信,后面的模型评估和业务效果也很难可信。
10. AI 应用上线前一般需要经过哪些测试阶段?
面试回答: 一般包括需求评审、数据质量测试、模型效果评估、接口和集成测试、性能稳定性测试、安全合规测试、灰度验证和线上监控准备。AI 应用不能只看离线模型指标,还要验证真实业务链路、异常兜底和上线后的持续质量。
二、AI测试流程与策略
11. 一个 AI 应用从需求到上线,测试流程如何设计?
面试回答: 我会先在需求阶段明确业务目标、模型指标和上线标准;然后准备测试数据集,做数据质量检查;接着做模型效果评估和回归;再进行接口、集成、性能、安全测试;最后灰度上线并观察线上指标。核心是把模型效果和工程质量都纳入发布门禁。
12. 如何为 AI 产品制定整体测试策略?
面试回答: 测试策略要按风险和链路拆分。首先明确业务核心场景和失败影响,其次定义模型指标、体验指标和系统指标,然后设计功能、效果、鲁棒性、性能、安全和监控测试。对高风险场景要建立黄金测试集和回归基线,保证版本迭代不退化。
13. AI 测试用例和传统功能测试用例有什么不同?
面试回答: 传统用例通常是输入、步骤、预期结果比较固定;AI 用例除了输入和场景,还要定义评估维度、可接受范围、评分规则和人工复核标准。比如大模型答案不一定逐字相同,但需要事实正确、覆盖关键点、无违规内容、语义满足业务要求。
14. AI 测试中如何定义测试通过和失败?
面试回答: 我会根据场景定义通过标准。确定性功能可以按传统断言;模型效果类场景要看指标是否达到阈值,比如准确率、召回率、幻觉率;生成式场景可以按规则评分、语义相似度和人工评审结合判断。关键是提前定义可量化、可复现的验收标准。
15. AI 测试中如何处理输出不稳定的问题?
面试回答: 首先尽量固定模型版本、参数、温度、Prompt 和测试数据,降低随机性;其次不要依赖单次结果,可以多次采样统计通过率;再结合语义断言、规则校验和人工复核。对于线上场景,还要持续监控效果波动,而不是只看一次测试结果。
16. AI 产品需求评审时测试人员重点关注什么?
面试回答: 我会重点关注业务目标是否清晰、模型能力边界是否明确、输入输出是否可评估、异常和兜底策略是否完整、数据来源和权限是否合规、上线指标和失败标准是否可量化。如果这些不明确,后面很难设计有效测试用例。
17. AI 测试计划中应该包含哪些内容?
面试回答: 测试计划应包含测试范围、核心业务场景、数据集准备、模型评估指标、功能和接口测试、性能稳定性测试、安全合规测试、回归策略、灰度方案、风险点和上线门禁。AI 测试计划还要明确模型版本、Prompt 版本、知识库版本等依赖信息。
18. 如何设计 AI 应用的冒烟测试用例?
面试回答: 冒烟用例要覆盖最核心链路和最高风险场景,比如模型服务可调用、核心问题可回答、知识库可检索、权限可校验、异常有兜底、内容安全生效。用例数量不用多,但必须能快速判断当前版本是否具备继续测试的基本条件。
19. 如何设计 AI 应用的回归测试用例?
面试回答: 我会建立稳定的黄金测试集,覆盖高频问题、边界场景、历史 Bug、重点业务、异常输入和安全风险。每次模型、Prompt、知识库或代码变更后跑回归,对比关键指标和历史版本,重点关注是否出现效果退化、幻觉增加或链路异常。
20. AI 系统版本迭代后如何判断模型效果是否退化?
面试回答: 可以用固定测试集做新旧版本对比,观察准确率、召回率、F1、幻觉率、拒答率、满意度等指标是否下降。同时关注核心业务场景和历史问题是否复现。对大模型还可以做人工评审或模型裁判,结合线上灰度数据判断真实效果。
三、数据质量测试
21. AI 测试为什么要重点关注数据质量?
面试回答: 因为数据质量直接影响模型效果。训练数据脏、标注错、分布偏,会导致模型学到错误规律;测试数据不真实,会导致离线指标虚高。AI 测试必须先保证数据可信,否则模型评估结果也不可信。
22. 训练数据、验证数据、测试数据有什么区别?
面试回答: 训练数据用于模型学习,验证数据用于调参和模型选择,测试数据用于最终评估模型泛化能力。测试数据不能参与训练和调参,否则会造成数据泄露,导致评估结果过于乐观,线上效果可能明显下降。
23. 如何评估数据集是否存在脏数据?
面试回答: 可以从缺失值、重复数据、异常值、格式错误、字段不一致、无效样本、标签错误等方面检查。实际工作中我会结合脚本统计、抽样人工复核和规则校验,重点看脏数据是否影响模型训练或评估结果。
24. 如何测试数据标注质量?
面试回答: 可以抽样复核标注结果,计算标注一致率;对多人标注场景,可以看标注员之间的一致性;对关键类别要重点复查。还可以用规则或模型辅助发现疑似错标样本。标注质量差会直接导致模型学习错误。
25. 如何发现数据集中类别分布不均衡问题?
面试回答: 可以统计每个类别的样本数量和占比,看是否存在长尾类别或某类样本过少。如果类别不均衡,模型可能偏向多数类,导致少数类召回很低。测试时要单独评估各类别指标,而不能只看整体准确率。
26. 如何判断测试集是否覆盖真实业务场景?
面试回答: 我会从线上日志、高频用户行为、核心业务流程、边界异常场景和历史问题中抽取样本,和测试集做覆盖对比。如果测试集只覆盖理想样本,离线指标再好也不代表线上效果好。测试集要尽量贴近真实业务分布。
27. 如何测试数据采集链路的正确性?
面试回答: 主要看采集字段是否完整、埋点是否准确、数据是否丢失、时间戳是否正确、上下游口径是否一致。可以通过源端和目标端数据对账、抽样校验、异常数据监控等方式验证,确保模型使用的数据来源可靠。
28. 如何验证数据清洗规则是否正确?
面试回答: 首先要明确清洗规则,比如去重、过滤、格式转换、脱敏、异常值处理。然后准备正常、边界和异常数据验证清洗前后的结果是否符合预期。还要关注规则是否误删有效数据或保留无效数据。
29. 数据漂移是什么?测试中如何发现?
面试回答: 数据漂移是线上输入数据分布和训练或测试阶段的数据分布发生变化。可以通过监控字段分布、类别占比、Embedding 分布、模型置信度和线上效果指标发现。数据漂移可能导致模型效果下降,需要触发重新评估或模型更新。
30. 如何设计边界数据和异常数据来测试 AI 模型?
面试回答: 可以从输入长度、格式异常、噪声干扰、极端值、低质量图片、错别字、混合语言、空输入和恶意输入等角度设计。目的是验证模型在非理想场景下是否稳定,是否有合理兜底,而不是只在标准样本上表现好。
四、模型质量评估指标
31. 准确率、召回率、精确率分别是什么意思?
面试回答: 准确率是整体预测正确的比例;精确率是模型预测为正的样本里有多少是真的正;召回率是真正为正的样本里有多少被模型找出来。比如风险识别更看召回率,避免漏掉风险;推荐或审核也要结合精确率,避免误报太多。
32. F1-score 适合在什么场景下使用?
面试回答: F1 是精确率和召回率的综合指标,适合类别不均衡或需要同时关注误报和漏报的场景。比如内容审核、风控、缺陷识别,单看准确率容易失真,F1 能更平衡地反映模型效果。
33. AUC 指标主要用于评估什么问题?
面试回答: AUC 常用于二分类模型,衡量模型区分正负样本的能力。它不依赖某个固定阈值,适合评估排序能力或风险评分能力。比如风控模型中,AUC 越高说明模型越能把高风险样本排在前面。
34. 混淆矩阵在 AI 测试中有什么作用?
面试回答: 混淆矩阵可以看到 TP、FP、FN、TN 的分布,帮助分析模型错在哪里。比如漏检多说明召回不足,误判多说明精确率不足。它比单一指标更直观,适合定位具体类别或场景的效果问题。
35. 分类模型和回归模型的评估指标有什么区别?
面试回答: 分类模型评估的是类别预测是否正确,常用准确率、精确率、召回率、F1、AUC;回归模型评估的是数值预测误差,常用 MAE、MSE、RMSE、R²。测试时要根据模型任务类型选择合适指标。
36. 语音识别、OCR、推荐系统分别常用哪些评估指标?
面试回答: 语音识别常看字错率或词错率;OCR 常看字符准确率、字段准确率和版面还原效果;推荐系统常看点击率、转化率、召回率、NDCG、MAP 等。不同 AI 场景必须结合业务指标,不能套用一个统一指标。
37. 如何判断模型是否过拟合?
面试回答: 如果模型在训练集表现很好,但在验证集、测试集或线上表现明显变差,通常说明过拟合。测试时可以对比不同数据集指标,也可以看模型在新场景、边界样本上的泛化能力。过拟合模型记住了训练数据,但泛化差。
38. 如何判断模型是否欠拟合?
面试回答: 如果模型在训练集和测试集表现都不好,说明模型连训练数据规律都没有学好,可能是模型能力不足、特征不够、数据质量差或训练不充分。欠拟合需要从数据、特征、模型结构和训练策略上排查。
39. 模型评估指标很好但线上效果不好,可能是什么原因?
面试回答: 常见原因包括测试集不贴近线上真实分布、数据泄露、线上数据漂移、工程链路问题、业务规则变化、指标选择不合理、用户反馈与离线指标不一致。AI 测试不能只看离线指标,还要结合线上监控和业务指标验证。
40. 如何结合业务指标评估 AI 模型效果?
面试回答: 模型指标要和业务目标关联。比如客服场景看解决率、转人工率、满意度;推荐场景看点击率、转化率;审核场景看漏放率和误杀率。模型指标达标只是基础,最终还要看是否真正提升业务效果。
五、模型效果与鲁棒性测试
41. 什么是 AI 模型鲁棒性测试?
面试回答: 鲁棒性测试是验证模型在噪声、异常、边界和分布变化情况下是否仍能稳定工作。比如输入有错别字、图片模糊、语音有噪声、用户表达不规范时,模型是否还能给出合理结果或兜底。
42. 如何测试 AI 模型对噪声数据的抗干扰能力?
面试回答: 可以在测试样本中加入错别字、同义改写、图片模糊、背景噪声、缺失字段等扰动,然后对比扰动前后的模型输出和指标变化。如果轻微噪声就导致结果大幅波动,说明模型鲁棒性不足。
43. 如何测试 AI 模型在边界场景下的表现?
面试回答: 边界场景包括极长输入、极短输入、空输入、低置信度样本、类别边界样本和极端业务条件。测试重点是看模型是否稳定、是否有合理拒答或兜底,而不是输出错误还表现得很确定。
44. 如何测试 AI 模型对异常输入的处理能力?
面试回答: 可以构造格式错误、非法字符、空值、超长文本、恶意输入和不相关问题,验证系统是否能识别异常、返回友好提示、避免崩溃,并且不输出违规或误导内容。异常输入测试既是质量测试,也是安全测试的一部分。
45. 如何验证 AI 模型输出的一致性?
面试回答: 可以固定模型版本、参数和测试集,对同一批样本多次运行,统计答案一致率、评分波动和关键字段一致性。对于生成式模型,不要求逐字一致,但要求核心事实、结论和业务动作一致。
46. 如何设计模型效果回归测试集?
面试回答: 回归测试集要覆盖核心业务、高频问题、边界场景、历史 Bug、风险场景和典型负样本。它要保持相对稳定,方便新旧版本对比。同时要定期补充线上新问题,避免测试集老化。
47. 如何发现模型在特定人群或场景下效果较差?
面试回答: 可以按地区、设备、年龄段、业务类型、输入长度、类别等维度切分指标,查看是否某些子群体表现明显低于整体。只看整体指标可能掩盖局部问题,所以 AI 测试要做分层分析。
48. 什么是模型偏见?测试中如何识别?
面试回答: 模型偏见是指模型对某些群体、类别或场景产生不公平或不合理的输出。测试中可以构造不同群体或条件相似的样本,比较模型输出是否存在明显差异。内容生成场景还要关注歧视、刻板印象和不公平推荐。
49. AI 模型灰度上线时测试人员应该关注哪些指标?
面试回答: 灰度时要关注模型效果指标、业务指标、接口错误率、响应时间、用户反馈、投诉率、安全拦截率和异常日志。同时要和旧版本或对照组对比,发现效果下降或风险升高时及时回滚。
50. AI 模型上线后如何持续监控质量?
面试回答: 上线后要持续监控数据分布、模型效果、用户反馈、接口性能、异常率、安全风险和业务转化。可以建立线上抽样评审、自动化评测、告警规则和定期回归机制。AI 质量不是上线结束,而是需要持续运营和迭代。

