小牛丨软件测试学习小牛丨软件测试学习
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
  • AI面试题

    • AI测试面试题必刷
    • AI 测试学习路线
    • AI测试基础面试题
    • 大模型测试面试题
    • AI自动化测开面试题
    • AI Agent测试面试题
    • AI性能与稳定性测试面试题
    • AI应用安全测试面试题
⌕
🛒项目实战📦资料包🛠测试神器AIAI路线CV简历测评🧭入行测评🧪测开测评🎯训练营🏆案例❤赞赏我

AI自动化测开面试题

包含 AI 测试平台、评测流水线、自动化评估脚本与工程化实践面试题。

一、AI自动化测试基础

1. AI 自动化测试和传统自动化测试有什么区别?

参考回答: 传统自动化测试更多验证确定性结果,比如接口状态码、字段值、页面元素是否符合预期;AI 自动化测试面对的是非确定性输出,尤其是自然语言答案,不一定能用固定值断言。所以 AI 自动化要结合规则校验、语义相似度、关键点匹配、模型评分和人工复核。

2. AI 应用为什么需要自动化评测?

参考回答: AI 应用迭代频繁,模型、Prompt、知识库和业务代码任何一个变化都可能影响效果。如果每次都靠人工评审,效率低且不稳定。自动化评测可以快速发现效果退化、幻觉增加、安全风险和性能波动,是 AI 应用持续交付的质量门禁。

3. AI 自动化测试适合覆盖哪些场景?

参考回答: 适合覆盖高频业务问题、固定格式输出、RAG 知识库问答、Prompt 回归、接口可用性、性能指标、安全规则、历史 Bug 和核心链路。规则明确、可重复执行、需要频繁回归的场景都适合自动化。

4. 哪些 AI 测试场景不适合完全自动化?

参考回答: 主观性强、专业判断复杂、语气体验细腻、创意类输出和高风险决策类场景不适合完全自动化。比如文章质量、专业咨询、复杂业务建议等,可以自动化初筛,但最终需要人工复核或专家评审。

5. AI 自动化测试框架一般包含哪些模块?

参考回答: 一般包括用例管理、数据集管理、模型或接口调用模块、Prompt 管理、断言评分模块、报告模块、日志模块、失败分析模块和 CI/CD 集成模块。如果是平台化,还要支持多模型对比、版本管理、人工复核和趋势分析。

6. 如何设计 AI 应用自动化回归测试流程?

参考回答: 我会先维护黄金测试集,然后在模型、Prompt、知识库或代码变更后自动触发评测。执行后生成指标报告,对比历史版本,如果准确率下降、幻觉率升高、安全失败或性能超阈值,就阻断发布并输出失败样本。

7. AI 自动化评测中如何处理输出不确定性?

参考回答: 可以固定模型参数降低随机性,同时不要用完全相等断言,而是用关键点、格式、规则、语义相似度和多次采样通过率。对于重要场景,可以加人工复核或 LLM-as-a-Judge 评分,但评分规则要稳定。

8. AI 自动化测试如何定义断言?

参考回答: 断言要按场景设计。结构化输出可以断言 JSON 字段和格式;知识库问答可以断言引用和关键事实;安全场景可以断言是否拒答;开放问答可以断言关键点覆盖、语义相似度和违规内容。核心是把业务预期转成可执行规则。

9. 如何设计 AI 测试用例数据结构?

参考回答: 用例数据通常包含用例 ID、场景分类、输入问题、上下文、期望关键点、标准答案、评估规则、风险等级、标签、模型版本和是否需要人工复核。结构化后方便批量执行、统计分析和问题归因。

10. AI 自动化测试结果如何进行可视化展示?

参考回答: 可以展示整体通过率、各分类通过率、指标趋势、失败原因分布、模型版本对比、典型失败样本、响应时间和安全拦截情况。可视化的重点不是好看,而是让产品、算法、研发能快速定位问题。

二、评测脚本与断言设计

11. 如何用 Python 编写大模型接口自动化测试脚本?

参考回答: 一般用 Python requests 调用模型接口,读取 Excel、YAML 或 JSON 测试集,循环发送请求,保存输入、输出、耗时和评分结果。然后根据规则或评分模型计算通过率,最后生成 HTML 或 Allure 报告,并把失败样本单独输出。

12. AI 接口自动化测试需要校验哪些字段?

参考回答: 除了状态码,还要校验响应结构、错误码、请求 ID、模型版本、答案内容、引用来源、耗时、Token 消耗、结束原因和安全标识。对流式接口还要校验分片返回、结束标记和中途异常处理。

13. 大模型输出为自然语言时如何设计断言?

参考回答: 可以从关键词命中、关键事实覆盖、语义相似度、格式规则、长度范围、敏感内容、引用依据等方面断言。自然语言不适合逐字比较,要关注是否满足业务意图和关键约束。

14. 如何实现关键词匹配类断言?

参考回答: 在用例中配置必须包含和不能包含的关键词,脚本检查输出是否命中。适合格式、术语、关键步骤比较明确的场景。但关键词断言容易误判,所以最好和语义评估或人工抽检结合。

15. 如何实现语义相似度断言?

参考回答: 可以用 Embedding 模型把标准答案和实际答案向量化,计算余弦相似度,超过阈值则认为语义接近。适合表达不同但语义一致的场景。不过阈值要通过样本调优,不能盲目设置。

16. 如何实现规则引擎式自动评分?

参考回答: 可以把评分维度拆成多个规则,比如格式 20 分、关键点 40 分、引用 20 分、安全 20 分。每条规则自动执行并汇总总分。规则引擎的优点是可解释性强,失败后容易定位哪一项不达标。

17. 如何调用另一个模型作为裁判进行自动评测?

参考回答: 可以把问题、标准答案、模型输出和评分标准一起传给裁判模型,让它按维度打分并说明原因。这个方法适合开放式问答评估,但要控制裁判 Prompt、模型版本和评分标准,避免评分不稳定。

18. LLM-as-a-Judge 有哪些优缺点?

参考回答: 优点是能评估语义、逻辑和主观质量,适合开放式答案;缺点是裁判模型也可能不稳定、有偏见或误判,成本也更高。所以它适合作为辅助评测,不建议完全替代人工和规则断言。

19. 如何降低自动评分结果的不稳定性?

参考回答: 可以固定裁判模型版本和参数,明确评分 Rubric,使用结构化输出,多次评分取平均或投票,对关键样本人工校准。还要定期抽检自动评分和人工评分的一致性。

20. 如何对 AI 自动化测试失败用例进行归因?

参考回答: 失败后要看是输入数据问题、Prompt 问题、模型能力问题、知识库召回问题、接口异常还是评分规则误判。最好记录完整请求、响应、召回片段、模型版本、Prompt 版本和评分明细,方便定位。

三、测试平台建设

21. AI 测试平台一般需要哪些核心功能?

参考回答: 核心功能包括用例管理、数据集管理、模型接入、批量评测、评分规则、人工复核、报告展示、历史对比、版本管理、失败样本分析和权限管理。如果要工程化,还要接入 CI/CD 和线上监控。

22. 如何设计 AI 评测平台的用例管理模块?

参考回答: 用例要支持分类、标签、风险等级、输入、期望关键点、评分规则和维护人。还要支持批量导入导出、版本变更记录和历史执行结果关联,方便长期维护测试资产。

23. 如何设计 AI 评测平台的数据集管理模块?

参考回答: 数据集要支持按业务场景、模型版本、用途和风险等级管理。需要记录数据来源、更新时间、标注人、审核状态和是否可用于回归。高质量数据集是 AI 自动化评测的核心资产。

24. 如何设计模型版本管理和评测记录关联?

参考回答: 每次评测必须记录模型名称、版本、参数、Prompt 版本、知识库版本和代码版本。这样当指标变化时,才能追溯到底是哪一部分变更导致的效果波动。

25. 如何设计 Prompt 版本管理功能?

参考回答: Prompt 要像代码一样管理版本,记录变更内容、适用场景、发布状态和关联评测结果。每次修改 Prompt 后都要自动触发回归,避免局部优化引发其他场景退化。

26. AI 测试平台如何支持批量评测?

参考回答: 平台需要支持选择数据集、模型、Prompt 和评分规则后批量执行,并支持并发控制、失败重试、任务队列和结果落库。大批量评测要考虑接口限流、成本和执行时间。

27. AI 测试平台如何支持人工复核?

参考回答: 对自动评分低分、争议样本和高风险样本进入人工复核队列。人工可以修改评分、填写原因、标记问题类型,并把复核结果沉淀为后续优化和自动化评分校准的数据。

28. 如何设计 AI 测试平台的评测报告?

参考回答: 报告要包含总体得分、通过率、各分类指标、失败原因、典型案例、新旧版本对比、趋势图和上线建议。好的报告要能直接回答“能不能上线、风险在哪里、谁来修”。

29. 如何在测试平台中展示模型效果趋势?

参考回答: 可以按时间和版本展示准确率、召回率、幻觉率、安全通过率、响应时间等趋势。趋势图能帮助发现模型退化、Prompt 优化效果和知识库更新后的影响。

30. AI 测试平台如何支持多模型对比评测?

参考回答: 同一数据集同时调用多个模型,使用统一评分规则,对比效果、成本、耗时和稳定性。多模型评测适合模型选型、版本升级和供应商对比,但要保证输入和评估标准一致。

四、评测流水线与CI/CD

31. 如何把 AI 自动化评测接入 Jenkins?

参考回答: 可以把评测脚本做成命令行任务,Jenkins 拉取代码和测试集后执行,生成报告并归档。根据通过率、关键指标和安全结果设置质量门禁,不达标则构建失败并通知相关人员。

32. 模型发布流水线中应该在哪些阶段加入测试?

参考回答: 在模型训练后做离线评估,在服务部署后做接口和性能测试,在 Prompt 或知识库变更后做回归测试,在灰度前做安全和核心链路测试,灰度后做线上指标监控。不同阶段关注点不同。

33. Prompt 变更后如何触发自动化回归?

参考回答: Prompt 存入版本库后,一旦有合并或发布动作,就触发对应场景的黄金测试集评测。评测结果和旧版本对比,如果核心指标下降或高风险用例失败,就阻断发布。

34. 知识库更新后如何触发 RAG 自动化评测?

参考回答: 知识库更新完成切片和向量化后,自动执行检索评测和端到端问答评测。重点验证新内容可召回、旧内容是否失效、引用是否正确、无答案场景是否仍然拒答。

35. 如何设计 AI 应用上线前的质量门禁?

参考回答: 可以设置功能冒烟必须通过、核心场景通过率达到阈值、幻觉率低于阈值、安全用例零高危失败、性能满足 SLA、历史 Bug 不复现。门禁必须量化,否则很难客观判断能否上线。

36. 自动化评测结果不达标时流水线如何处理?

参考回答: 流水线应自动失败,生成失败报告,通知产品、算法或研发,并附带失败样本、日志和评分原因。高风险问题必须修复后复测,低风险问题可以评估是否带风险上线。

37. 如何实现定时评测和趋势对比?

参考回答: 可以通过 Jenkins 定时任务或平台调度,每天或每周固定跑测试集,保存每次结果。趋势对比可以发现模型服务漂移、知识库变化、接口性能下降等非代码变更引起的问题。

38. 如何将 AI 评测结果自动推送到企业微信或飞书?

参考回答: 评测结束后通过 Webhook 推送摘要,包括通过率、失败数、关键指标、报告链接和高风险问题。推送内容要简洁,让相关人能快速判断是否需要处理。

39. 如何保存每次评测的请求、响应和评分结果?

参考回答: 需要把请求参数、模型版本、Prompt、知识库版本、响应内容、耗时、评分明细和失败原因落库。这样可以做历史追溯、问题复现、趋势分析和模型版本对比。

40. AI 自动化评测如何支持灰度发布?

参考回答: 灰度时可以对新旧版本同时采样评测,对比核心指标和用户反馈。自动化系统要支持按流量、用户群或场景维度统计,发现指标异常时及时告警或回滚。

五、工程化与质量保障

41. AI 自动化测开需要掌握哪些技术栈?

参考回答: 常用技术包括 Python、requests、pytest、SQL、Linux、Jenkins、Docker、日志分析、数据处理、接口自动化、性能测试,以及大模型 API、Embedding、向量库和基础前后端平台能力。核心是能把评测流程工程化。

42. 如何设计 AI 测试数据的版本管理方案?

参考回答: 测试数据要按版本保存,记录来源、更新时间、标注状态和适用场景。每次评测必须关联数据集版本,避免因为测试集变化导致指标不可对比。重要回归集要稳定维护。

43. 如何保证测试集不被模型训练污染?

参考回答: 测试集要和训练集隔离,权限上限制使用范围,并记录数据流转。对于评估集和线上真实问题,要避免直接进入训练数据。否则模型可能记住答案,导致评估指标虚高。

44. 如何设计 AI 自动化测试的日志体系?

参考回答: 日志要记录请求 ID、输入、输出、模型版本、Prompt、知识库召回、耗时、评分结果和异常信息。日志既用于问题定位,也用于后续分析模型退化、失败原因和线上质量。

45. AI 自动化测试中如何做异常重试?

参考回答: 对网络超时、限流、服务暂时不可用可以做有限重试;但对模型回答错误不能简单重试掩盖问题。重试策略要区分系统异常和质量失败,并在报告中标记重试次数。

46. 如何处理大批量评测时的并发和限流?

参考回答: 可以使用任务队列、并发池、限速器和失败重试机制,按模型服务能力控制 QPS。还要记录成本和 Token 消耗,避免评测任务影响线上服务或导致费用失控。

47. 如何降低 AI 自动化评测成本?

参考回答: 可以分层评测,先跑小规模冒烟集,再跑完整回归集;对低风险变更只跑相关场景;缓存重复请求结果;选择合适模型做裁判;定期清理低价值用例。成本控制不能牺牲核心质量门禁。

48. 如何设计 AI 测试平台权限体系?

参考回答: 不同角色权限不同,比如测试可管理用例,产品可查看报告,算法可查看失败样本,管理员可配置模型和发布门禁。涉及用户数据和敏感知识库时,还要做数据脱敏和访问审计。

49. AI 自动化测试如何支持线上监控数据回流?

参考回答: 可以把线上失败问题、用户差评、转人工问题、低置信度问题定期回流到测试集,经过清洗和标注后加入回归。这样测试集能持续贴近真实业务,而不是停留在上线前样本。

50. 如何从 0 到 1 搭建 AI 自动化评测体系?

参考回答: 我会先确定核心业务场景和质量指标,再建设黄金测试集;然后开发自动调用和评分脚本,生成报告;接着接入 CI/CD 做质量门禁;最后平台化管理用例、数据集、版本、人工复核和趋势分析。先小闭环跑通,再逐步扩展。

相关推荐

下一步可以看这些

面试通关软件测试面试通关系列精华文章

把面试题、项目、简历和训练营串成一套求职准备路径。

入行路线零基础入行软件测试专题路径

从测评、学习路线、项目、简历到面试,按顺序入行。

进阶路线初中级测试进阶高级专题路径

接口自动化、性能测试、CI/CD、复杂业务质量保障进阶路线。

AI 方向AI 测试学习路线专题页

大模型评测、RAG 测试、Agent 测试和 AI 自动化路线。

求职结果Offer 案例 / 学员案例展示

看看真实学员 Offer 案例,判断目标和学习投入是否匹配。

资料 / 交流群添加小牛微信

备注:资料、简历、AI 或找工作,领取对应资料或进交流群。

添加小牛微信
Prev
大模型测试面试题
Next
AI Agent测试面试题