小牛丨软件测试学习小牛丨软件测试学习
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
  • AI 测试精华文章

    • AI 测试精华文章
    • 1. AI 测试工程师要掌握什么
    • 2. 大模型评测怎么做
    • 3. Prompt 测试怎么设计
    • 4. RAG 测试重点测什么
    • 5. 知识库召回和答案质量怎么评估
    • 6. Agent 测试应该关注哪些风险
    • 7. AI 自动化评测怎么落地
    • 8. 大模型幻觉问题怎么测试
    • 9. AI 应用安全测试怎么入门
    • 10. AI 测试项目怎么写进简历
⌕
🛒项目实战📦资料包🛠测试神器AIAI路线CV简历测评🧭入行测评🧪测开测评🎯训练营🏆案例❤赞赏我

1. AI 测试工程师要掌握什么

AI 测试不是简单地会用 ChatGPT,也不是只会调用大模型接口。AI 测试工程师要关注的是 AI 应用在真实业务中的质量:回答是否正确、是否稳定、是否安全、是否符合业务预期、是否能处理边界问题、是否存在幻觉、是否会泄露敏感信息、是否能被自动化评测持续监控。传统测试更多关注确定性输入输出,而 AI 测试要面对非确定性、开放式输出和概率性质量问题。

随着大模型、RAG、Agent、智能客服、智能问答、代码助手、AI 搜索等应用越来越多,测试工程师需要从“功能测试”升级到“模型能力评测 + AI 应用测试 + 自动化评测 + 风险测试”的综合能力。

一、AI 测试到底测什么

AI 测试关注的不只是接口是否返回 200,而是模型输出是否满足业务目标。

常见测试对象包括:

  • 大模型对话能力;
  • Prompt 效果;
  • RAG 知识库问答;
  • Agent 工具调用流程;
  • AI 搜索;
  • 智能客服;
  • 文档总结;
  • 代码生成;
  • 文生图或多模态应用;
  • AI 自动化评测平台。

不同对象测试重点不同,但核心都是评估 AI 输出质量和风险。

二、AI 测试和传统测试有什么区别

传统功能测试通常有明确预期结果,例如输入账号密码,预期登录成功。

AI 测试的输出可能有多种正确表达,比如用户问“怎么重置密码”,模型可以用不同语言组织答案,只要内容准确、步骤完整、没有误导,就可以算通过。

主要区别:

  • 输出不完全确定;
  • 断言更复杂;
  • 需要评估语义质量;
  • 需要关注幻觉;
  • 需要安全和合规测试;
  • 需要构建评测集;
  • 需要人工评估和自动评估结合。

三、大模型基础能力

AI 测试工程师需要理解基本概念:

  • Prompt;
  • Token;
  • Temperature;
  • Top-p;
  • 上下文窗口;
  • 系统提示词;
  • 函数调用;
  • Embedding;
  • 向量检索;
  • RAG;
  • Agent;
  • 幻觉;
  • 安全对齐。

不一定要训练模型,但要懂这些概念对测试结果的影响。

四、Prompt 测试能力

Prompt 是 AI 应用的重要输入。Prompt 测试要关注:

  • 指令是否清晰;
  • 输出格式是否稳定;
  • 角色设定是否生效;
  • 边界问题是否处理;
  • 是否容易被越狱;
  • 是否能拒答敏感问题;
  • 多轮对话上下文是否一致。

Prompt 改动可能导致输出风格、准确性和安全性变化,所以要回归测试。

五、RAG 测试能力

RAG 是知识库问答常见架构。

测试重点包括:

  • 文档解析是否正确;
  • 分块是否合理;
  • 向量检索是否召回相关内容;
  • 答案是否基于知识库;
  • 引用是否准确;
  • 不知道时是否拒答;
  • 知识更新后是否生效;
  • 权限隔离是否正确。

RAG 测试要同时看召回质量和生成质量。

六、Agent 测试能力

Agent 不只是回答问题,还会规划步骤、调用工具、执行任务。

测试重点:

  • 任务分解是否合理;
  • 工具选择是否正确;
  • 工具参数是否正确;
  • 调用失败是否重试;
  • 是否越权调用工具;
  • 是否产生不可控操作;
  • 多步流程是否可追踪;
  • 最终结果是否符合预期。

Agent 测试更像流程测试、安全测试和异常测试的结合。

七、自动化评测能力

AI 应用不能只靠人工体验。

自动化评测包括:

  • 构建评测集;
  • 批量请求模型;
  • 保存输入输出;
  • 使用规则评分;
  • 使用模型评分;
  • 人工抽检;
  • 对比不同 Prompt 或模型版本;
  • 生成评测报告。

自动化评测的目标是持续发现模型质量变化。

八、安全和合规意识

AI 测试必须关注风险:

  • Prompt 注入;
  • 越狱;
  • 敏感信息泄露;
  • 有害内容;
  • 隐私数据;
  • 权限绕过;
  • 数据越权;
  • 版权风险;
  • 不当建议;
  • 工具滥用。

AI 应用上线前,安全测试非常重要。

九、测试数据和评测集能力

AI 测试需要构建评测集。

评测集可以包含:

  • 正常业务问题;
  • 边界问题;
  • 模糊问题;
  • 恶意问题;
  • 多轮对话;
  • 长文本;
  • 权限场景;
  • 未知问题;
  • 高风险问题;
  • 真实用户问题。

评测集质量决定评测结果价值。

十、面试回答模板

如果面试官问“AI 测试工程师要掌握什么”,可以这样回答:

AI 测试工程师除了传统测试能力,还要掌握大模型基础、Prompt 测试、RAG 测试、Agent 测试、自动化评测和安全风险测试。AI 应用的输出不是固定答案,所以测试时不能只看接口是否成功,而要评估回答准确性、完整性、稳定性、引用依据、是否幻觉、是否符合业务规则以及是否存在安全风险。比如测试智能客服,我会构建包含正常问题、边界问题、未知问题、恶意问题和多轮问题的评测集,批量评测模型输出,结合规则评分、模型评分和人工抽检,判断回答质量是否达标。

十一、常见追问

追问:AI 测试和接口测试有什么关系?

AI 应用仍然有接口层测试,但接口成功不代表答案质量好。AI 测试要在接口基础上增加语义质量、稳定性和安全评测。

追问:不会训练模型能做 AI 测试吗?

可以。AI 测试更多关注应用质量、评测集、Prompt、RAG、Agent 流程和风险,不一定要训练模型。

追问:AI 输出不固定怎么断言?

可以结合规则断言、关键词、引用校验、语义相似度、模型评审和人工抽检。

十二、练习清单

  1. 学习 Prompt 基础;
  2. 理解 Token 和上下文;
  3. 设计 20 条 AI 问答测试用例;
  4. 测试一次智能客服;
  5. 设计 RAG 评测集;
  6. 测试知识库召回;
  7. 测试模型幻觉;
  8. 测试 Prompt 注入;
  9. 批量调用模型接口;
  10. 输出 AI 评测报告。

AI 测试不是替代传统测试,而是在传统测试基础上增加模型质量评估、知识库评估、流程评估和安全风险评估。

配套刷题:

  • AI测试基础面试题
相关推荐

下一步可以看这些

面试通关软件测试面试通关系列精华文章

把面试题、项目、简历和训练营串成一套求职准备路径。

入行路线零基础入行软件测试专题路径

从测评、学习路线、项目、简历到面试,按顺序入行。

进阶路线初中级测试进阶高级专题路径

接口自动化、性能测试、CI/CD、复杂业务质量保障进阶路线。

AI 方向AI 测试学习路线专题页

大模型评测、RAG 测试、Agent 测试和 AI 自动化路线。

求职结果Offer 案例 / 学员案例展示

看看真实学员 Offer 案例,判断目标和学习投入是否匹配。

资料 / 交流群添加小牛微信

备注:资料、简历、AI 或找工作,领取对应资料或进交流群。

添加小牛微信
Prev
AI 测试精华文章
Next
2. 大模型评测怎么做