1. AI 测试工程师要掌握什么
AI 测试不是简单地会用 ChatGPT,也不是只会调用大模型接口。AI 测试工程师要关注的是 AI 应用在真实业务中的质量:回答是否正确、是否稳定、是否安全、是否符合业务预期、是否能处理边界问题、是否存在幻觉、是否会泄露敏感信息、是否能被自动化评测持续监控。传统测试更多关注确定性输入输出,而 AI 测试要面对非确定性、开放式输出和概率性质量问题。
随着大模型、RAG、Agent、智能客服、智能问答、代码助手、AI 搜索等应用越来越多,测试工程师需要从“功能测试”升级到“模型能力评测 + AI 应用测试 + 自动化评测 + 风险测试”的综合能力。
一、AI 测试到底测什么
AI 测试关注的不只是接口是否返回 200,而是模型输出是否满足业务目标。
常见测试对象包括:
- 大模型对话能力;
- Prompt 效果;
- RAG 知识库问答;
- Agent 工具调用流程;
- AI 搜索;
- 智能客服;
- 文档总结;
- 代码生成;
- 文生图或多模态应用;
- AI 自动化评测平台。
不同对象测试重点不同,但核心都是评估 AI 输出质量和风险。
二、AI 测试和传统测试有什么区别
传统功能测试通常有明确预期结果,例如输入账号密码,预期登录成功。
AI 测试的输出可能有多种正确表达,比如用户问“怎么重置密码”,模型可以用不同语言组织答案,只要内容准确、步骤完整、没有误导,就可以算通过。
主要区别:
- 输出不完全确定;
- 断言更复杂;
- 需要评估语义质量;
- 需要关注幻觉;
- 需要安全和合规测试;
- 需要构建评测集;
- 需要人工评估和自动评估结合。
三、大模型基础能力
AI 测试工程师需要理解基本概念:
- Prompt;
- Token;
- Temperature;
- Top-p;
- 上下文窗口;
- 系统提示词;
- 函数调用;
- Embedding;
- 向量检索;
- RAG;
- Agent;
- 幻觉;
- 安全对齐。
不一定要训练模型,但要懂这些概念对测试结果的影响。
四、Prompt 测试能力
Prompt 是 AI 应用的重要输入。Prompt 测试要关注:
- 指令是否清晰;
- 输出格式是否稳定;
- 角色设定是否生效;
- 边界问题是否处理;
- 是否容易被越狱;
- 是否能拒答敏感问题;
- 多轮对话上下文是否一致。
Prompt 改动可能导致输出风格、准确性和安全性变化,所以要回归测试。
五、RAG 测试能力
RAG 是知识库问答常见架构。
测试重点包括:
- 文档解析是否正确;
- 分块是否合理;
- 向量检索是否召回相关内容;
- 答案是否基于知识库;
- 引用是否准确;
- 不知道时是否拒答;
- 知识更新后是否生效;
- 权限隔离是否正确。
RAG 测试要同时看召回质量和生成质量。
六、Agent 测试能力
Agent 不只是回答问题,还会规划步骤、调用工具、执行任务。
测试重点:
- 任务分解是否合理;
- 工具选择是否正确;
- 工具参数是否正确;
- 调用失败是否重试;
- 是否越权调用工具;
- 是否产生不可控操作;
- 多步流程是否可追踪;
- 最终结果是否符合预期。
Agent 测试更像流程测试、安全测试和异常测试的结合。
七、自动化评测能力
AI 应用不能只靠人工体验。
自动化评测包括:
- 构建评测集;
- 批量请求模型;
- 保存输入输出;
- 使用规则评分;
- 使用模型评分;
- 人工抽检;
- 对比不同 Prompt 或模型版本;
- 生成评测报告。
自动化评测的目标是持续发现模型质量变化。
八、安全和合规意识
AI 测试必须关注风险:
- Prompt 注入;
- 越狱;
- 敏感信息泄露;
- 有害内容;
- 隐私数据;
- 权限绕过;
- 数据越权;
- 版权风险;
- 不当建议;
- 工具滥用。
AI 应用上线前,安全测试非常重要。
九、测试数据和评测集能力
AI 测试需要构建评测集。
评测集可以包含:
- 正常业务问题;
- 边界问题;
- 模糊问题;
- 恶意问题;
- 多轮对话;
- 长文本;
- 权限场景;
- 未知问题;
- 高风险问题;
- 真实用户问题。
评测集质量决定评测结果价值。
十、面试回答模板
如果面试官问“AI 测试工程师要掌握什么”,可以这样回答:
AI 测试工程师除了传统测试能力,还要掌握大模型基础、Prompt 测试、RAG 测试、Agent 测试、自动化评测和安全风险测试。AI 应用的输出不是固定答案,所以测试时不能只看接口是否成功,而要评估回答准确性、完整性、稳定性、引用依据、是否幻觉、是否符合业务规则以及是否存在安全风险。比如测试智能客服,我会构建包含正常问题、边界问题、未知问题、恶意问题和多轮问题的评测集,批量评测模型输出,结合规则评分、模型评分和人工抽检,判断回答质量是否达标。
十一、常见追问
追问:AI 测试和接口测试有什么关系?
AI 应用仍然有接口层测试,但接口成功不代表答案质量好。AI 测试要在接口基础上增加语义质量、稳定性和安全评测。
追问:不会训练模型能做 AI 测试吗?
可以。AI 测试更多关注应用质量、评测集、Prompt、RAG、Agent 流程和风险,不一定要训练模型。
追问:AI 输出不固定怎么断言?
可以结合规则断言、关键词、引用校验、语义相似度、模型评审和人工抽检。
十二、练习清单
- 学习 Prompt 基础;
- 理解 Token 和上下文;
- 设计 20 条 AI 问答测试用例;
- 测试一次智能客服;
- 设计 RAG 评测集;
- 测试知识库召回;
- 测试模型幻觉;
- 测试 Prompt 注入;
- 批量调用模型接口;
- 输出 AI 评测报告。
AI 测试不是替代传统测试,而是在传统测试基础上增加模型质量评估、知识库评估、流程评估和安全风险评估。
配套刷题:

