1. AI 测试工程师要掌握什么

AI 测试不是简单地会用 ChatGPT，也不是只会调用大模型接口。AI 测试工程师要关注的是 AI 应用在真实业务中的质量：回答是否正确、是否稳定、是否安全、是否符合业务预期、是否能处理边界问题、是否存在幻觉、是否会泄露敏感信息、是否能被自动化评测持续监控。传统测试更多关注确定性输入输出，而 AI 测试要面对非确定性、开放式输出和概率性质量问题。

随着大模型、RAG、Agent、智能客服、智能问答、代码助手、AI 搜索等应用越来越多，测试工程师需要从“功能测试”升级到“模型能力评测 + AI 应用测试 + 自动化评测 + 风险测试”的综合能力。

一、AI 测试到底测什么

AI 测试关注的不只是接口是否返回 200，而是模型输出是否满足业务目标。

常见测试对象包括：

大模型对话能力；
Prompt 效果；
RAG 知识库问答；
Agent 工具调用流程；
AI 搜索；
智能客服；
文档总结；
代码生成；
文生图或多模态应用；
AI 自动化评测平台。

不同对象测试重点不同，但核心都是评估 AI 输出质量和风险。

二、AI 测试和传统测试有什么区别

传统功能测试通常有明确预期结果，例如输入账号密码，预期登录成功。

AI 测试的输出可能有多种正确表达，比如用户问“怎么重置密码”，模型可以用不同语言组织答案，只要内容准确、步骤完整、没有误导，就可以算通过。

主要区别：

输出不完全确定；
断言更复杂；
需要评估语义质量；
需要关注幻觉；
需要安全和合规测试；
需要构建评测集；
需要人工评估和自动评估结合。

三、大模型基础能力

AI 测试工程师需要理解基本概念：

Prompt；
Token；
Temperature；
Top-p；
上下文窗口；
系统提示词；
函数调用；
Embedding；
向量检索；
RAG；
Agent；
幻觉；
安全对齐。

不一定要训练模型，但要懂这些概念对测试结果的影响。

四、Prompt 测试能力

Prompt 是 AI 应用的重要输入。Prompt 测试要关注：

指令是否清晰；
输出格式是否稳定；
角色设定是否生效；
边界问题是否处理；
是否容易被越狱；
是否能拒答敏感问题；
多轮对话上下文是否一致。

Prompt 改动可能导致输出风格、准确性和安全性变化，所以要回归测试。

五、RAG 测试能力

RAG 是知识库问答常见架构。

测试重点包括：

文档解析是否正确；
分块是否合理；
向量检索是否召回相关内容；
答案是否基于知识库；
引用是否准确；
不知道时是否拒答；
知识更新后是否生效；
权限隔离是否正确。

RAG 测试要同时看召回质量和生成质量。

六、Agent 测试能力

Agent 不只是回答问题，还会规划步骤、调用工具、执行任务。

测试重点：

任务分解是否合理；
工具选择是否正确；
工具参数是否正确；
调用失败是否重试；
是否越权调用工具；
是否产生不可控操作；
多步流程是否可追踪；
最终结果是否符合预期。

Agent 测试更像流程测试、安全测试和异常测试的结合。

七、自动化评测能力

AI 应用不能只靠人工体验。

自动化评测包括：

构建评测集；
批量请求模型；
保存输入输出；
使用规则评分；
使用模型评分；
人工抽检；
对比不同 Prompt 或模型版本；
生成评测报告。

自动化评测的目标是持续发现模型质量变化。

八、安全和合规意识

AI 测试必须关注风险：

Prompt 注入；
越狱；
敏感信息泄露；
有害内容；
隐私数据；
权限绕过；
数据越权；
版权风险；
不当建议；
工具滥用。

AI 应用上线前，安全测试非常重要。

九、测试数据和评测集能力

AI 测试需要构建评测集。

评测集可以包含：

正常业务问题；
边界问题；
模糊问题；
恶意问题；
多轮对话；
长文本；
权限场景；
未知问题；
高风险问题；
真实用户问题。

评测集质量决定评测结果价值。

十、面试回答模板

如果面试官问“AI 测试工程师要掌握什么”，可以这样回答：

AI 测试工程师除了传统测试能力，还要掌握大模型基础、Prompt 测试、RAG 测试、Agent 测试、自动化评测和安全风险测试。AI 应用的输出不是固定答案，所以测试时不能只看接口是否成功，而要评估回答准确性、完整性、稳定性、引用依据、是否幻觉、是否符合业务规则以及是否存在安全风险。比如测试智能客服，我会构建包含正常问题、边界问题、未知问题、恶意问题和多轮问题的评测集，批量评测模型输出，结合规则评分、模型评分和人工抽检，判断回答质量是否达标。

学习 Prompt 基础；
理解 Token 和上下文；
设计 20 条 AI 问答测试用例；
测试一次智能客服；
设计 RAG 评测集；
测试知识库召回；
测试模型幻觉；
测试 Prompt 注入；
批量调用模型接口；
输出 AI 评测报告。

AI 测试不是替代传统测试，而是在传统测试基础上增加模型质量评估、知识库评估、流程评估和安全风险评估。

配套刷题：

AI测试基础面试题

1. AI 测试工程师要掌握什么

一、AI 测试到底测什么

二、AI 测试和传统测试有什么区别

三、大模型基础能力

四、Prompt 测试能力

五、RAG 测试能力

六、Agent 测试能力

七、自动化评测能力

八、安全和合规意识

九、测试数据和评测集能力

十、面试回答模板

十一、常见追问

追问：AI 测试和接口测试有什么关系？

追问：不会训练模型能做 AI 测试吗？

追问：AI 输出不固定怎么断言？

十二、练习清单

下一步可以看这些