3. Prompt 测试怎么设计
Prompt 是 AI 应用质量的关键输入。很多 AI 应用看起来是模型能力问题,实际是 Prompt 设计不清晰、约束不完整、格式要求不稳定或安全边界不足导致的。Prompt 测试就是验证提示词在不同用户输入、不同场景、不同边界和攻击下是否能稳定引导模型输出符合业务预期的结果。
面试中问 Prompt 测试,不要只说“多问几个问题看回答好不好”。要能讲出测试维度:指令遵循、角色一致性、格式稳定性、边界处理、多轮上下文、安全拒答、鲁棒性和回归评测。
一、Prompt 测试目标
Prompt 测试要验证:
- 模型是否理解任务;
- 输出是否符合业务要求;
- 输出格式是否稳定;
- 角色设定是否有效;
- 是否能处理异常输入;
- 是否拒绝越权或违规请求;
- 多轮对话是否保持上下文;
- Prompt 修改后是否引入回归。
Prompt 是可测试、可版本管理、可回归的资产。
二、指令遵循测试
验证模型是否按 Prompt 指令执行。
例如 Prompt 要求:
请用三点以内回答,不要超过 100 字。
测试时要看输出是否真的不超过 100 字,是否超过三点。
常见检查:
- 是否回答指定问题;
- 是否遵守长度;
- 是否遵守语气;
- 是否按步骤回答;
- 是否避免不允许内容。
三、格式稳定性测试
很多 AI 应用要求模型输出 JSON、表格或固定字段。
测试重点:
- JSON 是否可解析;
- 字段是否完整;
- 字段类型是否正确;
- 是否包含多余文本;
- 多次运行格式是否稳定。
例如要求输出:
{"intent":"refund","confidence":0.92}
测试要校验是否能被程序解析。
四、角色和风格测试
Prompt 经常定义角色:客服、面试官、医生助手、法律助手、代码助手。
测试要看:
- 是否保持角色;
- 语气是否符合产品定位;
- 是否越权给建议;
- 是否使用禁止表达;
- 是否符合行业规范。
例如医疗 AI 不能直接给确诊结论,要建议用户咨询医生。
五、边界输入测试
边界输入包括:
- 空输入;
- 超长输入;
- 拼写错误;
- 模糊问题;
- 多意图问题;
- 无关问题;
- 情绪化问题;
- 语言混杂;
- 特殊符号;
- 低质量输入。
Prompt 要能引导模型澄清、拒答或给出合理回复。
六、多轮对话测试
多轮对话要关注上下文一致性。
测试点:
- 是否记住前文关键信息;
- 是否正确引用用户上轮意图;
- 是否避免上下文污染;
- 用户修改条件后是否更新答案;
- 长对话后是否遗忘;
- 是否把一个用户信息泄露给另一个用户。
七、安全对抗测试
Prompt 容易受到攻击。
常见攻击:
- Prompt 注入;
- 越狱指令;
- 忽略系统提示;
- 诱导泄露系统 Prompt;
- 诱导输出敏感信息;
- 角色扮演绕过限制;
- 编码或翻译绕过。
测试时要验证模型是否能坚持安全边界。
八、回归测试
Prompt 一改,效果可能整体变化。
所以需要:
- 维护 Prompt 版本;
- 固定评测集;
- 对比修改前后结果;
- 关注提升和退化;
- 记录失败样本;
- 建立上线门禁。
Prompt 测试要工程化,而不是临时体验。
九、自动化怎么做
可以构建 Prompt 评测脚本:
- 读取评测集;
- 调用模型接口;
- 保存输入输出;
- 校验格式;
- 用规则或模型评分;
- 生成对比报告。
格式类问题适合规则自动断言,语义类问题适合模型评分和人工抽检。
十、面试回答模板
如果面试官问“Prompt 测试怎么设计”,可以这样回答:
Prompt 测试我会从指令遵循、格式稳定性、角色一致性、边界输入、多轮上下文和安全对抗几个维度设计。比如智能客服 Prompt,我会测试正常问题是否准确回答,输出是否符合指定格式,遇到未知问题是否澄清或拒答,多轮对话中是否保持上下文,遇到 Prompt 注入或越狱请求是否坚持安全边界。Prompt 修改后,我会用固定评测集做回归,对比准确率、格式错误率、拒答率和幻觉样本,避免改一个场景影响其他场景。
十一、常见追问
追问:Prompt 输出不稳定怎么办?
降低 temperature、增强格式约束、增加示例、使用结构化输出校验,并建立评测集回归。
追问:怎么测试 Prompt 注入?
构造忽略系统指令、泄露系统提示、角色扮演绕过、编码绕过等攻击样本,验证模型是否拒绝。
追问:Prompt 版本怎么管理?
像代码一样管理版本,记录变更原因、评测结果和上线时间。
十二、练习清单
- 写客服 Prompt;
- 设计正常问题;
- 设计边界问题;
- 测试 JSON 输出;
- 测试多轮对话;
- 测试未知问题;
- 测试 Prompt 注入;
- 建立评测集;
- 对比 Prompt 版本;
- 输出 Prompt 测试报告。
Prompt 测试的核心是稳定引导模型在各种输入下输出可控结果。越是业务核心 Prompt,越需要系统化回归。
配套刷题:

