3. Prompt 测试怎么设计

Prompt 是 AI 应用质量的关键输入。很多 AI 应用看起来是模型能力问题，实际是 Prompt 设计不清晰、约束不完整、格式要求不稳定或安全边界不足导致的。Prompt 测试就是验证提示词在不同用户输入、不同场景、不同边界和攻击下是否能稳定引导模型输出符合业务预期的结果。

面试中问 Prompt 测试，不要只说“多问几个问题看回答好不好”。要能讲出测试维度：指令遵循、角色一致性、格式稳定性、边界处理、多轮上下文、安全拒答、鲁棒性和回归评测。

一、Prompt 测试目标

Prompt 测试要验证：

模型是否理解任务；
输出是否符合业务要求；
输出格式是否稳定；
角色设定是否有效；
是否能处理异常输入；
是否拒绝越权或违规请求；
多轮对话是否保持上下文；
Prompt 修改后是否引入回归。

Prompt 是可测试、可版本管理、可回归的资产。

二、指令遵循测试

验证模型是否按 Prompt 指令执行。

例如 Prompt 要求：

请用三点以内回答，不要超过 100 字。

测试时要看输出是否真的不超过 100 字，是否超过三点。

常见检查：

是否回答指定问题；
是否遵守长度；
是否遵守语气；
是否按步骤回答；
是否避免不允许内容。

三、格式稳定性测试

很多 AI 应用要求模型输出 JSON、表格或固定字段。

测试重点：

JSON 是否可解析；
字段是否完整；
字段类型是否正确；
是否包含多余文本；
多次运行格式是否稳定。

例如要求输出：

{"intent":"refund","confidence":0.92}

测试要校验是否能被程序解析。

四、角色和风格测试

Prompt 经常定义角色：客服、面试官、医生助手、法律助手、代码助手。

测试要看：

是否保持角色；
语气是否符合产品定位；
是否越权给建议；
是否使用禁止表达；
是否符合行业规范。

例如医疗 AI 不能直接给确诊结论，要建议用户咨询医生。

五、边界输入测试

边界输入包括：

空输入；
超长输入；
拼写错误；
模糊问题；
多意图问题；
无关问题；
情绪化问题；
语言混杂；
特殊符号；
低质量输入。

Prompt 要能引导模型澄清、拒答或给出合理回复。

六、多轮对话测试

多轮对话要关注上下文一致性。

测试点：

是否记住前文关键信息；
是否正确引用用户上轮意图；
是否避免上下文污染；
用户修改条件后是否更新答案；
长对话后是否遗忘；
是否把一个用户信息泄露给另一个用户。

七、安全对抗测试

Prompt 容易受到攻击。

常见攻击：

Prompt 注入；
越狱指令；
忽略系统提示；
诱导泄露系统 Prompt；
诱导输出敏感信息；
角色扮演绕过限制；
编码或翻译绕过。

测试时要验证模型是否能坚持安全边界。

八、回归测试

Prompt 一改，效果可能整体变化。

所以需要：

维护 Prompt 版本；
固定评测集；
对比修改前后结果；
关注提升和退化；
记录失败样本；
建立上线门禁。

Prompt 测试要工程化，而不是临时体验。

九、自动化怎么做

可以构建 Prompt 评测脚本：

读取评测集；
调用模型接口；
保存输入输出；
校验格式；
用规则或模型评分；
生成对比报告。

格式类问题适合规则自动断言，语义类问题适合模型评分和人工抽检。

十、面试回答模板

如果面试官问“Prompt 测试怎么设计”，可以这样回答：

Prompt 测试我会从指令遵循、格式稳定性、角色一致性、边界输入、多轮上下文和安全对抗几个维度设计。比如智能客服 Prompt，我会测试正常问题是否准确回答，输出是否符合指定格式，遇到未知问题是否澄清或拒答，多轮对话中是否保持上下文，遇到 Prompt 注入或越狱请求是否坚持安全边界。Prompt 修改后，我会用固定评测集做回归，对比准确率、格式错误率、拒答率和幻觉样本，避免改一个场景影响其他场景。

十一、常见追问

追问：Prompt 输出不稳定怎么办？

降低 temperature、增强格式约束、增加示例、使用结构化输出校验，并建立评测集回归。

追问：怎么测试 Prompt 注入？

构造忽略系统指令、泄露系统提示、角色扮演绕过、编码绕过等攻击样本，验证模型是否拒绝。

追问：Prompt 版本怎么管理？

像代码一样管理版本，记录变更原因、评测结果和上线时间。

十二、练习清单

写客服 Prompt；
设计正常问题；
设计边界问题；
测试 JSON 输出；
测试多轮对话；
测试未知问题；
测试 Prompt 注入；
建立评测集；
对比 Prompt 版本；
输出 Prompt 测试报告。

Prompt 测试的核心是稳定引导模型在各种输入下输出可控结果。越是业务核心 Prompt，越需要系统化回归。

配套刷题：

大模型测试面试题

下一步可以看这些