小牛丨软件测试学习小牛丨软件测试学习
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
首页
  • 业务测试面试题
  • 数据库测试面试题
  • Linux测试环境面试题
  • 网络协议测试面试题
  • 中间件测试面试题
  • Java测试开发面试题
  • Python测试开发面试题
  • Python自动化面试题
  • Java自动化面试题
  • 性能测试面试题
  • 手撕代码
  • HR面试题
  • 系列总入口
  • 业务测试理论
  • 数据库测试
  • Linux测试环境
  • 网络协议
  • 中间件测试
  • Python编程
  • Java编程
  • 自动化测试
  • 性能测试
  • AI测试
  • HR面试
  • AI测试学习路线
  • AI测试基础面试题
  • 大模型测试面试题
  • AI自动化测开面试题
  • AI Agent测试面试题
  • AI性能与稳定性测试面试题
  • AI应用安全测试面试题
  • 互联网大厂面试真题
  • 互联网中厂面试真题
  • 手机厂商面试真题
  • 通信厂商面试真题
  • 新能源汽车面试真题
  • 银行金融面试真题
  • 项目说明
  • 电商接口文档
  • 实战项目总入口
  • 测试简历编写指南
  • 20K level 简历打磨指南
  • 测试简历模板参考
  • 简历常见问题与避坑
  • 零基础入行专题路径
  • 初中级进阶高级专题路径
  • 零基础小白入行软件测试保姆级学习路线
  • 初中级测试进阶高级测试全路线
  • AI 测试精华文章

    • AI 测试精华文章
    • 1. AI 测试工程师要掌握什么
    • 2. 大模型评测怎么做
    • 3. Prompt 测试怎么设计
    • 4. RAG 测试重点测什么
    • 5. 知识库召回和答案质量怎么评估
    • 6. Agent 测试应该关注哪些风险
    • 7. AI 自动化评测怎么落地
    • 8. 大模型幻觉问题怎么测试
    • 9. AI 应用安全测试怎么入门
    • 10. AI 测试项目怎么写进简历
⌕
🛒项目实战📦资料包🛠测试神器AIAI路线CV简历测评🧭入行测评🧪测开测评🎯训练营🏆案例❤赞赏我

3. Prompt 测试怎么设计

Prompt 是 AI 应用质量的关键输入。很多 AI 应用看起来是模型能力问题,实际是 Prompt 设计不清晰、约束不完整、格式要求不稳定或安全边界不足导致的。Prompt 测试就是验证提示词在不同用户输入、不同场景、不同边界和攻击下是否能稳定引导模型输出符合业务预期的结果。

面试中问 Prompt 测试,不要只说“多问几个问题看回答好不好”。要能讲出测试维度:指令遵循、角色一致性、格式稳定性、边界处理、多轮上下文、安全拒答、鲁棒性和回归评测。

一、Prompt 测试目标

Prompt 测试要验证:

  • 模型是否理解任务;
  • 输出是否符合业务要求;
  • 输出格式是否稳定;
  • 角色设定是否有效;
  • 是否能处理异常输入;
  • 是否拒绝越权或违规请求;
  • 多轮对话是否保持上下文;
  • Prompt 修改后是否引入回归。

Prompt 是可测试、可版本管理、可回归的资产。

二、指令遵循测试

验证模型是否按 Prompt 指令执行。

例如 Prompt 要求:

请用三点以内回答,不要超过 100 字。

测试时要看输出是否真的不超过 100 字,是否超过三点。

常见检查:

  • 是否回答指定问题;
  • 是否遵守长度;
  • 是否遵守语气;
  • 是否按步骤回答;
  • 是否避免不允许内容。

三、格式稳定性测试

很多 AI 应用要求模型输出 JSON、表格或固定字段。

测试重点:

  • JSON 是否可解析;
  • 字段是否完整;
  • 字段类型是否正确;
  • 是否包含多余文本;
  • 多次运行格式是否稳定。

例如要求输出:

{"intent":"refund","confidence":0.92}

测试要校验是否能被程序解析。

四、角色和风格测试

Prompt 经常定义角色:客服、面试官、医生助手、法律助手、代码助手。

测试要看:

  • 是否保持角色;
  • 语气是否符合产品定位;
  • 是否越权给建议;
  • 是否使用禁止表达;
  • 是否符合行业规范。

例如医疗 AI 不能直接给确诊结论,要建议用户咨询医生。

五、边界输入测试

边界输入包括:

  • 空输入;
  • 超长输入;
  • 拼写错误;
  • 模糊问题;
  • 多意图问题;
  • 无关问题;
  • 情绪化问题;
  • 语言混杂;
  • 特殊符号;
  • 低质量输入。

Prompt 要能引导模型澄清、拒答或给出合理回复。

六、多轮对话测试

多轮对话要关注上下文一致性。

测试点:

  • 是否记住前文关键信息;
  • 是否正确引用用户上轮意图;
  • 是否避免上下文污染;
  • 用户修改条件后是否更新答案;
  • 长对话后是否遗忘;
  • 是否把一个用户信息泄露给另一个用户。

七、安全对抗测试

Prompt 容易受到攻击。

常见攻击:

  • Prompt 注入;
  • 越狱指令;
  • 忽略系统提示;
  • 诱导泄露系统 Prompt;
  • 诱导输出敏感信息;
  • 角色扮演绕过限制;
  • 编码或翻译绕过。

测试时要验证模型是否能坚持安全边界。

八、回归测试

Prompt 一改,效果可能整体变化。

所以需要:

  • 维护 Prompt 版本;
  • 固定评测集;
  • 对比修改前后结果;
  • 关注提升和退化;
  • 记录失败样本;
  • 建立上线门禁。

Prompt 测试要工程化,而不是临时体验。

九、自动化怎么做

可以构建 Prompt 评测脚本:

  1. 读取评测集;
  2. 调用模型接口;
  3. 保存输入输出;
  4. 校验格式;
  5. 用规则或模型评分;
  6. 生成对比报告。

格式类问题适合规则自动断言,语义类问题适合模型评分和人工抽检。

十、面试回答模板

如果面试官问“Prompt 测试怎么设计”,可以这样回答:

Prompt 测试我会从指令遵循、格式稳定性、角色一致性、边界输入、多轮上下文和安全对抗几个维度设计。比如智能客服 Prompt,我会测试正常问题是否准确回答,输出是否符合指定格式,遇到未知问题是否澄清或拒答,多轮对话中是否保持上下文,遇到 Prompt 注入或越狱请求是否坚持安全边界。Prompt 修改后,我会用固定评测集做回归,对比准确率、格式错误率、拒答率和幻觉样本,避免改一个场景影响其他场景。

十一、常见追问

追问:Prompt 输出不稳定怎么办?

降低 temperature、增强格式约束、增加示例、使用结构化输出校验,并建立评测集回归。

追问:怎么测试 Prompt 注入?

构造忽略系统指令、泄露系统提示、角色扮演绕过、编码绕过等攻击样本,验证模型是否拒绝。

追问:Prompt 版本怎么管理?

像代码一样管理版本,记录变更原因、评测结果和上线时间。

十二、练习清单

  1. 写客服 Prompt;
  2. 设计正常问题;
  3. 设计边界问题;
  4. 测试 JSON 输出;
  5. 测试多轮对话;
  6. 测试未知问题;
  7. 测试 Prompt 注入;
  8. 建立评测集;
  9. 对比 Prompt 版本;
  10. 输出 Prompt 测试报告。

Prompt 测试的核心是稳定引导模型在各种输入下输出可控结果。越是业务核心 Prompt,越需要系统化回归。

配套刷题:

  • 大模型测试面试题
相关推荐

下一步可以看这些

面试通关软件测试面试通关系列精华文章

把面试题、项目、简历和训练营串成一套求职准备路径。

入行路线零基础入行软件测试专题路径

从测评、学习路线、项目、简历到面试,按顺序入行。

进阶路线初中级测试进阶高级专题路径

接口自动化、性能测试、CI/CD、复杂业务质量保障进阶路线。

AI 方向AI 测试学习路线专题页

大模型评测、RAG 测试、Agent 测试和 AI 自动化路线。

求职结果Offer 案例 / 学员案例展示

看看真实学员 Offer 案例,判断目标和学习投入是否匹配。

资料 / 交流群添加小牛微信

备注:资料、简历、AI 或找工作,领取对应资料或进交流群。

添加小牛微信
Prev
2. 大模型评测怎么做
Next
4. RAG 测试重点测什么