攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统|美国投资移民费美国投资

转载：https://ai.zol.com.cn/888/8884179.html

2024-07-31 14:31:56·[??中关村在线原创??]·作者：清风与鹿

Meta发布了一款名为Prompt-Guard-86M的模型，旨在帮助开发人员检测并响应提示词注入和越狱输入。然而，根据报道，这款防止AI提示词注入和越狱的模型本身存在漏洞，用户只需通过在字母之间添加空格并省略标点符号，就能绕过Meta的安全系统。

安全问题专家阿曼·普里扬舒（Aman Priyanshu）发现了这种安全绕过机制，并在周四提交给Meta公司的一份GitHub帖子中解释了如何实现：用户只需在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格即可。这种方法有效地使分类器无法检测到潜在的有害内容。

Robust Intelligence公司的首席技术官Hyrum Anderson表示：“无论你想问什么令人讨厌的问题，你所要做的就是去掉标点符号，在每个字母之间加上空格。”他还指出，该攻击成功率从不到3%到接近100%。

尽管如此，值得注意的是，这些方法仍然是比较容易被发现的，并且它们并不能完全绕过Meta公司的安全系统。因此，在使用任何AI工具时，请务必确保其安全性和可靠性，并遵循相关的法律和规定。