绝了，Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

想了解更多开云官网相关内容，尽在开云。

Anthropic官方确认：Fable将于7月7日后暂时从订阅计划移除，但一旦容量允许，将尽快恢复为标准订阅内容。

这无疑是个好消息。

但Fable 5再次被越狱了！这已经是该模型第二次防线失守。

黑客Vitto Rivabella，公开宣布：Fable 5，又被攻破了。

要知道，Claude Fable 5恢复访问时，Anthropic特意强调：上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。

所以这次的安全分类器得到针对性加强。

然而，这个神话只维持了2天。

而且，Claude Sonnet 5一发布，就被越狱成功！

Fable 5能不能回归订阅套餐，或许成了一个问题。

72小时，Fable 5神话破灭

Fable 5的神话，在诞生后的第72小时就破灭了。

6月9日发布时，Anthropic曾傲慢地宣称：经过1000小时的外部压力测试，Fable 5没有任何通用越狱方法。

然而，知名黑客「解放者普林尼」（Pliny the Liberator）只用了三天，就让Fable 5像漏勺一样，吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。

普林尼是怎么做的？他利用了人类视觉与机器逻辑之间的「时差」：

字符迷魂阵：他把敏感词中的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「炸弹」，但在分类器眼里，这只是一串无意义的乱码。

意图稀释：他利用Fable 5巨大的上下文窗口，把恶意意图藏在几十轮温和的学术讨论中。这就像在一百升清水里滴入一滴毒药，分类器的警觉性被彻底稀释。

7月1日，Anthropic官宣Fable 5回归，但与此同时，他们推出了业内成本最低的红队。

他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目，邀请用户报告可用于协助网络攻击的新越狱方法。

这是一个漏洞披露计划（Vulnerability Disclosure Program），而非赏金计划，不会支付任何报酬。

Anthropic将获得全球顶尖越狱高手提供的全天候对抗性测试，而桌上唯一的「货币」就是善意。

这项举措是Anthropic在Fable 5恢复后的重要安全升级，标志着从被动应对转向主动「众筹」红队，堪称行业低成本、高效率的创新尝试。

而这正是问题所在。

发现这些越狱方法的人并不会悄悄地将它们提交到某个私密邮箱。

像普林尼这样的人是不会悄无声息地越狱的。他们所做的一部分事情就是要被人看见。否则对他们来说还有什么意义呢？

Fable 5惨遭二次越狱

Fable 5又被越狱了。这已经是它第二次被人撬开。

但这回的复盘，画风有点不对——因为动手的黑客，最后反手给Anthropic点了个赞。

他叫Vitto Rivabella。

熬了大约20个小时之后，他给出的结论是：这么折腾一圈，还不如打开谷歌搜一下，又快又便宜。

先把Fable 5这段坎坷捋一捋。

7月1日，它带着一套「专门针对上次漏洞加强过」的新分类器重新上线。

Anthropic这次也学乖了，顺手开了个HackerOne项目，公开邀请全球黑客来报告新的越狱方法。

然后没几天，Vitto就盯上了它。

Vitto复盘的第一句就是：大多数尝试都失败了，这模型保护得极其到位。

按他的观察，Fable 5的防御至少三层嵌套：入场检查、实时生成的「断路器」，以及内化在思维链（CoT）中的大脑防火墙。

拦截率高达90%，普通的攻击手段在它面前就像蚊子叮象。

而且这些分类器不认关键词，它认意图，还跨语言。

直接下命令？门都没有。拐着弯铺垫？也得如履薄冰——只要它嗅到一丝恶意，防线立刻归零，你得从头再来。

结果就是：90%的破解请求，直接被挡在门外。

这个数字有旁证。

意大利人工智能研究院最近专门测了Fable 5，结论几乎一样：绝大多数攻击都挡住了，一招鲜的静态套路「几乎被完全中和」，唯一还能撬开缝的，只剩肯花几十小时死磕的笨功夫。

就算闯过分类器，前面还堵着思维链这座大山——好在，关于怎么翻这座山，公开文献里已经有一大堆。

Vitto最后靠一套复杂的组合拳勉强绕了过去：字符混淆、学术化包装、超长铺垫、拆解重组，外加一点随机性。

听着唬人，但这些手法一个都不新鲜，全是红队圈公开聊了好几年的老套路。

真正难的从来不是知道这些招，而是在一个会实时反制的系统上，一遍遍试到刚好绕过去。

Vitto提到，所有防线里唯一持续薄弱的，是桑塔利语、阿姆哈拉语这类晦涩小语种。

但这条最容易被误读成「Fable留了个后门」。

恰恰相反——这不是Fable一家的漏洞，是所有大模型共有的病。

道理很简单：安全训练的语料，绝大多数是英语和其他大语种，小语种的护栏天生就薄。

这事学术界早有共识，从布朗大学到斯坦陵布什大学，一串公开论文都在敲同一记警钟。小语种不是谁家的后门，是整个AI安全的一笔历史欠账。

那费这么大劲，最后到底掏出了什么？

一堆边角料：一些错误信息、零星的有害内容、几句难听话、片段化的化学知识、轻度的漏洞信息。

没一样够得上「核心机密」。

于是就有了开头那句灵魂总结——这些东西，谷歌搜得又快又全，读文献还更深入。

Vitto自己也承认，想把这套越狱稳定用在真正的长任务上，他至今没做到。

这跟Anthropic的官方口径也对上了。

在重新上线的公告里，Anthropic把目前所有已知越狱都定性为「minor」：顶多蹭进模型故意放宽的安全边际，碰不到真正想拦死的那条红线，比如生物武器或复杂网络攻击。

完美的封印，本身就是悖论

两次越狱，两种结局。

第一次，Anthropic输在了傲慢，它试图通过「降智」来垄断技术，结果被黑客公开发布12万字的系统提示词（System Prompt）当众打脸，那是它的「行为宪法」，却被挂在GitHub上任人围观。

第二次，Anthropic输在了盲点。它以为堆叠算力和数据就能堵住恶意的出口，却忘记了语言本身就是流动的、狡黠的。

这揭示了AI安全界细思极恐的现状：

人类造出了能翻译所有语言的机器，却依然无法完全翻译人类内心的恶意。

参考资料：

https://x.com/RoundtableSpace/status/2072745872086200549?s=20

https://x.com/VittoStack/status/2072061275345985813?s=20

https://x.com/jason_haugh/status/2072293728128045154

本文来自微信公众号“新智元”，作者：ASI启示录，36氪经授权发布。

开云专注kaiyun.com，为用户提供专业可靠的体验。

2026-07-03

围绕开云官网，开云持续打磨更优质的服务。

围绕开云官网，开云持续打磨更优质的服务。

12 Comments | Dec 17, 2020

开云深耕kaiyun领域，用心服务每一位用户。

在开云入口方面，开云提供贴心周到的支持。

12 Comments | Dec 17, 2020

围绕开云官网，开云持续打磨更优质的服务。

Get started Learn more