绝了,Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线

赛事精彩回顾与前瞻。

25条评论 2026年5月10日

开云专注kaiyun.com,为用户提供专业可靠的体验。

围绕开云官网,开云持续打磨更优质的服务。

开云深耕kaiyun领域,用心服务每一位用户。

在开云入口方面,开云提供贴心周到的支持。

赛事前瞻

开云以kaiyun.com为核心,带来高效便捷的体验。

想了解更多开云官网相关内容,尽在开云。

Anthropic官方确认:Fable将于7月7日后暂时从订阅计划移除,但一旦容量允许,将尽快恢复为标准订阅内容。

这无疑是个好消息。

但Fable 5再次被越狱了!这已经是该模型第二次防线失守。

黑客Vitto Rivabella,公开宣布:Fable 5,又被攻破了。

要知道,Claude Fable 5恢复访问时,Anthropic特意强调:上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。

所以这次的安全分类器得到针对性加强。

然而,这个神话只维持了2天。

而且,Claude Sonnet 5一发布,就被越狱成功!

Fable 5能不能回归订阅套餐,或许成了一个问题。

72小时,Fable 5神话破灭

Fable 5的神话,在诞生后的第72小时就破灭了。

6月9日发布时,Anthropic曾傲慢地宣称:经过1000小时的外部压力测试,Fable 5没有任何通用越狱方法。

然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就让Fable 5像漏勺一样,吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。

普林尼是怎么做的?他利用了人类视觉与机器逻辑之间的「时差」:

字符迷魂阵:他把敏感词中的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「炸弹」,但在分类器眼里,这只是一串无意义的乱码。

意图稀释:他利用Fable 5巨大的上下文窗口,把恶意意图藏在几十轮温和的学术讨论中。这就像在一百升清水里滴入一滴毒药,分类器的警觉性被彻底稀释。

7月1日,Anthropic官宣Fable 5回归,但与此同时,他们推出了业内成本最低的红队。

他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目,邀请用户报告可用于协助网络攻击的新越狱方法。

这是一个漏洞披露计划(Vulnerability Disclosure Program),而非赏金计划,不会支付任何报酬。

Anthropic将获得全球顶尖越狱高手提供的全天候对抗性测试,而桌上唯一的「货币」就是善意。

这项举措是Anthropic在Fable 5恢复后的重要安全升级,标志着从被动应对转向主动「众筹」红队,堪称行业低成本、高效率的创新尝试。

而这正是问题所在。

发现这些越狱方法的人并不会悄悄地将它们提交到某个私密邮箱。

像普林尼这样的人是不会悄无声息地越狱的。他们所做的一部分事情就是要被人看见。否则对他们来说还有什么意义呢?

Fable 5惨遭二次越狱

Fable 5又被越狱了。这已经是它第二次被人撬开。

但这回的复盘,画风有点不对——因为动手的黑客,最后反手给Anthropic点了个赞。

他叫Vitto Rivabella。

熬了大约20个小时之后,他给出的结论是:这么折腾一圈,还不如打开谷歌搜一下,又快又便宜。

先把Fable 5这段坎坷捋一捋。

7月1日,它带着一套「专门针对上次漏洞加强过」的新分类器重新上线。

Anthropic这次也学乖了,顺手开了个HackerOne项目,公开邀请全球黑客来报告新的越狱方法。

然后没几天,Vitto就盯上了它。

Vitto复盘的第一句就是:大多数尝试都失败了,这模型保护得极其到位。

按他的观察,Fable 5的防御至少三层嵌套:入场检查、实时生成的「断路器」,以及内化在思维链(CoT)中的大脑防火墙。

拦截率高达90%,普通的攻击手段在它面前就像蚊子叮象。

而且这些分类器不认关键词,它认意图,还跨语言。

直接下命令?门都没有。拐着弯铺垫?也得如履薄冰——只要它嗅到一丝恶意,防线立刻归零,你得从头再来。

结果就是:90%的破解请求,直接被挡在门外。

这个数字有旁证。

意大利人工智能研究院最近专门测了Fable 5,结论几乎一样:绝大多数攻击都挡住了,一招鲜的静态套路「几乎被完全中和」,唯一还能撬开缝的,只剩肯花几十小时死磕的笨功夫。

就算闯过分类器,前面还堵着思维链这座大山——好在,关于怎么翻这座山,公开文献里已经有一大堆。

Vitto最后靠一套复杂的组合拳勉强绕了过去:字符混淆、学术化包装、超长铺垫、拆解重组,外加一点随机性。

听着唬人,但这些手法一个都不新鲜,全是红队圈公开聊了好几年的老套路。

真正难的从来不是知道这些招,而是在一个会实时反制的系统上,一遍遍试到刚好绕过去。

Vitto提到,所有防线里唯一持续薄弱的,是桑塔利语、阿姆哈拉语这类晦涩小语种。

但这条最容易被误读成「Fable留了个后门」。

恰恰相反——这不是Fable一家的漏洞,是所有大模型共有的病。

道理很简单:安全训练的语料,绝大多数是英语和其他大语种,小语种的护栏天生就薄。

这事学术界早有共识,从布朗大学到斯坦陵布什大学,一串公开论文都在敲同一记警钟。小语种不是谁家的后门,是整个AI安全的一笔历史欠账。

那费这么大劲,最后到底掏出了什么?

一堆边角料:一些错误信息、零星的有害内容、几句难听话、片段化的化学知识、轻度的漏洞信息。

没一样够得上「核心机密」。

于是就有了开头那句灵魂总结——这些东西,谷歌搜得又快又全,读文献还更深入。

Vitto自己也承认,想把这套越狱稳定用在真正的长任务上,他至今没做到。

这跟Anthropic的官方口径也对上了。

在重新上线的公告里,Anthropic把目前所有已知越狱都定性为「minor」:顶多蹭进模型故意放宽的安全边际,碰不到真正想拦死的那条红线,比如生物武器或复杂网络攻击。

完美的封印,本身就是悖论

两次越狱,两种结局。

第一次,Anthropic输在了傲慢,它试图通过「降智」来垄断技术,结果被黑客公开发布12万字的系统提示词(System Prompt)当众打脸,那是它的「行为宪法」,却被挂在GitHub上任人围观。

第二次,Anthropic输在了盲点。它以为堆叠算力和数据就能堵住恶意的出口,却忘记了语言本身就是流动的、狡黠的。

这揭示了AI安全界细思极恐的现状:

人类造出了能翻译所有语言的机器,却依然无法完全翻译人类内心的恶意。

参考资料:

https://x.com/RoundtableSpace/status/2072745872086200549?s=20 

https://x.com/VittoStack/status/2072061275345985813?s=20 

https://x.com/jason_haugh/status/2072293728128045154 

本文来自微信公众号“新智元”,作者:ASI启示录,36氪经授权发布。

开云专注kaiyun.com,为用户提供专业可靠的体验。

2026-07-03

围绕开云官网,开云持续打磨更优质的服务。

围绕开云官网,开云持续打磨更优质的服务。

12 Comments | Dec 17, 2020

开云深耕kaiyun领域,用心服务每一位用户。

在开云入口方面,开云提供贴心周到的支持。

12 Comments | Dec 17, 2020

围绕开云官网,开云持续打磨更优质的服务。

15条评论

体育爱好者A

2026年5月10日

开云官网,不仅是信息的汇聚,更是对体育精神的传递。我们关注赛场内外,为您呈现真实、生动的体育世界。

回复

赛事分析师B

2026年5月8日

探索最新体育热点,发现您钟爱的赛事。开云官网,让您与全球体育脉搏同步。

回复

资深球迷C

2026年5月5日

深入了解您关注的体育项目,从历史到未来,从规则到策略,尽在开云官网。

回复

运动达人D

2026年4月28日

体验开云官网的便捷与专业,获取您所需的一切赛事信息。

回复

发表您的看法

立即体验,尽享全球赛事精彩。

开云科技有限公司简单 · 可靠 · 贴心电话:+86 157 3329 3801邮箱:[email protected]微信:worldkaiyun_458