球速体育新闻

News Center

当前位置: 首页 > 球速体育新闻 > 公司新闻

Welcome-球速体育如临大敌!脑力工作被AI抢走?评测机构题库不够Claude新模型使用

更新时间:2026-05-14点击次数:

  球速体育

Welcome-球速体育如临大敌!脑力工作被AI抢走?评测机构题库不够Claude新模型使用

  一张趋势图这两天在科技圈炸了锅。国际最权威的AI评测机构METR发布最新测试结果,结果不是模型考了多少分,而是考官自己先认了输——题库不够用了。

  被测试的模型叫Claude Mythos,来自Anthropic公司,2026年4月以预览版形式亮相。它在人类需要整整16个小时才能啃下来的复杂编程任务上,稳稳跨过了50%的成功率门槛。

  而METR手里总共228道魔鬼级考题里,达到这个难度级别的,只有区区5道。16小时以上的题根本凑不齐样本量,评测数据直接进了“测不准”区间。

  试卷满分只有100分,它考了100分,不是只能考100分,是卷子就印到这儿了。这事传递的信号比一张跑分表沉得多。

  把AI当成人,扔给它一个真实的工程任务——读代码、理解架构、定方案、动手写、调试修bug,从头到尾不许人类插手。

  难度用人类专家需要花多少时间来标定,指标叫“50%任务完成时间跨度”——模型有50%的概率成功拿下这项任务。

  2021年最顶尖的模型只能搞定8秒级别的任务,写一行代码或者修一个拼写错误。

  它能独立完成一个完整的工程子项目,读代码、理解架构、制定方案、编写实现、调试测试,一气呵成,全程不需要人类盯着。

  在METR精心构建的228道魔鬼级测试任务里,归类到16小时及以上难度的只有5道。

  95%置信区间的跨度从8.5小时一路延伸到55小时,宽得没法做精确比较。

  这个模型自主挖出了数千个零日漏洞,覆盖了所有主流操作系统和所有主流浏览器。

  不是理论上的弱点,不是只有在实验室里才能触发的边缘案例,是实实在在大摇大摆躺在生产代码里的漏洞。

  在开源系统OpenBSD里藏了27年的远程崩溃漏洞被它揪了出来,FFmpeg里一个埋了16年的缺陷同样被精确定位。

  对Firefox 147的一次扫描中,Mythos一次性找出181个可用浏览器漏洞,上一代模型只找到2个。

  网络安全公司Palo Alto Networks的实测显示,用Mythos做漏洞分析,3周干完的活等于顶级渗透团队一整年的深耕。

  它能把多个低严重度问题连成关键级攻击路径,从入侵到数据外泄,最快只要25分钟。

  这也是为什么Anthropic公司反复强调暂时不公开发布Mythos,先只提供给约50家关键基础设施与头部科技公司使用。

  评测爆表加黑客能力双重刺激,最先坐不住的还不是程序员,是美国政府最高层。

  Mythos有限发布当天,美国财政部长斯科特·贝森特与美联储主席杰罗姆·鲍威尔紧急跟华尔街高管开了闭门会议。

  这种级别的紧急磋商,美联储通常只会在2008年金融危机或2020年疫情冲击这种系统性风险面前启动。

  白宫那边动作更快,国家网络安全总监肖恩·凯恩克罗斯直接牵头组建专项应对小组,要求各部门排查关键基础设施的安全软肋,加固政府系统防线。

  美国国家经济委员会主任凯文·哈塞特也公开说得很直白:AI掌握自主挖掘软件漏洞的新路径,必须高度警惕。

  德国联邦银行(央行)行长Joachim Nagel在罗马发表演讲时明确表示,IT安全对金融稳定至关重要,要求所有相关机构都能获得类似Mythos这样的技术访问权,否则会扭曲竞争。

  就在2026年5月6日,埃隆·马斯克宣布旗下人工智能企业xAI作为独立实体正式解散,整体并入SpaceX,成为名为SpaceXAI的产品线。

  Colossus 1位于美国田纳西州孟菲斯,搭载超过22万块英伟达GPU,包括H100、H200和下一代GB200加速器。

  真正值得留意的不是AI是不是成了神,而是它的角色正在发生变化——从你问它答的搜索增强工具,变成了能长时间独立干活的数字员工。

  而如果AI未来开始自己研发更强的AI,技术进步的增速本身还会再加速,到那时连指数增长这条线都不够用了。

  • 电子邮箱: facai@126.com

  • 热线电话: 0755-89800918

  • 公司地址: 深圳市南山区粤海街道高新区社区深圳湾创新科技中心2栋A座22层

Copyright © 2012-202X 球速体育公司 版权所有 Powered by EyouCms
备案号:粤ICP备05004158号-1

SiteMap

网站二维码
关注

联系

0755-89800918

顶部