JavaScript 27 - 搜索 News

13 小时

97.6%接近满分，Claude最强模型发布，但不敢给用户用：太危险

回过头来，Mythos 预览版寻找漏洞的能力已经初见端倪。尤其对比之前 Claude 最强模型 Opus 4.6 自主发现并利用漏洞的成功率接近 0%，Mythos 预览版的表现可以堪称逆天。

11 小时

面向软件工程的 SWE-bench Verified 从 Opus 4.6 的 80.8% 暴涨到 93.9%，SWE-bench Pro 从 53.4% 冲到 77.8%；面向高难度数学推理的 USAMO 2026，更是从从 42.3% 直接飙到 97.6%——几乎满分。

一些您可能无法访问的结果已被隐去。