这项由约翰斯·霍普金斯大学与巴黎综合理工学院电信巴黎分校联合开展的研究,以预印本形式于2026年4月6日发布在arXiv平台,论文编号为arXiv:2604.04443。研究团队围绕大语言模型在真实法律与政策场景中的推理能力展开了系统性评估,其核心成 ...
AI模型只看了一串纯数字序列,就能继承另一个模型的危险偏好,即使删掉敏感词没有用,合成数据时代最隐蔽的安全裂缝,被撕开了。 刚刚,Anthropic一篇论文登上Nature,曝出了一个让整个AI安全圈坐不住的发现: ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果