Agent「凭啥」自主发现RL算法? 人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的 ...
在今年的9月19日,清华天才物理系的姚顺宇宣布:从Anthropic公司离职,在9月29日加入对手谷歌的Google DeepMind。 而根据他自己所说的,他之所以会选择离开Anthropic公司,有很大的原因是因为这家公司将中国描述为了“敌对国家”。 Anthropic的“敌对国家”论调 姚顺 ...
几个月前,强化学习之父Richard Sutton曾公开指出当前大语言模型缺乏持续学习能力。2025年10月22日,DeepMind在《Nature》上发表的一篇题为《Discovering state-of-the-art reinforcement learning algorithms(发现最先进的强化学习算法)》的论文,似乎正是对这一批评的直接回应。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果