以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至 77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。
科技行者 on MSN
DeepSeek推出V3.2:开源大模型首次挑战GPT-5,在数学竞赛中勇夺金牌
这项由DeepSeek-AI团队发表于2025年12月的重要研究,向我们展示了开源人工智能模型的一个重大突破。有兴趣深入了解的读者可以通过arXiv:2512.02556v1查询完整论文。这个名为DeepSeek-V3.2的新模型不仅在性能上与GPT ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果