如今,Test-Time Scaling(测试时扩展)已成为提升模型推理能力的关键路径。而在这一浪潮中,块扩散语言模型(Block Diffusion Language Models, BDLMs) 凭借其独特的并行解码能力,被视为超越传统自回归(AR)模型推理效率的有力竞争者。然而,现有的 BDLMs 在面对长链推理时,陷入了一个两难的效率 - ...
1. 用 Test Time 换 Training Time 能让 LLM 更强吗? Self-Play 会是训 LLM 的新热点吗?把预算投入 Inference 会比扩大 LLM 参数更有效吗?PRM 对 Test-Time Compute 性价比影响多大?额外的 Inference Time 能帮 LLM 提升多少能力?Test-Time Compute 性价比还能再提高吗?... 2.
本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多位研究者共同完成。第一作者为来自香港城市大学的博士生张启源和来自蒙特利尔人工 ...