Rich Sutton 曾说过:「AI 只能在可以自我验证的范围内创造和维持知识。」爱因斯坦与英费尔德在合著的《物理学的进化》中也写道:「提出一个问题往往比解决问题更重要,后者或许仅仅是数学或实验技巧的问题。而提出新的问题、新的可能性,从新的角度审视旧的问题,则需要创造性的想象力,并标志着科学的真正进步。」 ...
IT之家 1 月 4 日消息,阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。 项目背景 大语言模型的 AI 场景应用之一,就是生成、补全代码,只是现阶段评估编程真实能力方面存在诸多挑战。