惊!几位00后推出新编程基准测试,一众大模型竟全部交了“白卷”得0分
当OpenAI宣称其o3模型在编程竞赛中表现优异时,一群年轻研究者给出了不同答案。由多位华人00后奥林匹克竞赛获奖者主导、美国纽约大学助理教授谢赛宁参与的研究团队,推出了LiveCodeBench Pro基准测试。结果令人惊讶,包括o3 - high、Gemini 2.5 Pro在内的所有大语言模型,在困难级别的编程问题上全部得0分。
这个测试由来自多所院校的年轻研究者开发,核心成员多是国际信息学奥林匹克竞赛奖牌得主。项目主要负责人有毕业于成都外国语学校、现就读于纽约大学的Zihan Zheng,浙江大学校友、即将前往普林斯顿大学读博的柴文浩等,团队成员大多是本科或直博在读,甚至还有高中生。
论文指出,现有编程评测基准存在缺陷,如测试环境不一致、测试用例薄弱等。LiveCodeBench Pro的独特之处在于实时性和纯净性,它实时收集顶级赛事最新题目,避免数据泄露,确保模型无法“作弊”。截至2025年4月25日,收录584道高质量题目,摒弃简单且易被污染的题源,还会每季度发布全新评估集。
测试结果显示,模型在不同类型问题上表现差异大,在观察密集型问题上表现惨不忍睹,存在算法设计和问题理解的根本性缺陷。推理功能在部分问题上有提升,但对观察密集型问题帮助有限。业界常用的pass@k评估方法能提升模型表现,但模型在困难问题上仍通过率为零。此外,模型在交互式问题上表现差,且最昂贵的模型未必表现好。这表明大语言模型在深度算法思维的复杂问题上还有很大提升空间。