七家主流大模型挑战 2025 高考数学,仅 DeepSeek、讯飞星火得分超 140 分
2025 年高考正在进行中,昨日已考完语文和数学,网上关于这两门学科试卷难度的讨论热度颇高,“数学难不难”话题更是在数学考试结束后瞬间登上热搜。
作为科技编辑,小编关注的是今年高考数学卷对当下热门的 AI 来说难度如何。于是,IT 之家组织了一场大模型之间的比拼,让 DeepSeek R1 0528、通义千问 Qwen3 - 235B - A22B、讯飞星火 X1 - 0420 等七家大模型化身“高考学子”,完整做一套高考数学卷。
由于网络流出的试题存在多个版本且题目不完整,IT 之家通过多版本交叉验证 + 老师解题验证的方式评测,总分 150 分,还邀请了十年高中数学一线教研专家汪鹏辅助评分。因部分大模型功能使用受限,采用 OCR 转写后输入答题。
文中挑选了部分题目展示大模型作答情况,如选择题第 1、5 题,各家大模型都答对;第 8 题,豆包大模型和 DeepSeek 答错;解答题第 16 题,文心一言得 6 分,腾讯混元得 0 分等;第 18 题,文心 X1 模型答案有误,得 10 分。
总体得分上,DeepSeek、讯飞星火表现突出,突破 140 分,其中 DeepSeek 以 143 分夺冠,讯飞星火 141 分位居第二,GPT o3 以 138 分获第三。此次大考显示 AI 数学能力明显提升,也体现了让 AI 更好辅助教育的价值。