数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 902|回复: 0

4 人团队斩获首届 AI 奥数竞赛百万大奖!AI 破解 29 题陶哲轩惊呆,华人博士荣登第二

[复制链接]
发表于 2024-7-11 09:38 | 显示全部楼层 |阅读模式
4 人团队斩获首届 AI 奥数竞赛百万大奖!AI 破解 29 题陶哲轩惊呆,CMU 华人博士荣登第二

来源:新智元 新智元 2024 年 07 月 05 日 13:34 北京

编辑:桃子 乔杨

【新智元导读】历经 3 个月,首届 AI 奥数竞赛终于公布最终结果了!Gemma 7B 只能达到 3/50 正确率的题目中,第一名的 Numina 模型居然刷出了 29/50 的成绩。

AI 奥林匹克数学大奖的最终结果,终于公布了!

今天,数学大神陶哲轩的一篇帖子引起了大家的关注。



他表示,Kaggle 上的第一届 AI 数学奥林匹克竞赛中,第一名模型居然在全部 50 道题中答对了 29 道,有点出乎意料。

陶哲轩所说的,是 Kaggle 社区中一个从 4 月开始的挑战赛,奖金池有 1000 万美元,旨在推动提高 AI 模型的数学推理能力。



比赛地址:https://www.kaggle.com/competiti ... piad-prize/overview

总的来看,这次比赛共有 5 个团队胜出,第一名是 Numina ,第二名是 CMU_MATH ,第三名是 after exams ,第四名是 codeinter ,第五名是 Conor #2 。

这些团队成员至多有 5 人,最少有 1 人。

值得一提的是,仅凭借 1 人拿下比赛第二名的华人学者,竟是来自 CMU 博士。



虽然有 GSM8K 等流行的基准测试,但不可避免的数据泄露问题会影响评估的准确性。

AI 参赛破纪录,50 题做对 29 道

而这次挑战赛采取了 Kaggle 一贯的私有测试集模式。主办方共准备了 110 道题,包括训练集 10 道、公共测试集 50 道以及私有测试集 50 道。

这些题目涵盖了简单算术、代数、集合推理等多方面的题目,难度略高于 AMC 12(美国数学竞赛),略低于 AIME(美国数学邀请赛),需要使用高中水平的数学知识。

你可能觉得美国高中的数学题应该不难,但竞赛官网上有这样一句话,「AIME 旨在挑战聪明的学生,以选择代表美国参加 IMO(国际数学奥赛)的学生。」



比如训练集中的这样一道题:

在三位数 111 至 999 中,每个数字都被染成蓝色或黄色,使得任意两个(不一定不同)黄色数字的和等于一个蓝色数字。最多可能有多少个黄色数字?

答案是 250(取模 1000 后的结果),不知道你觉得难度如何。

主办方出完题之后,也把题目拿给 Gemma 7B 做了基准测试,正确率只有 3/50 。

而排名第一的 Numina ,居然能达到 29/50 的正确率,已经逼近 AMC 12 晋级 AIME 所需要的正确率。

成绩公布后,Numina 项目的众多参与者也高兴得纷纷发推庆祝。



但遗憾的是,他们口中的 Numina Math 7B 模型尚未发布。从推文信息来看,模型并非从头搭建,而是微调了开源的 LLM 从而提升数学推理能力,并将在未来公开一系列信息——包括模型、数据集以及构建方法!



获奖团队成员介绍

从总排行榜中,我们可以看到,拿到排行榜第一名的团队一共有 4 人,分别来自不同的机构。


Jia Li

Jia Li 目前是一家初创公司 Numina 的联合创始人,这次参与比赛的模型便是基于此微调而来的。


Lewis Tunstall

Lewis Tunstall 是 Hugging Face 的一名机器学习研究员,目前专注于研究人类反馈进行强化学习(RLHF)的工具和方法。


Edward Beeching

Edward Beeching 本人也来自 Hugging Face,研究重点是 RLHF 、嵌入式学习和 LLM 工具的使用。在此之前,他曾是 INSA Lyon/INRIA 的博士生。作为 INRIA CHROMA 团队的一员,还曾研究了基于结构化记忆的深度强化学习方法,用于规划和导航。

Edward 曾获得物理学学士学位,并在地球物理学领域的图像处理和信号处理方面,拥有 6 年的行业经验。之后又获得了机器学习和数据挖掘硕士学位。

斩获一等奖的最后一位成员是 Hélène Evain 。

值得一提的是,第二名获得者是 CMU 博士 Zhiqing Sun(孙之清)。在这场比赛中,他训出的 AI 答对了 22 道题目。




孙之清

孙之清目前是 CMU LTI 即将毕业的博士生,导师是 Yiming Yang 教授。他曾在北大学获得了计算机科学学士学位。

他的个人研究曾获得了谷歌自然语言处理博士奖学金(2023 年),以及 OpenAI Superalignment Fast Grants(2024 年)的奖励。

孙之清本人对机器学习和人工智能领的研究感兴趣,并且最近的研究主要集中在基础模型的可扩展对齐上。

百万大奖

关于这次参赛整体情况,共有 1401 个参与者,参与的团队有 1161 个,最终提交模型结果有 1831 份。



这次大赛将最终根据排名,分别给出不同的奖励:

进步奖(Progress Prize):$1,048,576

排名前列的团队将获得以下奖金:

第一名:$131,072

第二名:$65,536

第三名:$32,768

第四名:$16,384

第五名:$8,192

如果前五名中的任一团队在公开和私有测试集上的得分都未能超过 Gemma 7B 的 3/50 基准,奖金将减少到原来的四分之一,具体数额如下:

第一名:$32,768

第二名:$16,384

第三名:$8,192

第四名:$4,096

第五名:$2,048

综合进步奖(Overall Progress Prize):将授予在公开及私有测试集上至少获得 47/50 分的最高排名团队。在为排名前五的团队颁发奖金后,总奖金的剩余部分将颁发给综合进步奖获得者。

如果本次比赛产生了获胜者,其奖金不低于 $794,624 。如果没有团队获得该奖,剩余的奖金将转入下一届比赛,采用相同的奖金分配方式。



另外,这次 AI|MO 大赛的顾问委员会包括两位菲尔兹奖得主陶哲轩(Terence Tao)和 Timothy Gowers ,还有 Dan Roberts 、Geoff Smith 和 Po-Shen Loh 。



参考资料: https://mathstodon.xyz/@tao https://x.com/JiaLi52524397/status/1808886880164880631

新智元

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-9-8 12:25 , Processed in 0.078125 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表