数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 470|回复: 0

“AI 做题家”来了,OpenAI 发布新一代大模型“o1”

[复制链接]
发表于 2024-9-15 11:57 | 显示全部楼层 |阅读模式
“AI 做题家”来了,OpenAI 发布新一代大模型“o1”

整理 | 周舒义、望乡

当地时间 9 月 12 日,人工智能巨头 OpenAI 正式发布新一代大模型“o1”,同时发布的还有速度更快、成本更低的版本 o1-mini 。与以往模型相比,o1 的特性更接近人类:可以花更长时间“思考”,通过深度推理解决更复杂的自然科学、编程和数学问题。OpenAI 表示,新模型标志着 AI 复杂推理能力的里程碑式进步,因此系列代号重置为“1”。o1 内部代号“Strawberry(草莓)”,独立于 GPT 模型系列,后者仍在开发过程中。

o1 的特别之处在于,它不再纯粹通过提示(prompting)完成思维链(CoT),而是将其视为一种“思考”手段,融入训练和推理过程。思维链是一种提示方法,主要思想是鼓励大模型解释其推理步骤,从而引导出更准确的结果。在训练阶段,o1 通过强化学习(RL)来更好地运用思维链“思考”,可以将复杂问题拆分为简单步骤、识别和纠正错误、尝试不同的方法。在推理阶段,模型会引入一个较长的内部思维链,花更长时间“思考”问题。OpenAI 表示,随着强化学习时间和思考时间延长,o1 性能会持续提高。这在传统模型性能标度律(Scaling laws)的模型参数量、数据集大小、计算量之外,开辟了新维度。



通过解读思维链,可以读懂模型“内心”,了解其思考过程。不过,思维链未经对齐,出于用户体验、保持竞争优势等因素,o1 并未向用户暴露原始思维链,仅展示模型生成的摘要。

o1 在数学、编程等推理要求较高的任务中表现优异,大幅领先于 GPT-4o 。在 2024 年美国数学邀请赛(AIME)中,o1 平均得分率达 74% ,GPT-4o 仅 12% 。如果采样 1000 次并加权投票,o1 能拿到 93% 的分数,跻身全美前 500 名。在另一项测试中,o1 和 GPT-4o 分别向不同领域的开放式问题提交匿名回答,由人类票选出他们更喜欢的答案。o1 在编程、数据分析和数学计算方面显著优于 GPT-4o ,在写作和编辑方面稍逊。



OpenAI 科学家 Noam Brown 表示,o1 并不完美,有时甚至会在简单问题上出错,许多人试图用类似的例子证明“大语言模型无法推理”,但 o1 在这方面取得了长足进步,并能走得更远。现在,o1 需要思考几秒钟;未来的版本不仅不快,反而会更慢——思考几小时、几天甚至几周。“推理成本会上升,但为了研发新的抗癌药物,你愿意付多少成本?为了突破性的电池?为了证明黎曼猜想?AI 可以不仅仅是聊天机器人。”

官方简介: https://openai.com/index/introducing-openai-o1-preview/

原创 周舒义、望乡 返朴 2024 年 09 月 15 日 08:27 北京

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-12-22 01:48 , Processed in 0.093750 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表