“AI 做题家”来了，OpenAI 发布新一代大模型“o1”

luyuanhong · 发表于 2024-9-15 11:57

“AI 做题家”来了，OpenAI 发布新一代大模型“o1”

整理 | 周舒义、望乡

当地时间 9 月 12 日，人工智能巨头 OpenAI 正式发布新一代大模型“o1”，同时发布的还有速度更快、成本更低的版本 o1-mini 。与以往模型相比，o1 的特性更接近人类：可以花更长时间“思考”，通过深度推理解决更复杂的自然科学、编程和数学问题。OpenAI 表示，新模型标志着 AI 复杂推理能力的里程碑式进步，因此系列代号重置为“1”。o1 内部代号“Strawberry（草莓）”，独立于 GPT 模型系列，后者仍在开发过程中。

o1 的特别之处在于，它不再纯粹通过提示（prompting）完成思维链（CoT），而是将其视为一种“思考”手段，融入训练和推理过程。思维链是一种提示方法，主要思想是鼓励大模型解释其推理步骤，从而引导出更准确的结果。在训练阶段，o1 通过强化学习（RL）来更好地运用思维链“思考”，可以将复杂问题拆分为简单步骤、识别和纠正错误、尝试不同的方法。在推理阶段，模型会引入一个较长的内部思维链，花更长时间“思考”问题。OpenAI 表示，随着强化学习时间和思考时间延长，o1 性能会持续提高。这在传统模型性能标度律（Scaling laws）的模型参数量、数据集大小、计算量之外，开辟了新维度。

通过解读思维链，可以读懂模型“内心”，了解其思考过程。不过，思维链未经对齐，出于用户体验、保持竞争优势等因素，o1 并未向用户暴露原始思维链，仅展示模型生成的摘要。

o1 在数学、编程等推理要求较高的任务中表现优异，大幅领先于 GPT-4o 。在 2024 年美国数学邀请赛（AIME）中，o1 平均得分率达 74% ，GPT-4o 仅 12% 。如果采样 1000 次并加权投票，o1 能拿到 93% 的分数，跻身全美前 500 名。在另一项测试中，o1 和 GPT-4o 分别向不同领域的开放式问题提交匿名回答，由人类票选出他们更喜欢的答案。o1 在编程、数据分析和数学计算方面显著优于 GPT-4o ，在写作和编辑方面稍逊。

OpenAI 科学家 Noam Brown 表示，o1 并不完美，有时甚至会在简单问题上出错，许多人试图用类似的例子证明“大语言模型无法推理”，但 o1 在这方面取得了长足进步，并能走得更远。现在，o1 需要思考几秒钟；未来的版本不仅不快，反而会更慢——思考几小时、几天甚至几周。“推理成本会上升，但为了研发新的抗癌药物，你愿意付多少成本？为了突破性的电池？为了证明黎曼猜想？AI 可以不仅仅是聊天机器人。”

官方简介： https://openai.com/index/introducing-openai-o1-preview/

原创周舒义、望乡返朴 2024 年 09 月 15 日 08:27 北京

		自动登录	找回密码
密码			注册

“AI 做题家”来了，OpenAI 发布新一代大模型“o1”

本帖子中包含更多资源