图灵奖得主杨立昆最新专访：大模型很无趣

luyuanhong · 发表于 2024-3-27 11:35

图灵奖得主杨立昆最新专访：大模型很无趣

原创卫剑钒卫sir说 2024-03-15 07:25 北京

近日，Yann LeCun（杨立昆）来到 Lex Fridman 的播客，展开了一场 2 小时 47 分的对谈（2024 年 3 月 8 日发布），本文整理了他的主要观点。

Yann LeCun（1960 年 7 月 8 日～），法国计算机科学家，自取中文名杨立昆，任 Meta 首席人工智能科学家和纽约大学教授，他带领 Meta 的团队推出了开源大模型领域 Llama 2 。他于 2018 年与 Yoshua Bengio 、Geoffrey Hinton 一同获得图灵奖。

Lex Fridman（1983 年 8 月 15 日～），MIT 的 AI 研究员，播客主持人。自 2018 年起，采访了各个领域的知名人士。

Yann LeCun（杨立昆）

以下，本文简称 Yann LeCun 为 LeCun 。

本文所称大模型，主要是指大语言模型（通常是自回归的），简称 LLM 。

以下为 LeCun 的主要观点。

一、大模型缺乏智能的基本特征

智能实体有许多特征。理解物理世界、记忆和回忆事物、推理能力、计划能力，这是智能系统（包括人类和动物）的四个基本特征，LLM 无法做到这些，或者只能以非常原始的方式做到这些。

LLM 并不真正了解物理世界、LLM 并没有真正的持久记忆，LLM 无法真正推理，当然也无法计划。

LeCun 说：这并不是说 LLM 没有用，它们当然有用，但它们很无趣。

我们人类学到的大部分东西，都来自于我们对现实世界的观察和互动，而不是只是通过语言和书本。人类在生命最初几年学到的一切，以及动物一辈子学到的一切，都与语言无关。

而大语言模型 LLM 仅仅通过语言学习。

二、大模型只有语言直觉

LLM 的训练方式是：你拿来一段文本，删除文本中的一些单词（事实上是 token ，本文不区分），用空白代替它们，然后训练一个神经网络来预测缺失的单词（这是一种自监督方法）。LLM 基本上就是试图预测（本文所说的预测，可以理解为“生成”）文本中的下一个单词。它生成字典中所有可能单词的概率分布，然后选择概率较高（不一定是最高）的单词而已。产生一个单词后，然后将该单词移入输入中，这样系统就可以预测第二个单词了，这就是自回归 LLM 。

LLM 本能般地吐出一个又一个单词，它不会真的去思考答案。

LeCun 举例说：“这有点像你分心时的潜意识行为，你在做某事，完全集中注意力，然后有人来问你一个问题，你下意识地回答了他，你没有时间去思考答案。这就是 LLM 所做的事情。它其实不去认真思考它的答案。它之所以能够给出答案，是因为它积累了很多知识。”

三、视频学习的难处和途径

大模型这种自监督的训练方式（盖住单词让它猜），在语言方面非常有效，但对视频，这种方法行不通。

LeCun 说，我们用过很多种方法（如 GAN ，VAE ，正则化自动编码器等），试图以自监督方式训练神经网络，把视频遮盖或损坏一块，想让系统能够学会重建视频，基本上，这些方法都遭到了彻底的失败。

一种可能的替代方案是 JEPA（联合嵌入预测架构），在这种方法中，你不需要直接预测被损坏的像素，你只需要预测损失部分的抽象表示（比如特征向量乃至文本等）。

JEPA 系统在训练时，从视频输入中只提取那些相对容易预测的信息（而不是所有信息）。世界上有很多事情是我们无法预测的，例如，有一辆自动驾驶汽车在街道上行驶，周围可能有树，而且可能正在刮风。树上的叶子以一种半混乱、随机的方式摇动，你无法预测这些，也不想预测这些树叶。我们只保留其中可以建模和预测的内容，其余的则被编码器视为噪音并消除掉。这样不仅简单得多，而且还能让系统从本质上学习到世界的抽象表征。

人类也是这样工作的，不管我们描述什么，我们都是在特定的抽象层次上描述的，我们并不总是用量子场论来描述每一种自然现象，那是不可能的。所以，我们不必在像素层次进行学习和推理，这正是 JEPA 的理念所在。

大模型在语言方面之所以有效，是因为语言在某种程度上已经是抽象的，已经消除了很多不可预测的信息。

我们将图像抽象为语言或者类似语言这样的东西，然后利用语言的可预测性，把预测出来的东西解码为图像，就得到了我们想要的东西。这正是目前人们在视觉-语言模型上所做的。

“我们用语言作为拐杖，帮助我们从图像和视频中学习良好的表征。”

四、人工智能需要建立世界模型

LeCun 认为，对于 AI 而言，建立一个对世界有深刻理解的模型是至关重要的，但能通过预测单词来构建它吗？答案是否定的，因为语言没有足够的信息。

一个深刻的世界模型意味着要观察世界，了解世界为什么会以这样的方式运转。

大模型已经从人类提供的文本中学习了大约 10 的 13 次方这么多的 token ，但这并不够，我们还可以向它提供图像和视频（按照上面说的 JEPA 方法），让它更多了解世界。

我们的系统也许可以像孩子那样学习世界，孩子在一开始了解世界的时候，并没有太多的文字，很多东西主要是通过观察来学习的，甚至不需要互动。孩子仅通过观察就可以积累大量的知识，这是当前人工智能系统缺失的东西。

Yann LeCun 说，“Llama 在未来某个版本，会真正了解世界如何运作的，这可能是通过视频进行训练的，并会具备我所说的推理和规划能力。这需要多长时间？我不知道，也不能告诉你。”

“基于视频的世界模型训练，是很多人在做的事，包括 DeepMind 和 UC Berkeley 也在做这样的尝试，我打赌这些系统都是通过像 JEPA 这样的方法实现的，到时我们就知道了。”

Yann LeCun（杨立昆）

五、LLM 并没有用心推理

人类的推理可以分为两个系统：系统 1 和系统 2 ，系统 1 无需有意识思考就能完成任务，而系统 2 通过思考和计划完成任务。LLM 目前无法做到系统 2 级别的推理。

LLM 为什么看上去还不错？是因为它已经训练过足够多次，以至于可以无意识完成问题回答。比如你是一位有经验的驾驶员，你可以在不真正思考的情况下驾驶；你是一位非常有经验的国际象棋选手，你和一位没有经验的对手下棋，你基本也无需思考。这时你用的就是系统 1 ，你本能地做事，并不太用心，也不刻意。

如果你是与另一位有经验的选手对局，你就会用心思考，你会花时间考虑各种选择，你的表现会比下快棋时要好得多。这时你用的是系统 2 ，这正是 LLM 目前无法做到的。

LLM 的推理非常原始，生成每个 token 所需的计算量是恒定的。无论提问的问题多么复杂，LLM 都以同样的方式回答，所需的计算量仅仅和所生成的单词数量成比例。然而，人类的工作方式不同，面对复杂问题时，人类会花更多时间尝试解决和回答。

LeCun 介绍了一种基于能量的模型来实现系统 2 。这个模型会评估答案的质量，模型仍然使用一个巨大的神经网络，但能够将答案的好坏表示为一个数值，如果是个好答案，输出为零；如果答案很差，则输出一个较大的数。

这个模型要做的事，就是在可能的答案空间中搜索一个最小化该数字的答案。如果输出值比较大（答案不够好），系统就通过参数调整优化答案，仍然可以通过梯度下降、反向传播这些方法来优化（如果整个系统是可微的）。但注意，这里的优化发生在推理过程中，而不是训练过程中，这是在推理过程中改变参数！使用这种模型，对于越是困难的问题，推理时间可能就越长。

近期有很多人致力于让 AI 可以推理和规划，在未来几年中，将会有很多系统具备这种能力，它们与自回归式 LLM 会有很大不同。

六、AGI 和家用机器人还要多久？

LeCun 说，“在过去的十几年，我一直听到有人声称 AGI（通用人工智能）指日可待，但他们都错了。”

我们会有那种通过视频就能学习世界运作方式的系统吗？我们能否做出一个内含大量关联记忆的系统，使得大模型能回忆起什么东西吗？我们能拥有一个可以推理和规划的系统吗？

会有的，但让所有这些东西协同工作，我们至少需要十年甚至更长时间，因为有很多问题我们现在还没有看到，还没有遇到。

未来十年，人型机器人领域将非常有趣，但家用机器人不会很快到来。主要问题还是莫拉维克悖论。

莫拉维克悖论是莫拉维克（Moravec）等人在上世纪 80 年代所发现和阐释的：要让 AI 如成人般地下棋、解数学题是相对容易的，但是要让 AI 有如 4 岁小孩般感知和行动，却是相当困难的。正如史迪芬·平克所说：“困难的问题是易解的，简单的问题是难解的”。

10 岁的孩子可以学会清理餐桌和装满洗碗机，17 岁孩子可以通过 20 小时的训练学会驾驶，但我们现有的 AI 做不到，我们到底错过了什么？

波士顿动力的机器人看上去很酷，但它背后是大量手工制作的动态模型和事先的精心策划，他们造不出家用机器人。

LeCun 认为，在AI能够通过自监督训练而拥有世界模型之前，我们不会在家用机器人方面取得重大进展。

七、AGI 会消灭人类吗？

LeCun说，“人工智能末日论者想象了各种灾难场景，设想人工智能如何逃脱人类控制，并几乎杀死我们所有人，这依赖于一大堆假设，而这些假设大多是错误的。”

首先，AGI 并不像科幻小说设想的那样突然被发明出来，人类拥有 AGI 是一个渐进的过程，我们先会拥有一个像猫一样聪明的系统，在让它们变得更聪明的同时，我们也会在它们身上设置一些防护栏，让它们表现得更加正常。

其次，会有很多人做这样的事（给 AI 装防护栏），有一些人将成功制造出可控的、安全的有防护栏的 AI ，如果有些 AI 变成坏蛋（rogue），我们可以使用安全的系统来对抗它们。所以，我的聪明 AI 警察将对抗你的 AI 坏蛋，不可能突然出来一个 AI 坏蛋，就能杀死我们所有人。

最后，那种认为只要有智能就必然想控制世界的观点，完全是错误的，谁说聪明人就一定想掌权？人工智能没有统治的欲望，因为统治的欲望必须被硬编码到智能系统中。

作者：卫剑钒

时间：2024.3.14

		自动登录	找回密码
密码			注册

图灵奖得主杨立昆最新专访：大模型很无趣

本帖子中包含更多资源