数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 265|回复: 0

图灵奖得主杨立昆最新专访:大模型很无趣

[复制链接]
发表于 2024-3-27 11:35 | 显示全部楼层 |阅读模式
图灵奖得主杨立昆最新专访:大模型很无趣

原创 卫剑钒 卫sir说 2024-03-15 07:25 北京

近日,Yann LeCun(杨立昆)来到 Lex Fridman 的播客,展开了一场 2 小时 47 分的对谈(2024 年 3 月 8 日发布),本文整理了他的主要观点。

Yann LeCun(1960 年 7 月 8 日 ~ ),法国计算机科学家,自取中文名杨立昆,任 Meta 首席人工智能科学家和纽约大学教授,他带领 Meta 的团队推出了开源大模型领域 Llama 2 。他于 2018 年与 Yoshua Bengio 、Geoffrey Hinton 一同获得图灵奖。

Lex Fridman(1983 年 8 月 15 日 ~ ),MIT 的 AI 研究员,播客主持人。自 2018 年起,采访了各个领域的知名人士。


Yann LeCun(杨立昆)

以下,本文简称 Yann LeCun 为 LeCun

本文所称大模型,主要是指大语言模型(通常是自回归的),简称 LLM

以下为 LeCun 的主要观点。

一、大模型缺乏智能的基本特征

智能实体有许多特征。理解物理世界、记忆和回忆事物、推理能力、计划能力,这是智能系统(包括人类和动物)的四个基本特征,LLM 无法做到这些,或者只能以非常原始的方式做到这些。

LLM 并不真正了解物理世界、LLM 并没有真正的持久记忆,LLM 无法真正推理,当然也无法计划。

LeCun 说:这并不是说 LLM 没有用,它们当然有用,但它们很无趣。

我们人类学到的大部分东西,都来自于我们对现实世界的观察和互动,而不是只是通过语言和书本。人类在生命最初几年学到的一切,以及动物一辈子学到的一切,都与语言无关。

而大语言模型 LLM 仅仅通过语言学习。

二、大模型只有语言直觉

LLM 的训练方式是:你拿来一段文本,删除文本中的一些单词(事实上是 token ,本文不区分),用空白代替它们,然后训练一个神经网络来预测缺失的单词(这是一种自监督方法)。LLM 基本上就是试图预测(本文所说的预测,可以理解为“生成”)文本中的下一个单词。它生成字典中所有可能单词的概率分布,然后选择概率较高(不一定是最高)的单词而已。产生一个单词后,然后将该单词移入输入中,这样系统就可以预测第二个单词了,这就是自回归 LLM 。

LLM 本能般地吐出一个又一个单词,它不会真的去思考答案。

LeCun 举例说:“这有点像你分心时的潜意识行为,你在做某事,完全集中注意力,然后有人来问你一个问题,你下意识地回答了他,你没有时间去思考答案。这就是 LLM 所做的事情。它其实不去认真思考它的答案。它之所以能够给出答案,是因为它积累了很多知识。”

三、视频学习的难处和途径

大模型这种自监督的训练方式(盖住单词让它猜),在语言方面非常有效,但对视频,这种方法行不通。

LeCun 说,我们用过很多种方法(如 GAN ,VAE ,正则化自动编码器等),试图以自监督方式训练神经网络,把视频遮盖或损坏一块,想让系统能够学会重建视频,基本上,这些方法都遭到了彻底的失败。

一种可能的替代方案是 JEPA(联合嵌入预测架构),在这种方法中,你不需要直接预测被损坏的像素,你只需要预测损失部分的抽象表示(比如特征向量乃至文本等)。

JEPA 系统在训练时,从视频输入中只提取那些相对容易预测的信息(而不是所有信息)。世界上有很多事情是我们无法预测的,例如,有一辆自动驾驶汽车在街道上行驶,周围可能有树,而且可能正在刮风。树上的叶子以一种半混乱、随机的方式摇动,你无法预测这些,也不想预测这些树叶。我们只保留其中可以建模和预测的内容,其余的则被编码器视为噪音并消除掉。这样不仅简单得多,而且还能让系统从本质上学习到世界的抽象表征。

人类也是这样工作的,不管我们描述什么,我们都是在特定的抽象层次上描述的,我们并不总是用量子场论来描述每一种自然现象,那是不可能的。所以,我们不必在像素层次进行学习和推理,这正是 JEPA 的理念所在。

大模型在语言方面之所以有效,是因为语言在某种程度上已经是抽象的,已经消除了很多不可预测的信息。

我们将图像抽象为语言或者类似语言这样的东西,然后利用语言的可预测性,把预测出来的东西解码为图像,就得到了我们想要的东西。这正是目前人们在视觉-语言模型上所做的。

“我们用语言作为拐杖,帮助我们从图像和视频中学习良好的表征。”

四、人工智能需要建立世界模型

LeCun 认为,对于 AI 而言,建立一个对世界有深刻理解的模型是至关重要的,但能通过预测单词来构建它吗?答案是否定的,因为语言没有足够的信息。

一个深刻的世界模型意味着要观察世界,了解世界为什么会以这样的方式运转。

大模型已经从人类提供的文本中学习了大约 10 的 13 次方这么多的 token ,但这并不够,我们还可以向它提供图像和视频(按照上面说的 JEPA 方法),让它更多了解世界。

我们的系统也许可以像孩子那样学习世界,孩子在一开始了解世界的时候,并没有太多的文字,很多东西主要是通过观察来学习的,甚至不需要互动。孩子仅通过观察就可以积累大量的知识,这是当前人工智能系统缺失的东西。

Yann LeCun 说,“Llama 在未来某个版本,会真正了解世界如何运作的,这可能是通过视频进行训练的,并会具备我所说的推理和规划能力。这需要多长时间?我不知道,也不能告诉你。”

“基于视频的世界模型训练,是很多人在做的事,包括 DeepMind 和 UC Berkeley 也在做这样的尝试,我打赌这些系统都是通过像 JEPA 这样的方法实现的,到时我们就知道了。”


Yann LeCun(杨立昆)

五、LLM 并没有用心推理

人类的推理可以分为两个系统:系统 1 和系统 2 ,系统 1 无需有意识思考就能完成任务,而系统 2 通过思考和计划完成任务。LLM 目前无法做到系统 2 级别的推理。

LLM 为什么看上去还不错?是因为它已经训练过足够多次,以至于可以无意识完成问题回答。比如你是一位有经验的驾驶员,你可以在不真正思考的情况下驾驶;你是一位非常有经验的国际象棋选手,你和一位没有经验的对手下棋,你基本也无需思考。这时你用的就是系统 1 ,你本能地做事,并不太用心,也不刻意。

如果你是与另一位有经验的选手对局,你就会用心思考,你会花时间考虑各种选择,你的表现会比下快棋时要好得多。这时你用的是系统 2 ,这正是 LLM 目前无法做到的。

LLM 的推理非常原始,生成每个 token 所需的计算量是恒定的。无论提问的问题多么复杂,LLM 都以同样的方式回答,所需的计算量仅仅和所生成的单词数量成比例。然而,人类的工作方式不同,面对复杂问题时,人类会花更多时间尝试解决和回答。

LeCun 介绍了一种基于能量的模型来实现系统 2 。这个模型会评估答案的质量,模型仍然使用一个巨大的神经网络,但能够将答案的好坏表示为一个数值,如果是个好答案,输出为零;如果答案很差,则输出一个较大的数。

这个模型要做的事,就是在可能的答案空间中搜索一个最小化该数字的答案。如果输出值比较大(答案不够好),系统就通过参数调整优化答案,仍然可以通过梯度下降、反向传播这些方法来优化(如果整个系统是可微的)。但注意,这里的优化发生在推理过程中,而不是训练过程中,这是在推理过程中改变参数!使用这种模型,对于越是困难的问题,推理时间可能就越长。

近期有很多人致力于让 AI 可以推理和规划,在未来几年中,将会有很多系统具备这种能力,它们与自回归式 LLM 会有很大不同。

六、AGI 和家用机器人还要多久?

LeCun 说,“在过去的十几年,我一直听到有人声称 AGI(通用人工智能)指日可待,但他们都错了。”

我们会有那种通过视频就能学习世界运作方式的系统吗?我们能否做出一个内含大量关联记忆的系统,使得大模型能回忆起什么东西吗?我们能拥有一个可以推理和规划的系统吗?

会有的,但让所有这些东西协同工作,我们至少需要十年甚至更长时间,因为有很多问题我们现在还没有看到,还没有遇到。

未来十年,人型机器人领域将非常有趣,
但家用机器人不会很快到来。主要问题还是莫拉维克悖论。

莫拉维克悖论是莫拉维克(Moravec)等人在上世纪 80 年代所发现和阐释的:要让 AI 如成人般地下棋、解数学题是相对容易的,但是要让 AI 有如 4 岁小孩般感知和行动,却是相当困难的。正如史迪芬·平克所说:“困难的问题是易解的,简单的问题是难解的”。

10 岁的孩子可以学会清理餐桌和装满洗碗机,17 岁孩子可以通过 20 小时的训练学会驾驶,但我们现有的 AI 做不到,我们到底错过了什么?

波士顿动力的机器人看上去很酷,但它背后是大量手工制作的动态模型和事先的精心策划,他们造不出家用机器人。

LeCun 认为,在AI能够通过自监督训练而拥有世界模型之前,我们不会在家用机器人方面取得重大进展。

七、AGI 会消灭人类吗?

LeCun说,“人工智能末日论者想象了各种灾难场景,设想人工智能如何逃脱人类控制,并几乎杀死我们所有人,这依赖于一大堆假设,而这些假设大多是错误的。”

首先,AGI 并不像科幻小说设想的那样突然被发明出来,人类拥有 AGI 是一个渐进的过程,我们先会拥有一个像猫一样聪明的系统,在让它们变得更聪明的同时,我们也会在它们身上设置一些防护栏,让它们表现得更加正常。

其次,会有很多人做这样的事(给 AI 装防护栏),有一些人将成功制造出可控的、安全的有防护栏的 AI ,如果有些 AI 变成坏蛋(rogue),我们可以使用安全的系统来对抗它们。所以,我的聪明 AI 警察将对抗你的 AI 坏蛋,不可能突然出来一个 AI 坏蛋,就能杀死我们所有人。

最后,那种认为只要有智能就必然想控制世界的观点,完全是错误的,谁说聪明人就一定想掌权?人工智能没有统治的欲望,因为统治的欲望必须被硬编码到智能系统中。

作者:卫剑钒

时间:2024.3.14

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-4-27 17:55 , Processed in 0.080078 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表