|
楼主 |
发表于 2023-9-1 13:06
|
显示全部楼层
新鲜的谜题
2019 年,LLM 闪亮登场之前,Chollet 已在网上发布了一套给 AI 系统用的全新逻辑测试,叫做抽象与推理语料库(ARC)[6]。解答者需要看过几组一个网格图变成另一个网格图的示例,然后说明下一组图会变成什么样,来证明他们已经掌握了规则。“设计这套题目是为了测试适应没见过的东西的能力。” Chollet 说,她认为这正是智力的本质。
ARC 捕捉到了“人类智力的特征”,Lake 说——即对日常知识进行抽象,并应用到此前未见过的问题上的能力。
Chollet 于 2020 年组织了一届 ARC 比赛,那时 LLM 还没火起来。获胜的机器人是专门训练来解 ARC 类题目的,不过不像 LLM 有广泛的应用场景。它只做对了 21% 的题目。与之对照的是人类能做出 80% 的 ARC 题目[7]。一些团队现在在使用 ARC 来测试 LLM 的能力;每一个都比人类差远了。
Mitchell 和她的同事们新做了一套受 ARC 启发的题目(叫做 ConceptARC),但有两个关键不同[1]。ConceptARC 测试更简单:Mitchell 的团队希望保证这套题目能捕捉到机器能力上的微小进步。另一个不同点是团队选择了特定的概念来测试,然后为每个概念设计了一组同一主题变体的谜题。
例如,为了测试“相同”这个概念,一个谜题要求解答者保留所有形状相同的物体;另一个题目则要求保留沿着同一根轴排列的物体。设计目的就是减少 AI 系统没把握概念就猜对题目的可能性(见“击败机器的抽象思考测试”)。
低分说明什么
研究者们把 ConceptARC 的题出给了 GPT-4 和网上的 400 个人。人类平均在所有概念组里得到了 91 分(最高一组得了 97 分)。GPT-4 最高组得了 33 分,其他组都不到 30 分。
“我们证明了机器还远达不到接近人类的程度。” Mitchell 说,“它能解出里面一些问题就已经很了不起了,因为它从没专门训练过。”她补充说。
团队还测试了 Chollet 的比赛中获胜的那些机器人,它们不是像 LLM 那样的泛用系统,但专门设计来解 ARC 这样的视觉题目。总体上说,它们比 GPT-4 表现好,但比人类表现差,最好的一项得了 77 分,大多数不到 60 [1]。
但是,Bowman 说 GPT-4 不会做 ConceptARC 不能证明它缺乏抽象推理的能力。他说 ConceptARC 对 GPT-4 不利——不提别的,它可是个图形测试。“即使这些模型非常擅长这类推理,我觉得你也不能期待这组实验能成功。”他说。
测试的形式限制也给 GPT-4 加大了难度。公开发布的 LLM 只能接受文字输入,所以研究者们给 GPT-4 输入了一个数组来表达图像(比如空白像素可能是 0 ,不同颜色块就是不同的数字)。与之相比,人类参加者直接就能看到图片。“我们在拿只有语言的系统和人类比,人类的视觉系统可高级多了。” Mitchell 说,“所以这个比较可能不完全公平。”
Open AI 给 GPT-4 开发了一套“多模式”版本,可以接受图像输入。Mitchell 和她的团队在等这个版本可以公开使用,这样他们就能用 ConceptARC 来测试一遍了。不过她觉得多模式的 GPT-4 也不会进步很多。“我不认为这些系统会有和人类一样的抽象概念和推理能力。”她说。
麻省理工大学的计算认知科学家 Sam Acquaviva 也同意。“不然我会大吃一惊。”他说。他提到有另外一支团队使用一套叫 1D-ARC 的题目测试了 GPT-4 ,其中模式都局限在了一维数列上,而不是二维的网格图[8]。这就能消除一部分不公平了,他说。虽然 GPT-4 的表现有所改进,但还是不足以证明 LLM 可以稳定地理解底层规则并进行推理,Acquaviva 说。
推理的证据
Bowman 提到了其他实验,他认为那些实验综合起来理解,能说明 LLM 获得了至少是初步的抽象推理能力。一个例子是哈佛大学的计算机科学家 Kenneth Li 和他的同事做的,使用了一套电子版的黑白棋。两个玩家轮流在 8×8 的棋盘上下黑棋和白棋。他们的目的是检测LLM是不是基于记忆中语言的表面统计规律来生成文字,还是有可能和人类一样构建了对世界的内蕴解释。
当他们使用玩家的棋谱训练 LLM 之后,模型变得更擅长生成合法的走子位置了。研究者们认为他们有了证据证明 LLM 有在记录盘面的状态——并且它是用这个表征来走下一步,而不仅仅是根据文字[9]。
Bowman 承认,LLM 的推理能力总体上说还是“有好有坏”,比人类受限很多——但他说推理能力已经存在了,并且随着模型大小而增长,因此他认为未来的 LLM 可能会更好。“这些系统明显还远没有我们想要的那么可靠或泛用,也可能有些抽象推理能力它们还完全不行。”他说,“但我觉得基础能力已经存在了。”
Bowman 、Mitchell 和其他人都同意的一件事是,测试 LLM 的抽象推理能力和其他智力形式的最好方案还是个未解决的空白。斯坦福大学的认知科学家 Michael Frank 认为不会有一套全方位的测试来替代图灵测试。“没有什么界河,没有单线图。”他说。相反,研究者们会需要很多测试来量化不同系统的强项和弱项。“这些 AI 很棒,但它们出问题的情况也非常非常多,系统性地检验绝对重要。”他说。
Wortham 建议任何想要尝试理解 AI 系统的人:避开“拟人诅咒”。“我们会把所有看起来有智力的东西拟人化。”他说。
“这是个诅咒,因为我们没法想象任何表现出目的导向行为的东西,只能拿人类当模板。”他说,“而我们会想象说,它们这么做是因为它们在底层思考上和我们一样。”
参考文献
[1] Moskvichev, A., Odouard, V. V. & Mitchell, M. Preprint at https://arxiv.org/abs/2305.07141 (2023).
[2] Turing, A. M. Mind LIX, 433–460 (1950).
[3] Jann AI , D., Meron, A., Lenz, B., Levine, Y. & Shoham, Y. Preprint at https://arxiv.org/abs/2305.20010 (2023).
[4] Open AI . Preprint at https://arxiv.org/abs/2303.08774 (2023).
[5] Bubeck, S. et al. Preprint at https://arxiv.org/abs/2303.12712 (2023).
[6] Chollet, F. Preprint at https://arxiv.org/abs/1911.01547 (2019).
[7] Johnson, A., Vong, W. K., Lake, B. M. & Gureckis, T. M. Preprint at https://arxiv.org/abs/2103.05823 (2021).
[8] Xu, Y., Li, W., Vaezipoor, P., Sanner. S. & Khalil, E. B. Preprint at https://arxiv.org/abs/2305.18354 (2023).
[9] Li, K. et al. Proc. Eleventh Int. Conf. Learn. Represent. https://openreview.net/forum?id=DeG07_TcZvT (2023).
本文转载自微信公众号“Nature Portfolio”,原文以 ChatGPT broke the Turing test — the race is on for new ways to assess AI 标题发表在 2023 年 7 月 25 日《自然》的新闻特写版块上。
英文原文: https://www.nature.com/articles/ ... AP_CNCM_002E6_allnf
返朴 2023-08-31 08:15 发表于上海 |
|