数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 304|回复: 0

用 AI 训练 AI ,可能越练越“傻”

[复制链接]
发表于 2024-7-27 11:06 | 显示全部楼层 |阅读模式
用 AI 训练 AI ,可能越练越“傻”

原创 周舒义、望乡 返朴 2024 年 07 月 27 日 08:03 北京

人类是 AI 的老师。如果让 AI 自立门户,“自己教自己”,效果会如何呢?目前来看,这可能行不通——一项新研究显示,如果没有人工干预,只用 AI 生成的数据来训练大模型,会使模型性能劣化、越练越“傻”。

训练数据是大语言模型(LLM)生成、推理、预测等能力的基础。尽管目前大语言模型使用的训练数据主要来自人类,但人力有时尽,训练数据储备是有限的。一项来自 Epoch AI Research 团队的研究预测,高质量的语言数据存量将在 2026 年消耗完毕,低质量的语言数据和图像数据存量将在 2050 年前后枯竭。届时,使用 AI 生成的数据来训练 AI 可能难以避免。

而新研究指出,如果在训练时不加分辨地使用 AI 生成的内容,会导致大模型迅速劣化,出现不可逆的缺陷,丢失真实数据分布的尾部(低概率部分),这被称为“模型崩溃(model collapse)”。分析显示,这种效应很可能具有普遍性,波及所有规模的大语言模型、变分自编码器(VAE)和高斯混合模型(GMM)。


AI 模型使用之前生成的数据进行训练,输出图像越来越扭曲。| M. Bohácek & H. Farid/arXiv (CC BY 4.0)

研究人员使用大语言模型创建类似维基百科词条的文本,然后用前代模型的输出内容来训练下代模型,如此反复迭代。随着 AI 生成信息(即合成数据,synthetic data)“污染”训练集,模型输出逐渐不知所云。当被要求写一段关于英国教堂塔楼的说明文本时,初始模型尚且中规中矩,第 9 代模型却在讨论野兔尾巴的多种颜色。

分析发现,导致“模型崩溃”的重要原因是,模型只能从训练数据中采样,这意味着原始数据中本就较少出现的低频词汇,在每次迭代后“再现”的概率每况愈下,而常见词汇重复出现的概率会逐渐上升。错误在迭代中被层层累积、放大,模型逐渐无法正确模拟真实世界的复杂性,最终导致“满纸荒唐言”。

不过,应对“模型崩溃”并非束手无策。研究发现,如果在模型微调过程中加入 10% 的真实数据,就能推迟崩溃到来。此前也有研究表明,如果模型能持续从真实世界积累数据,崩溃就不太可能发生。此外,可以利用数字水印技术,将合成数据与真实数据区分开来;在向模型投喂 AI 生成内容之前,也可由人类先行筛选过滤。

新研究揭示了一种“数据套娃”式的困境。在模型贪大求全的潮流之下,无数次滚雪球式的迭代训练,会逐渐稀释掉人类世界的情感浓度和行为逻辑。合成数据层层蒸馏,失却了源头和索引,也就必然抹消了真实的物理痕迹。机器包裹之下,数据洪流在语言迷宫里兜兜转转,逐渐逃逸出生命个体的范畴。在“乱码”中迷失的,又何止大语言模型呢?

相关论文: https://doi.org/10.1038%2Fs41586-024-07566-y

返朴

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-9-8 09:02 , Processed in 0.078125 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表