华人丁林葳因窃取 Google AI 技术在美被捕，工程师之耻

luyuanhong · 发表于 2024-3-19 23:50

华人丁林葳因窃取 Google AI 技术在美被捕，工程师之耻

原创任易任易 2024-03-10 23:07 江苏

美国司法部在 2024 年 3 月 5 日起诉了 39 岁的 Google 工程师、至算科技 CEO 、北京融数联智 CTO 丁林葳，这个消息在 3 月 8 日被爆出来之后，各大西方主流媒体纷纷报道，看起来是想洗脑一波消息，中国依靠「窃取 AI 知识产权」才获得的大模型技术。

起诉书链接在这里：公共事务办公室|居住在加州的中国公民因窃取谷歌人工智能相关商业机密而被捕美国司法部 [1]

这个事情的后果就比较严重了，标准的「前人砍树，后人吃土」。相信连续几桩盗窃知识产权的案子判下来，美国高科技公司对于招聘华人留学生都会更加谨慎，而优秀的华人留学生留美发展的天花板也将越来越低，更难以接触到公司核心业务，自然也没有了上升空间

这个故事的核心，还是「莫装逼，装逼遭雷劈」。尽管故事很好笑，但是我们能从中学到很多关键要点，帮自己规避未来的巨坑。

剧情很简单，我的一个同龄人，85 年出生的丁林葳，2010 年在大连理工本科毕业，这个算是大器晚成了，因为我比他大两岁，但是 2008 年已经硕士毕业了。然后丁去了南加州大学念了硕士，之后留美发展。

幸运的是他在 2019 年进入了 Google ，而 2020 年就迎来了口罩周期，很多大型企业就开启了远程办公模式，大量员工居家办公，而且很多硅谷的公司对员工充分信任，管理宽松

然后丁大聪明就一边拿着 Google 的工资，一边在中国搞兼职了。2022 年 6 月 13 日，丁大聪明拿到了融数联智 CTO 的 Offer ，月薪 10 万；然后 2023 年 5 月 30 日，丁创立了上海至算科技有限公司，并在 23 年 11 月 24 日的投资者大会上进行路演。

直到 2023 年 12 月 25 日，丁才向 Google 提出了离职申请，离职日期是 2024 年 1 月 5 日。另外，丁大聪明在中国期间，还让同事在美国用他的工卡打卡上班。中美两头拿钱，丁大聪明的确 TMD 是个讲究人。

那他是怎么暴露的呢？起诉书上写的很清楚，丁从来没有告诉过 Google 他在中国已经搞了一家企业，也没有告诉 Google 他还在一家中国企业担任 CTO 。按理说你如果要瞒着，那就牢牢瞒住。

比如某大厂招聘的有竞业协议的员工，那些员工在企业通讯录上找不到，自己用的也是化名，手机号和微信也都换掉了，从来不在公司收任何快递，出入公司都带着口罩，唯恐被人抓住证据。

丁呢？在 Google 工作期间，还回国创业，参加路演，加入 MiraclePlus 孵化计划，到处宣传，非常高调。还宣传自己在 Google 参与大模型训练集群构建的经验，美化自己是「放眼全球，搭建过且能搭建万卡级算力平台的人全世界不足十人」其中之一，这给他牛掰坏了，甚至得到了陆奇的青睐。

另外，丁更沙波依的一点，是他在 23 年 12 月 2 日，把一部分 Google 的代码上传到了自己的 Google 云盘里去，然后还被 Google 发现并调查了。这货找了个理由，说上传这些代码，是要证明自己在 Google 工作。

更可耻的，是这货还在 2023 年 12 月 8 日，写了一个自我删除承诺书，Self-Deletion Affidavit (SDA)，内容包括「我已永久删除和/或销毁我在 Google 工作期间获得的任何非公开信息的所有副本」

I have searched my personal possessions, including all devices, accounts, and documents in my custody or control for any non-public information originating from my job at Google . . . I have permanently deleted and/or destroyed all copies of such information . . . As a result, I no longer have access to such information outside the scope of my employment.

但是他并没有删除。这个事情的恶心点在于，他承诺删除了代码，但是他并没有这么做，甚至还是堂而皇之的把代码放在 Google 云盘里。

这简直就是给西方媒体送上了一个「华人窃取知识产权，并且不信守承诺」的口实，这货完全是精致的利己主义者，占自己的便宜，堵死了后来者的路。

等到丁正式跟 Google 提出离职（12.25），Google 在 12 月 29 日才发现他已经参加了 11 月份的路演，毕竟路演材料传得沸沸扬扬到处都是。然后 Google 启动了调查，锁定了他的电脑，检查了他的电脑操作记录、办公场所出入记录和录像。

丁的离职日期是 24 年 1 月 5 日，他早在 23 年 12 月 14 日（提离职之前）就买好了 24 年 1 月 7 日旧金山回北京的单程机票。结果在 24 年 1 月 6 日，FBI 根据搜查令搜查了丁的住所，拿到了丁的电子设备（估计包括电脑和手机）；1 月 13 日，FBI 根据搜查令搜查了丁的 Google 账户。

FBI 调查的结论，丁大聪明窃取了「如何用 GPU 和 TPU 建立基础架构的方案、算力卡间通讯和执行任务的方案，利用数千张卡集群进行机器学习和 AI 训练的软件」，丢人丢到姥姥家了。

然后，中国工程师两国上班、盗窃 AI 机密、不遵守承诺书这个事儿，就彻底做实了。你说这货是不是有病？？？

大模型训练有什么困难的么？自从 Google 发布了 Transformer ，Meta 开源了 LLama ，整个开源社区就一直在群策众力地追赶 Chatgpt 的步伐，国内甚至搞出了百模大战，这有什么难的呢？

训练大模型的算力消耗是多少呢？我参与训练的大模型，1300 亿参数的，8 台 8 卡 A100 ，一天可以训练 12 亿 Tokens ，同样的训练代码扩展到 48 台 8 卡 H800 ，一天可以训练 140 亿 Tokens 。训练 2 万亿 Tokens 的语料，差不多 150 天也能完成了。

一般来说，一千张 GPU 已经足够深入研究和训练大模型了，搞万卡集群的目的又是什么呢？

万卡训练平台的确很难，但是难点在于并行计算么？难点明明在于国内买不到一万张 GPU 卡。现在国内的水货市场上，一套 8 卡 H100 计算模组，价格大约是 240 万，再配上机箱、电源、NVlink 网卡、CPU 、内存，最后的成本是 290 万。

万卡也就是 1250 台 H800 ，那 GPU 服务器总投资差不多是 36 亿，再考虑 25% 的网络成本，总投资差不多是 45 亿，这个钱阿里腾讯华为出得起，一般的国内厂家谁买得起？那丁这个技术不就是屠龙技么？

说实在的，Google 允许员工居家办公，并且允许员工的笔记本访问内网代码；丁最安全的窃取方式，难道不是利用 HDMI 线把电脑投屏出去，在另一台电脑上利用 OBS Studio 等视频采集软件，把屏幕上的代码录下来么？

有了录屏之后，丁难道不应该用另一台电脑，用屏幕 OCR 的方式，结合大模型，重新把代码写一遍，再加密保存到自己的私人 NAS 里么？为什么要用最愚蠢的方式，把文件直接下载并上传到 Google 云盘呢？

真的，太 WS 了，极其 WS 。肉身回国打工兼创业，同事代打卡拿 Google 工资，用最愚蠢的方式复制代码，还保存到云盘里，技术水平不怎么样，还往死里占便宜。结果自己进去了不说，还断了不少中国留学生的后路。

走 WS 的路，让后人无路可走。

最后跑个题，IT 工程师都应该有私人 NAS ，这是基操。

[1] 公共事务办公室|居住在加州的中国公民因窃取谷歌人工智能相关商业机密而被捕-美国司法部 : https://www.justice.gov/opa/pr/c ... gence-related-trade

		自动登录	找回密码
密码			注册

华人丁林葳因窃取 Google AI 技术在美被捕，工程师之耻

本帖子中包含更多资源