|
华人丁林葳因窃取 Google AI 技术在美被捕,工程师之耻
原创 任易 任易 2024-03-10 23:07 江苏
美国司法部在 2024 年 3 月 5 日起诉了 39 岁的 Google 工程师、至算科技 CEO 、北京融数联智 CTO 丁林葳,这个消息在 3 月 8 日被爆出来之后,各大西方主流媒体纷纷报道,看起来是想洗脑一波消息,中国依靠「窃取 AI 知识产权」才获得的大模型技术。
起诉书链接在这里:公共事务办公室|居住在加州的中国公民因窃取谷歌人工智能相关商业机密而被捕 美国司法部 [1]
这个事情的后果就比较严重了,标准的「前人砍树,后人吃土」。相信连续几桩盗窃知识产权的案子判下来,美国高科技公司对于招聘华人留学生都会更加谨慎,而优秀的华人留学生留美发展的天花板也将越来越低,更难以接触到公司核心业务,自然也没有了上升空间
这个故事的核心,还是「莫装逼,装逼遭雷劈」。尽管故事很好笑,但是我们能从中学到很多关键要点,帮自己规避未来的巨坑。
剧情很简单,我的一个同龄人,85 年出生的丁林葳,2010 年在大连理工本科毕业,这个算是大器晚成了,因为我比他大两岁,但是 2008 年已经硕士毕业了。然后丁去了南加州大学念了硕士,之后留美发展。
幸运的是他在 2019 年进入了 Google ,而 2020 年就迎来了口罩周期,很多大型企业就开启了远程办公模式,大量员工居家办公,而且很多硅谷的公司对员工充分信任,管理宽松
然后丁大聪明就一边拿着 Google 的工资,一边在中国搞兼职了。2022 年 6 月 13 日,丁大聪明拿到了融数联智 CTO 的 Offer ,月薪 10 万;然后 2023 年 5 月 30 日,丁创立了上海至算科技有限公司,并在 23 年 11 月 24 日的投资者大会上进行路演。
直到 2023 年 12 月 25 日,丁才向 Google 提出了离职申请,离职日期是 2024 年 1 月 5 日。另外,丁大聪明在中国期间,还让同事在美国用他的工卡打卡上班。中美两头拿钱,丁大聪明的确 TMD 是个讲究人。
那他是怎么暴露的呢?起诉书上写的很清楚,丁从来没有告诉过 Google 他在中国已经搞了一家企业,也没有告诉 Google 他还在一家中国企业担任 CTO 。按理说你如果要瞒着,那就牢牢瞒住。
比如某大厂招聘的有竞业协议的员工,那些员工在企业通讯录上找不到,自己用的也是化名,手机号和微信也都换掉了,从来不在公司收任何快递,出入公司都带着口罩,唯恐被人抓住证据。
丁呢?在 Google 工作期间,还回国创业,参加路演,加入 MiraclePlus 孵化计划,到处宣传,非常高调。还宣传自己在 Google 参与大模型训练集群构建的经验,美化自己是「放眼全球,搭建过且能搭建万卡级算力平台的人全世界不足十人」其中之一,这给他牛掰坏了,甚至得到了陆奇的青睐。
另外,丁更沙波依的一点,是他在 23 年 12 月 2 日,把一部分 Google 的代码上传到了自己的 Google 云盘里去,然后还被 Google 发现并调查了。这货找了个理由,说上传这些代码,是要证明自己在 Google 工作。
更可耻的,是这货还在 2023 年 12 月 8 日,写了一个自我删除承诺书,Self-Deletion Affidavit (SDA),内容包括「我已永久删除和/或销毁我在 Google 工作期间获得的任何非公开信息的所有副本」
I have searched my personal possessions, including all devices, accounts, and documents in my custody or control for any non-public information originating from my job at Google . . . I have permanently deleted and/or destroyed all copies of such information . . . As a result, I no longer have access to such information outside the scope of my employment.
但是他并没有删除。这个事情的恶心点在于,他承诺删除了代码,但是他并没有这么做,甚至还是堂而皇之的把代码放在 Google 云盘里。
这简直就是给西方媒体送上了一个「华人窃取知识产权,并且不信守承诺」的口实,这货完全是精致的利己主义者,占自己的便宜,堵死了后来者的路。
等到丁正式跟 Google 提出离职(12.25),Google 在 12 月 29 日才发现他已经参加了 11 月份的路演,毕竟路演材料传得沸沸扬扬到处都是。然后 Google 启动了调查,锁定了他的电脑,检查了他的电脑操作记录、办公场所出入记录和录像。
丁的离职日期是 24 年 1 月 5 日,他早在 23 年 12 月 14 日(提离职之前)就买好了 24 年 1 月 7 日旧金山回北京的单程机票。结果在 24 年 1 月 6 日,FBI 根据搜查令搜查了丁的住所,拿到了丁的电子设备(估计包括电脑和手机);1 月 13 日,FBI 根据搜查令搜查了丁的 Google 账户。
FBI 调查的结论,丁大聪明窃取了「如何用 GPU 和 TPU 建立基础架构的方案、算力卡间通讯和执行任务的方案,利用数千张卡集群进行机器学习和 AI 训练的软件」,丢人丢到姥姥家了。
然后,中国工程师两国上班、盗窃 AI 机密、不遵守承诺书这个事儿,就彻底做实了。你说这货是不是有病???
大模型训练有什么困难的么?自从 Google 发布了 Transformer ,Meta 开源了 LLama ,整个开源社区就一直在群策众力地追赶 Chatgpt 的步伐,国内甚至搞出了百模大战,这有什么难的呢?
训练大模型的算力消耗是多少呢?我参与训练的大模型,1300 亿参数的,8 台 8 卡 A100 ,一天可以训练 12 亿 Tokens ,同样的训练代码扩展到 48 台 8 卡 H800 ,一天可以训练 140 亿 Tokens 。训练 2 万亿 Tokens 的语料,差不多 150 天也能完成了。
一般来说,一千张 GPU 已经足够深入研究和训练大模型了,搞万卡集群的目的又是什么呢?
万卡训练平台的确很难,但是难点在于并行计算么?难点明明在于国内买不到一万张 GPU 卡。现在国内的水货市场上,一套 8 卡 H100 计算模组,价格大约是 240 万,再配上机箱、电源、NVlink 网卡、CPU 、内存,最后的成本是 290 万。
万卡也就是 1250 台 H800 ,那 GPU 服务器总投资差不多是 36 亿,再考虑 25% 的网络成本,总投资差不多是 45 亿,这个钱阿里腾讯华为出得起,一般的国内厂家谁买得起?那丁这个技术不就是屠龙技么?
说实在的,Google 允许员工居家办公,并且允许员工的笔记本访问内网代码;丁最安全的窃取方式,难道不是利用 HDMI 线把电脑投屏出去,在另一台电脑上利用 OBS Studio 等视频采集软件,把屏幕上的代码录下来么?
有了录屏之后,丁难道不应该用另一台电脑,用屏幕 OCR 的方式,结合大模型,重新把代码写一遍,再加密保存到自己的私人 NAS 里么?为什么要用最愚蠢的方式,把文件直接下载并上传到 Google 云盘呢?
真的,太 WS 了,极其 WS 。肉身回国打工兼创业,同事代打卡拿 Google 工资,用最愚蠢的方式复制代码,还保存到云盘里,技术水平不怎么样,还往死里占便宜。结果自己进去了不说,还断了不少中国留学生的后路。
走 WS 的路,让后人无路可走。
最后跑个题,IT 工程师都应该有私人 NAS ,这是基操。
[1] 公共事务办公室|居住在加州的中国公民因窃取谷歌人工智能相关商业机密而被捕-美国司法部 : https://www.justice.gov/opa/pr/c ... gence-related-trade |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|