Elon Musk 的超算中心是如何让 AI 对手们破防的

laogao @ 2024年11月15日 人工智能

@不是郑小康
The information 发了一篇《Elon Musk 的超算中心是如何让 AI 对手们破防的》讲 xAI 的 10 万 H100 集群如何鲶鱼加剧美国互联网巨头竞争的报道:

– xAI 这个超算集群建在美国田纳西州孟菲斯,xAI 的对手们对这个集群关注到什么程度,上个月有个直升机飞到这个集群上空盘旋了很久,直升机里的人拍了很多照片和视频。

The information 看到了拍摄的照片,知道了飞机上的人都是 xAI 对手的员工,这些人想了解下这个受到严密保护的集群究竟是怎么运营的,尤其是怎么做的散热。

– 这个集群有两点让对手震惊,一是规模,二是建成的速度。xAI 在第一批服务器进场的第 19 天就开始了下一代 Grok 模型的训练,第 122 天完成了 10 万块 H100 的打通 —— 这个规模比 Meta、微软这些科技巨头最大的超算集群大了几倍。

至于 122 天,英伟达 CEO 黄仁勋评论说,搭建一个 10 万卡的集群,通常需要 3 年时间进行规划和设计,再加 1 年时间投入使用。「毫无疑问,xAI 没人睡觉。据我所知,世界上只有一个人能做成这件事。Elon 在工程、建筑、大型系统和资源调度方面的认知是独一无二的。」

– 所以这个集群实际上是怎么推进的?今年年初,Elon 开始整合 xAI 所需的算力,xAI 早期是直接租用甲骨文的集群来训练 Grok 的第一个版本的。

今年 5 月,Elon 和 xAI 的潜在投资人视频,表达了寻求大规模融资以扩张算力的想法,他的命名是 ——Gigafactory of Compute,算力超级工厂,这里沿用了特斯拉工厂的命名方法。

Elon 和其他几位 xAI 联创告诉投资人,他的计划是把 10 万块 H100—— 这是当时市面上最高性能的训练芯片,连成一个集群。其中一张 PPT 上写着,xAI 会以「荒谬的速度」推进,并承诺「Elon 将亲自负责超算集群的按时交付」。

– 彼时 xAI 还没决定是自研还是加大和甲骨文的合作,不过答案很快就出炉了 —— 几周后几位甲骨文高管和 Elon 视频,Elon 说他希望集群在今年秋天上线。甲骨文的高管们说没戏。这里有一个基本 bug 是,甲骨文已经发现 xAI 这个选址的供电满足不了 10 万块 H100 跑起来。

– Elon 很快对甲骨文的反馈失望,决定 xAI 自己干。为了满足他的时间表,Elon 敦促孟菲斯的监管部门以创纪录的速度批准超算中心的建设 —— 孟菲斯照办了,因为他们需要 xAI 的投资。所以监管部门每天工作得更久。「一天里的任何时间都可能收到短信和电话,只有这样,才能拿出 xAI 期望的驱动力。」

– 6 月初,xAI 团队正式开干,这里原本是一个家电制造厂,所以他们先拆掉了旧有的设备,开始搭建电气、机械和管道,为超算服务器安装水冷系统。对于前面提到的供电,Elon 在等待监管批准新增 100 MW 供电的同时,引入了移动式天然气涡轮发电机,监管同意了该方案。

但这一方案立刻找到了环保组织的反对,他们说 xAI 的涡轮发电机污染了空气,一个微软云的高管评论说,考虑微软的气候目标,微软是不可能做这种方案的。

– 还有一些其他因素,例如微软的超算集群在上线前还需要各种冗长的稳定 / 隐私的合规测试,因为 xAI 是自用,并不对外出租,所以他们可以直接上线。

特斯拉天使投资人、前董事 Antonio Gracias 评论说,从第一性原理出发,重新思考搭建超算集群的过程,让这个过程更快、更好、成本更低。我在特斯拉、SpaceX 和 Elon 的其他公司看过这个剧本,都是几十名工程师的任务,去搭建最好、最有效的系统。

– 随着 xAI 这个集群进展的公开,今年夏天,亚马逊、微软和谷歌的高管纷纷给英伟达的高管打电话,询问 Elon 是如何实现这样到效率的。OpenAI CEO Sam Altman 看到这个集群的消息后和微软云的人发生了争执,Sam 担心 xAI 很快就会拥有比 OpenAI 更强的超算集群。

– 作为应对的一部分,OpenAI 在美国德州阿比林建设自己的 10 万卡集群,目标是明年上线。这一集群的合作伙伴之一是之前和 xAI 合作的甲骨文,这个集群 3 月开始讨论相关的设计,6 月正式动工。3 位知情人士透露,OpenAI 已经要求合作伙伴使用天然气涡轮发电机,以防在供电方面出现任何问题。