3 亿刀,特斯拉 1 万个 H100 集群上线!超算 Dojo 7 月已经开工,全力加速 L4 自动

文章正文
发布时间:2024-09-29 06:41

新智元 2023/8/29 14:17:26 责编:汪淼

【新智元导读】特斯拉 10000 块 H100 GPU 集群上线,加速 FSD V12 落地。拥有自家超算的和 H100 集群的特斯拉,正式入局算力军备竞赛!

根据特斯拉爆料人士 Sawyer Merritt 爆料,特斯拉将于美国时间本周一上线备受期待的,由 1 万片 H100 组成的超级计算机

这个 GPU 集群将用来训练包括特斯拉 FSD 自动驾驶系统在内的各种 AI 应用。

这个 GPU 集群由一万个英伟达 H100 GPU 组成,能提供 340 FP64 PFLOPS 的峰值算力,为 AI 提供 39.58 INT8 ExaFLOPS 的峰值算力

这个算力峰值超过了之前全世界排名第四的超算 Leonardo 所能提供的算力。

凭借这台超级计算机,特斯拉可以迅速训练并更新它的全自动驾驶(FSD)技术。

这个 H100 集群不仅让特斯拉相比其他汽车制造商更具竞争力,而且将使特斯拉拥有夸张的算力储备。

马老板上个月甚至发推称:「坦白说…… 如果英伟达能提供足够的 GPU,我们可能就不需要 Dojo。」

特斯拉的算力储备有什么用?

而且对于特斯拉来说,这个 H100 集群不单代表了无与伦比的算力,还使得拥有海量数据的特斯拉能将这些数据变现的能力。

特斯拉工程技术总监 Tim Zaman 发推称,特斯拉上线的 H100 集群,将被用于训练视频数据

特斯拉拥有的训练数据集可能是全世界最大的,热连接缓存(hot tier cache)大小超过了 200PB,这比大语言模型的数据规模要高几个数量级!

同时他还称,特斯拉是真正「物理上」拥有这些 GPU 集群和算力。很多其他的公司宣称自己「拥有」多大算力时,其实他们只是能「租到」这些算力。

而对于目前的特斯拉来说,上线 H100 集群的意义就在于能够极大地加快最新版 FSD V12 的上线速度。

马斯克在两个月之前称,最新版的 FSD V12 版本更新将不再是「测试版」的自动驾驶技术,暗示了这次更新可能真的能带来完全体的自动驾驶技术。

而就在前几天,马斯克自己开着特斯拉来了一场全网关注的 FSD V12 的演示直播。直播中,新版的 FSD V12 展示出了「丝滑的自动驾驶性能」和出色的驾乘体验。

FSD V12 背后的技术原理,就是将海量的优秀司机驾驶的实时视频,通过神经网络训练成一个全新的自动驾驶 AI 来驾驶汽车。

特斯拉上线这个 H100 集群后,将会大大加快 FSD V12 的训练速度,这也被上文中特斯拉工程总监的帖子所证实

马斯克在推特上称,V12 可能将在不到半年的时间内更新上线!

而除了特斯拉 FSD V12 之外,特斯拉的人形机器人 Optimus 也将从特斯拉储备的巨大算力中获益。

网友分析到,因为智能机器人的工作原理,本质上也是从视频信号中去理解周围的世界。这和自动驾驶的本质是一样的,只是形态和控制方式有区别。

特斯拉超算 Dojo 怎么样了?

Tesla 上线 H100 GPU 集群的同时,也在激活自己研发制造的超算 Dojo。下图是特斯拉内部对 Dojo 计算能力的预测。

2024 年 10 月,Dojo 的计算能力也有望达到 100 exaflops

在 2021 年的 AI Day 上,特斯拉第一次公布了自己超算 ——Dojo。

快两年时间过去了,在今年 7 月推特(现 X)科技爆料账户 Whole Mars Catalog 爆料 Dojo 已经正式开始工作了。

这一消息也得到了马斯克本人的点赞确认。

整个超算由这样的计算模块构成:

每个模块上有 25 个 Soc,模块之间通过高速宽带连接。

然后将模块用主机盒固定起来,所有的接口都集成在了系统托盘上。

然后将两个带有主机组件的系统托盘安装到一个 Dojo 机柜中。

顶部的图例展示的是每个 Soc 的负载。

而现在,拥有 Dojo 和 1 万块 H100 集群的 Tesla,正式加入了算力军备竞赛当中

参考资料:

https://www.tomshardware.com/news/teslas-dollar300-million-ai-cluster-is-going-live-today

https://twitter.com/SawyerMerritt/status/1696011140508045660

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

首页
评论
分享
Top