特斯拉升级AI芯片,AI5横空出世,HW4.0或已被放弃,算力无足轻重

文章正文
发布时间:2025-02-04 07:57

HW4.0使用第二代FSD芯片,在2023年初被greentheonly爆料揭秘,当时已经有成品。通常芯片从确定设计范围到正式上车需要3-4年的时间,特斯拉内部体系,应该会快一些,但至少也需要2-3年,推测其芯片完成设计大约在2020或2021年初,当时大模型不算火爆,transformer还未进入车圈,因此第二代FSD芯片大体上还是延续了第一代FSD芯片的设计,CPU从12核心增加到20核心,NPU增加到3个。最大升级是存储系统从LPDDR4升级至GDDR6,其存储系统是所有车载芯片中最先进的,带宽大约336GB/s或更高,比英伟达的Orin强1.5倍到2倍。

图片来源:网络


2021年9月,特斯拉推出数据中心训练用芯片Dojo D1,制造工艺复杂,良率低,成本高,大致在2023年中期才正式在台积电量产。2022年底,大模型开始流行,HW4.0的存储和算力均无法满足要求,特斯拉开始设计第三代FSD芯片。2023年5月,特斯拉CEO马斯克拜访三星,确定第三代FSD芯片还由三星代工。这就是今天的主角,HW5.0的关键芯片,马斯克称之为AI5。


图片来源:网络


马斯克拜会三星高层,马斯克选择三星一点也不意外,毕竟特斯拉的德克萨斯总部与三星的德州工厂距离很近,而台积电的亚利桑那州工厂投产日期一再延后,从2022年延后到2025年,并且台积电的价格远高于三星。


2024年6月中旬,马斯克在股东大会上爆料,HW 5.0 将被称为「AI 5」,预计会在大约 18 个月后,即2025 年12月左右推出。马斯克表示HW 5.0/AI 5的性能将是HW 4.0的10 倍,而HW 4.0 的性能已经比HW 3.0要高5倍了。同时,马斯克也提到 HW 5.0/AI 5的功耗会高出许多,达到800 W左右,而HW 3.0和HW 4.0的功耗约为200 W。针对旧款车型搭载的HW 3.0,马斯克表示未来将会退场不再生产,但特斯拉仍会针对HW 3.0进行优化,但也重申不打算提供HW 3.0升级到HW 4.0的服务。换句话说,HW4.0将被略过,未来会升级到HW5.0。


特斯拉正在建设的数据中心冷却系统

图片来源:网络


马斯克是在介绍特斯拉最新的数据中心时透露AI5芯片的,马斯克透露特斯拉将建设一个冷却功率高达500MW的冷却系统来满足飞速增长的数据中心功率,马斯克的原文是Sizing for ~130MW of power & cooling this year, but will increase to >500MW over next 18 months or so. Aiming for about half Tesla AI hardware, half Nvidia/other. Play to win or don’t play at all.


接下来马斯克在旗下社交平台“X”透露



接下来马斯克说了句让人摸不着头脑的话,数据中心除了英伟达的芯片,大部分会是HW4.0,少量Dojo。HW4.0显然不能用来做数据中心训练用,它和Dojo D1差距太大,笔者认为这里马斯克可能是口误,应该是HW5.0而非HW4.0,马斯克说的10倍性能提升,不会是算力提升10倍,大模型时代,存储远比算力重要,性能提升绝大部分都来自存储系统。


英伟达显卡与特斯拉芯片存储对比

整理:佐思汽研


英伟达的GPU架构实际变化微乎其微,性能的提升主要来自存储系统的提升,这也是为什么SK Hynix的HBM存储到2025年底的产品已经被全额买下的原因,AI芯片的竞争主要就是存储和制造工艺的竞争。


马斯克旗下xAI的开源大模型Grok-1拥有3140亿参数,貌似需要很高算力,至少需要8张英伟达H100显卡,实际上有人用苹果M2 ULTRA也能跑,M2 ULTRA的算力很低,其NPU算力仅为31.6TOPS,GPU的AI算力仅为108.8TOPS,但M2 ULTRA顶配拥有高达192GB/s的统一内存,内存带宽800GB/s,这里算力显得无足轻重。


图片来源:网络


考虑到马斯克曾经表示要将特斯拉打造成一个AI公司而非汽车公司,同时马斯克旗下的xAI也在打造大模型Grok,还有马斯克的人形机器人,加上马斯克把AI5和数据中心放在一起论述,马斯克所说AI5(HW5.0)也是训练芯片的大部分,大胆推测AI5是一个通用芯片,不仅能用于汽车,也能用于数据中心,也能用于机器人,既可以做大模型训练,也可以做推理。


AI5大概率延续Dojo D1的路线,但不再用台积电极其昂贵的InFO-level system-on-wafer工艺,而是三星的4纳米工艺。


图片来源:网络


特斯拉Dojo D1与IBM的Cell SPE架构如出一辙,这是一个类似CPU的架构,优点是效率高,速度快,灵活,无论算法体系怎么变化都能适应,缺点是规模密集度不如GPU,整体算力远低于GPU架构。


Dojo D1的算力仅为362 TFLOPS@BF16,如果是车载领域常用的INT8格式,算力应该是724TFLOPS,这个数值并不高,英伟达的GB200是10000 TFLOPS@BF16,是特斯拉的26倍。


META的第二代自研芯片架构

图片来源:网络


上图是2024年3月META的第二代自研芯片架构,和特斯拉Dojo D1类似架构,只不过PE数量远低于特斯拉,算力也不高,稀疏算力为708TOPS@INT8。不过内部存储带宽很高,PE之间是1TB/s,PE内部是2.7TB/s。该架构最大好处是可以不使用昂贵的HBM存储,成本比较低。当然,用HBM后性能会有显著提升。


考虑到第二代FSD就已经支持GDDR6存储,AI5可能会用HBM或GDDR7,用HBM就必须用2.5D或3D芯片制造工艺,典型代表就是台积电的CoWoS,目前基本上垄断AI芯片领域,因为专业AI训练芯片100%使用HBM存储,三星也有近似的I-CUBE工艺,但从未听说有人采用。考虑到HBM动辄数千美元的成本,特斯拉AI5可能还是用GDDR7。


几代GDDR的性能对比

整理:佐思汽研


基本上,第一代GDDR6的理论上限就是672GB/s,第三代GDDR6最高是900GB/s。特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量为32GB,型号为MT61M512M32KPA-14,频率1750MHz (LPDDR5最低也是3200MHz之上),是第一代GDDR6,速度较低,带宽估计是336GB/s到448GB/s之间。如果是336GB/s的话,恰巧是第一代FSD芯片的5倍。GDDR7典型带宽达1536GB/s,略微领先HBM2代,和HBM3E还有明显差距。


AI5可能会是两片Dojo D1的整合,单片Dojo D1的功率是400瓦,考虑到三星的工艺远不及台积电,即使4纳米工艺也大致相当台积电的7纳米工艺,两片恰好是800瓦功率,与马斯克所言一致,算力估计是1448TOPS@INT8。


以上虽然大部分基于估计,但有一点可以肯定,AI5的成本必然大幅度增加,因为芯片的制造成本主要取决于制造工艺,而7纳米以下,制造工艺的改进对成本的降低几乎没有任何作用,反而会提高成本,苹果、英伟达、英特尔、AMD、高通等厂家的产品上我们能看出,芯片的价格持续上升。


大模型时代,存储容量需要大幅度提升,HW5.0至少需要64GB的RAM,甚至是128GB。功耗的大幅增加也会增加很多成本,HW5.0系统硬件价格可能超过1万美元,甚至更多。


免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

首页
评论
分享
Top