九游·体育(NineGameSports)官方网站-数智体育价值引领者

特斯拉算力狂飙的背后:规模取胜与芯片自研-九游·体育科技集团
i1pcban.jpg i1pcban.jpg

新闻九游

特斯拉算力狂飙的背后:规模取胜与芯片自研

2024-07-31 

分享到

  位于美国得克萨斯州奥斯汀的特斯拉总部,一座先进的人工智能超级计算机即将建造完成,它将被用于特斯拉汽车自动驾驶模型训练。

  特斯拉近两年来在算力上的投入可谓大手笔。根据此前社交媒体的消息,今年特斯拉将投入100亿美元用于人工智能的训练和推理,其中仅用于采购英伟达芯片的预算就高达30至40亿美元。

  特斯拉算力快速增长的背后,有哪些技术和产业的规律值得我们探究,又有哪些企业的创新实践值得我们思考呢?

  近日,特斯拉发布2024年二季度财报,透露其人工智能训练算力已达35000 H100 GPU等效算力,预计到年底更是将飙升至约90000 H100 GPU等效算力。相比2023年底,同比增长约500%。

  通过以上数据我们可以看到,特斯拉云端算力在2022年之前增速较为平稳,而从2023年开始一路狂飙。

  Scaling Law(规模法则)是复杂科学研究的重要理论,主要描述的是系统中属性之间的相对增长关系,Scaling Law普遍存在于生命系统、城市及企业等各类复杂系统中。2020年,OpenAI的一篇论文将Scaling Law的概念引入人工智能领域。以OpenAI为代表的学者们归纳出了几条“公理”,强调规模(scale)是取胜之道。人工智能领域的Scaling Law可以概括地理解为,神经网络模型参数量越大,训练数据越多,模型的效果就会越好。

  特斯拉CEO埃隆·马斯克与OpenAI有着非常深的渊源,他对于规模的追逐也由来已久。

  早期的自动驾驶主要通过规则实现。随着近十多年深度学习的发展,自动驾驶的算法逐渐从规则演进到神经网络,带来了模型和数据规模的日益增长。

  自动驾驶的算法栈主要包括目标与障碍物、道路结构和决策规划。2015年左右,随着计算机视觉领域迁移学习的突破,目标与障碍物感知算法逐渐成熟。到2020年,感知和地图在大模型架构下逐渐融合,最具代表性的就是特斯拉基于Transformer的BEV(鸟瞰图)。近两年来,决策规划也逐渐从规则编九游体育科技码向神经网络转变,自动驾驶的端到端范式的引领者同样是特斯拉。

  不同于Waymo等企业通过自建车队来采集数据,特斯拉的数据采集依靠其交付给用户的数百万辆汽车。这使得其数据采集的效率相比前者有数量级的提升。不仅如此,特斯拉选择了不依赖激光雷达的技术路线,将自动驾驶硬件进行标准化,并在所有出厂车辆中预装,实现了量产车数据采集和数据格式标准化。

  2019年特斯拉提出了“影子模式”(shadow mode)。所谓影子模式,是特斯拉的车端数据触发采集的方式,即自动驾驶软件运行在车辆后台,但不参与控车。每当自动驾驶软件决策与人类驾驶员不一致时,汽车就会采集一段约60秒的密集传感器数据日志,包括摄像头的视频片段和IMU等车辆传感器数据,并将其发送回云端服务器。这些数据都有很好的标记和记录,方便对模型进行持续的训练和迭代。

  如今看来,选择视觉而非激光雷达,保证了特斯拉汽车的量产进度和硬件成本可控,而影子模式则为自动驾驶决策规划模块的神经网络化做好了准备,才有当前火热的端到端自动驾驶。通过数百万辆量产车源源不断的数据源,特斯拉积累的数据——不论是规模、分布还是质量——正在不断地拉开与竞争对手的距离。

  通过持续的积累,特斯拉自动驾驶模型参数、训练数据及算力的规模和增速都实现了业界领先。模型方面,云端大模型参数规模据称已达10亿量级,刚刚发布的FSD V12.5的参数量将是V12.4的5倍。数据方面,FSD累计行驶里程已超过10亿英里,采集视频片段数量达到千万量级。车端算力方面,HW4.0算力达数百TOPS,而即将于明年推出的新一代计算平台AI5,算力将是HW4.0的10倍。

  结合特斯拉FSD的近期表现和提升速度,Scaling Law似乎又得到了一次完美印证。

  2023年底,特斯拉开始使用“H100 GPU等效算力”(H100 GPU equivalents)来描述其算力。显然,特斯拉的云端算力芯片已然不是全部来自于H100芯片。早在2021年8月,特斯拉就发布了超级计算机Dojo和云端计算芯片D1。Dojo的名字来源于日语“道场”,意为练习冥想术或者武术的练功房,借指人工智能模型训练。一个Dojo集群ExaPOD包含3000个D1芯片,算力达1.1 EFLOPS。

  大模型引发了对训练芯片需求的爆发。英伟达相关芯片产品供不应求,供货周期经常长达数月。在这种情况下,芯片的供货就成为企业业务发展的不确定因素。对于特斯拉等具备芯片研发实力的科技企业,自研芯片能够更好保障企业算力供给。

  云端计算芯片价格不便宜。英伟达H100芯片目录价约为22000美元,实际成交价可能更高。科技公司动辄数万块的芯片采购需求,也给其带来了巨大的成本压力。科技公司自研芯片,虽然需要投入一定研发成本,但也可以定制芯片规格和减少供应环节。当芯片使用量达到一定规模,边际成本将越来越低,有可能实现总体算力成本的下降。

  芯片的产品定义是一门学问。企业用户对芯片都有各自的需求,但芯片厂商显然不可能为每个企业用户定制芯片,而是需要从功能、性能、场景等多个维度进行权衡。相对于供应商提供的标准芯片产品,自研芯片能够很大程度上实现定制,有利于企业实现业务方案的差异化,并在技术体系、研发进度等方面,能够更好地满足企业需求。

  特斯拉的云端芯片专门针对自动驾驶量身打造,这意味着可以牺牲一部分通用性和灵活性,从而获得性能和成本方面的优势。根据特斯拉2022年公布的数据,云端计算芯片D1在自动标注、占用网络等自动驾驶任务上,相比英伟达同期主力芯片A100,实现了数倍的性能提升。

  特斯拉车端计算芯片启动自研的时间要更早。相比云端芯片,车端芯片门槛较低,与业务之间的协同更为紧密。特斯拉早期的自动驾驶硬件曾经使用过Mobileye和英伟达的芯片。HW1.0采用了Mobileye EyeQ3芯片,HW2.0基于英伟达Drive PX2计算平台。2016年,特斯拉引进了芯片设计大师吉姆·凯勒(J九游体育科技im Keller),开启了芯片自研之路。2019年4月,被马斯克称为“FSD Computer”的HW3.0正式发布,标志着特斯拉自动驾驶硬件完全基于自研芯片。

  汽车正逐步走向智能化。基于芯片的软硬件平台将成为未来汽车核心技术底座。企业通过自研芯片,有可能在产业生态中占据更加核心的位置。

  计算芯片要充分发挥其性能,离不开上层软件栈和生态。Dojo软件栈上层基于深度学习主流框架PyTorch,底层基于Dojo驱动,中间使用Dojo编译器和LLVM形成编译层,这使得特斯拉能够更好的利用LLVM上已有的各种编译生态进行编译优化。

  特斯拉等科技企业,本身拥有相对充足可靠的芯片供应,仍然选择自研芯片。对于我国汽车产业而言,由于种种原因,自研芯片可能更为重要和紧迫。对于企业来说,芯片究竟是自研,还是采用成熟的供应商产品,需要结合以上多个维度进行通盘考虑、慎重决策。毕竟,自研芯片不是目的,发展业务才是第一位的。

  特斯拉算力狂飙的背后,是人工智能深度学习在自动驾驶领域的不断攻城略地,是Scaling Law下自动驾驶越来越依赖于数据和算力,是特斯拉对自动驾驶的信仰和规模扩张的坚持。自动驾驶的实现任重道远。Scaling Law以及端到端神经网络是否是通往更高等级自动驾驶的有效路径,仍然需要我们进一步探究。而特斯拉以规模为先的发展策略和对底层芯片的力争自主,都值得我们深入思考和借鉴。