英伟达最强AI芯片曝重大设计缺陷中国版意外曝光!

日期: 2024-08-11 作者: 乐鱼app官网下载登录

  而现在,由于Blackwell GPU的设计缺陷,英伟达发货时间不得不推迟3个月,甚至更长的时间。

  Information独家报道称,最近几周,台积电工程师在为Blackwell芯片量产做准备时,才发现了缺陷。

  就在上周,老黄曾在SIGGRAPH上表示,英伟达已经向世界各地客户递交Blackwell工程样本。

  最新芯片推迟发货,意味着对于Meta、谷歌、微软等科技大厂来说,AI训练进程将会受到影响。

  在SemiAnalysis最新报告中,同样详细阐述了英伟达面临的技术挑战,推迟发货后的时间表,以及新系统MGX GB200A Ultra NVL36。

  5月,他曾公开表示,「计划在今年晚些时候,将大量出货Blackwell架构的芯片」。

  甚至,他还在财报会议上信心满满地表示,「今年我们会看到大量的Blackwell收入」。

  也就是说,Blackwell系列GPU,对于英伟达未来的销量和收入起着决定性作用。

  却没想到,设计缺陷直接影响了英伟达在今年下半年,以及明年上半年的生产目标。

  参与Blackwell芯片设计内部的人偷偷表示,英伟达正与台积电来测试芯片生产运行,来尽快解决难题。

  不过目前,英伟达的弥补措施是,继续延长Hopper系列芯片发货量,尽可能按计划在今年下半年加速生产Blackwell GPU。

  为了训AI,Meta、微软、谷歌等金主爸爸们,不惜重金斥资数百亿美元,订购了大量Blackwell芯片。

  谷歌已经订购了超40万个GB200,外加服务器硬件,谷歌订单成本远超100亿美元。

  今年,这家巨头已经在芯片和别的设备财产上,支出预计约为500亿美元,比去年增长了超过50%。

  另外,Meta也下了至少100亿美元的订单,而微软订单规模近几周增加了20%。

  知情的人偷偷表示,微软计划到2025年第一季度,要为OpenAI准备5.5万-6.5万个GB200芯片。

  而且,微软管理层原计划在25年1月,向OpenAI提供Blackwell驱动的服务器。

  因为大模型的训练还需要多倍的算力,从而可以更加好回答复杂问题、自动化多步任务,生成更逼真的视频。

  台积电最初计划在第三季度,开始量产Blackwell芯片,并从第四季度开始大规模向英伟达客户发货。

  内部的人偷偷表示,Blackwell芯片现在预计将在第四季度进入量产阶段,假如没有进一步的问题,服务器将在随后的季度内大规模出货。

  其实,早在2020年,英伟达旗舰GPU早期版本,也因为一些问题不得不延迟。

  但当时英伟达所面临的风险较低,客户们并不急于订单到货,而且从数据中心中实现盈利也相对较少。

  芯片设计师通常会与台积电晶圆厂合作,进行多次生产测试和模拟,以确定保证产品的可行性和顺利的制作的完整过程,然后才会接受客户的大量订单。

  对于台积电来说,停止生产线,并重新设计一个即将量产的产品,也并不多见。他们专为GB200量产做了充分准备,包括分配专门的机器产能。

  设计缺陷还将影响英伟达NVLink服务器机架的生产和交付,因为负责服务器的公司一定要等待新的芯片样品,才能最终确定服务器机架设计。

  作为Blackwell系列中技术最先进的芯片,英伟达在系统层面上对GB200做出了大胆的技术选择。

  这个72 GPU机架的功率密度达到了前所未有的每机架125kW。相比之下,数据中心大多数架只有12kW到20kW。

  如此复杂的系统,也导致了许多与电力传输问题、过热、水冷供应链增长、快速断开的水冷系统泄漏以及各种电路板复杂性问题相关的问题,并让一些供应商与设计师措手不及。

  Blackwell封装是第一个使用台积电的CoWoS-L技术进行大规模量产设计的封装。

  CoWoS-L需要用带有局部硅互连(LSI)和嵌入桥接芯片的RDL中介层,来桥接封装内各种计算和存储之间的通信。

  相比起目前采用的CoWoS-S技术,CoWoS-L要复杂得多,但它是未来。

  英伟达和台积电制定了一个非常激进的增长计划,每季度超过一百万颗芯片的目标。

  其中一个问题是将多个细间距凸点桥嵌入有机中介层和硅中介层中,有几率会使硅芯片、桥、有机中介层和基板之间的热膨胀系数(CTE)不匹配,导致翘曲。

  桥接芯片的布局需要非常高的精度,特别是涉及到2个主要计算芯片之间的桥接时,因为这些桥接对于支持10 TB/s的芯片间互连至关重要。

  据传,一个主要的设计问题与桥接芯片有关。同时,顶部几层全局布线金属层和芯片的凸点也要重新设计。这是导致多个月延迟的根本原因之一。

  过去几年中,台积电建立了大量的CoWoS-S产能,其中英伟达占了大部分份额。

  现在,随着英伟达迅速将需求转向CoWoS-L,台积电正在为CoWoS-L建造一个新的工厂AP6,并在AP3改造现有的CoWoS-S产能。

  为此,台积电需要改造旧的CoWoS-S产能,否则这些产能将被闲置,而CoWoS-L的上涨的速度将会更慢。而这个改造过程将使得增长变得很不均匀。

  结合这两个问题,台积电显然是无法按照英伟达的需求供应足够的Blackwell芯片。

  因此,英伟达几乎将所有产能都集中在GB200 NVL 36x2和NVL72机架规模系统上。并取消了搭载B100和B200的HGX计算模组。

  作为替代,英伟达将推出一款基于B102芯片并配有4层HBM显存的Blackwell GPU——B200A,用以满足中低端AI系统的需求。

  由于B102是一个单片计算芯片,因此英伟达不但可以将其封装在CoWoS-S上,而且还能让除台积电以外的其他供应商进行2.5D封装,如Amkor、ASE SPIL和三星。

  B200A将以700W和1000W的HGX形态出现,配备高达144GB的HBM3E显存和高达4 TB/s的带宽。有必要注意一下的是,这比H200的显存带宽要少。

  尽管如此,由于基础设施灵活性更好,MGX NVL36仍是许多下一代模型的理想选择。

  由于每个机架仅为40kW并可采用空气冷却,因此现有的数据中心运营商可以在不重新调整基础设施的情况下轻松部署MGX NVL36。

  但与HGX服务器不同的是,每个计算托盘的4个GPU将被细分为2个2-GPU板。每个2-GPU板则搭载了类似Bianca板的Mirror Mezz连接器。

  由于只有一层交换机连接36个GPU,因此仅需9个NVSwitch ASIC即可提供无阻塞网络。

  在后端网络上,由于每个计算托盘只有2个800G端口,因此它将使用2轨优化的行尾网络。

  不过,x86 CPU虽能提供更高的峰值性能,但功耗也会相应高出100W,从而极大增加了OEM的热管理挑战。

  当然,GB200A NVL36也有自己的卖点——每机架40kW的风冷系统。

  毕竟,很多客户并不能负担得起每机架约125 kW的GB200 NVL72(或总功耗超过130kW的36x2)所需的液冷和电力基础设施。

  相比之下,MGX B200A NVL36的TDP也是700W但机箱只有2U,空间相当受限。因此将需要一个水平扩展的阳台状散热片来增加散热片的表面积。

  除了需要更大的散热片外,风扇还需要出示比GB200 NVL72 / 36x2 2U计算托盘或HGX 8 GPU设计更强的气流。

  根据估计,在40kW机架中,15%到17%的总系统功率将用于内部机箱风扇。相比之下,HGX H100的风扇也只消耗总系统功率的6%到8%。

  由于需要大量的风扇功率来使 MGX GB200A NVL36 正常工作,这是一种效率极低的设计。

  然而,在经过广泛的工程分析之后,SemiAnalysis认为这样的产品并不可行,且不会上市。

  主要的修改在于NVSwitch托盘——英伟达没有将GB200每个托盘的2个NVSwitch减少到1个,而是尝试将其增加到4个ASIC交换机。

  显然,仅靠空气冷却功耗如此之高的庞然大物几乎是不可能的。(英伟达提出的是60kW,SemiAnalysis估算是70kW)

  这通常需要用后门热交换器,但这破坏了空气冷却机架架构的意义,因为仍然依赖于液冷供应链。此外,这种解决方案仍然需要大多数数据中心进行设施级别的改造,以便将冷却水输送到后门热交换器。

  另一个非常棘手的热问题是NVSwitch托盘将在1个1U机箱中包含4个28.8Tbit/s的ASIC交换机,需要近1500W的散热功率。

  单独来看,1U机箱实现1500W并不困难。但是,当考虑到从ASIC交换机到背板连接器的Ultrapass飞线会阻挡大量气流,冷却挑战就变得很大了。

  鉴于空气冷却的MGX NVL机架需要以极快的速度推向市场,英伟达试图在设计开始后6个月内就交付产品。然而,对于一个已经资源紧张的行业来说,设计新的交换托盘和供应链是十分艰难的。

  GB200A NVL64的另一个主体问题是每个机架有64个800G后端端口,但每个XDR Quantum-X800 Q3400交换机搭载的是72个800G下游端口。也就是说,每个交换机将有16个800G端口空置。

  在昂贵的后端交换机上有空置端口会显著影响网络性能和总拥有成本,因为交换机非常昂贵,尤其是像Quantum-X800这样高端口密度的模块化交换机。

  表面上看,64是一个很好的数字,因为它有2、4、8、16和32作为公因数,这对于不同的并行配置来说非常合适。

  例如,张量并行TP=8,专家并行EP=8,或TP=4,完全分片数据并行FSDP=16。

  不幸的是,由于硬件的不可靠性,英伟达建议每个NVL机架至少保留1个计算托盘作为备用,以便在维护时将GPU下线并作为热备份使用。

  如果每个机架没有至少1个计算托盘处于热备用状态,即使是1个GPU故障也会导致整个机架被迫停用相当长的时间。这类似于在8-GPU的HGX H100服务器上,只要有1个GPU故障,就会迫使所有8个H100停用。

  如果保留至少一个计算托盘作为热备份,意味着每个机架只有60个GPU可处理工作负载。这样一来,刚刚提到的那些优势就不复存在了。

  而NVL36×2或NVL72则搭载了72个GPU,也就是说,用户不但可以把2个计算托盘作为热备用,而且每个机架上仍有64个GPU可供使用。

  GB200A NVL36则可以有1个计算托盘作为热备用,此时有2、4、8、16作为并行方案的公因数。

  同时,Hopper的出货量将在2024年第四季度至2025年第一季度有所增加。

  这将影响所有的ODM和组件供应商,因为出货和收入计划将在2024年第三季度至2025年第二季度发生显著变化。

  *博客内容为网友个人发布,仅代表博主个人自己的观点,如有侵权请联系工作人员删除。