日期: 2024-08-06 作者: 内存
在计算、网络和图形发展史上,Nvidia 有许多独特之处。但其中之一就是它目前手头有如此多的资金,而且由于其架构、工程和供应链,它在生成式AI市场处于领头羊,因此它可以随心所欲地实施它认为可能取得进展的任何路线 世纪,Nvidia 已经是一个非常成功的创新者,它实际上没有必要扩展到数据中心计算领域。但 HPC 研究人员将 Nvidia 带入了加速计算领域,然后 AI 研究人员利用 GPU 计算创造了一个全新的市场,这一个市场已经等待了四十年,希望以合理的价格实现大量计算,并与大量数据碰撞,真正让越来越像思考机器的东西成为现实。
,他当时在 AT&T 贝尔实验室创建了卷积神经网络。他们既没有数据,也没有计算能力来制造我们现在所知道的 AI。当时,Jensen Huang 是 LSI Logic 的董事,该公司生产存储芯片,后来成为 AMD 的 CPU 设计师。就在 Thinking Machines 在 20 世纪 90 年代初陷入困境(并最终破产)时,黄仁勋在圣何塞东侧的 Dennys 与 Chris Malachowsky 和Curtis Priem 会面,他们创立了 Nvidia。正是 Nvidia 看到了来自研究和超大规模社区的新兴人工智能机遇,并开始构建系统软件和底层大规模并行硬件,以实现自第一天起就一直是计算一部分的人工智能革命梦想。这一直是计算的最终状态,也是我们从始至终在走向的奇点——或者可能是两极。如果其他星球上有生命,那么生命总会进化到这样一个地步:那个世界拥有大规模毁灭性武器,并且总会创造出人工智能。而且很可能是在同一时间。在那一刻之后,那个世界对这两种技术的解决方法决定了它能否在大规模灭绝事件中幸存下来。
在台北举行的年度 Computex 贸易展上,Nvidia 的联合发起人兼首席执行官在主题演讲中再次试图将生成式人工智能革命(他称之为第二次工业革命)置于其背景中,并一窥人工智能的未来,尤其是 Nvidia 硬件的未来。我们获得了 GPU 和互连路线图的预览,据我们所知,这是直到最后一刻才列入计划的一部分,黄仁勋和他的主题演讲通常都是这样。
生成式人工智能的重点是规模,黄仁勋提醒我们这一点,并指出 2022 年底的
要实现 ChatGPT 的突破,需要大幅度提高 GPU 的性能,然后在此基础上增加大量 GPU。Nvidia 确实实现了性能,这对于 AI 训练和推理都很重要,而且重要的是,它大幅度减少了生成大型语言模型响应中的 token 所需的能量。请看一看:
从“Pascal” P100 GPU 一代到“Blackwell” B100 GPU 一代,八年间 GPU 的性能提升了 1053 倍,后者将于今年晚些时间开始出货,并将持续到 2025 年。(我们大家都知道图表上说的是 1000 倍,但这并不准确。)
部分性能是通过降低浮点精度来实现的——降低了 4 倍,从 Pascal P100、Volta V100 和 Ampere A100 GPU 中的 FP16 格式转变为 Blackwell B100s 中使用的 FP4 格式。假如没有这种精度的降低,性能提升将只有 263 倍,而这不会对 LLM 性能造成太大影响——这要归功于数据格式、软件处理和硬件中的大量数学魔法。请注意,对于 CPU 市场的八年来说,这已经十分好了,每个时钟的核心性能提高 10% 到 15%,核心数量增加 25% 到 30% 都是正常的。如果升级周期为两年,那么在同样的八年里,CPU 吞吐量将增加 4 到 5 倍。
在他的主题演讲中,为了给你提供更深入的背景知识,在 Pascal P100 GPU 上生成一个 token 需要 17000 焦耳的能量,这大致相当于点亮两个灯泡两天,平均每个单词需要大约三个 token。所以如果你要生成很多单词,那就需要很多灯泡!现在你开始明白为什么八年前甚至不可能以能够使其在任务上表现良好的规模运行 LLM。看看在 1.8 万亿个参数 8 万亿个 token 数据驱动模型的情况下训练 GPT-4 专家混合模型 LLM 所需的能力:
的末期,两者都是十分艰难的技巧,因为每 18 到 24 个月晶体管就会缩小一次,芯片慢慢的变便宜、越来越小。现在,计算复合体已达到光罩极限,每个晶体管都慢慢的变昂贵——因此,由晶体管制成的设备本身也慢慢变得昂贵。HBM内存是成本的很大一部分,先进封装也是如此。在 SXM 系列 GPU 插槽中(非 PCI-Express 版本的 GPU),P100 的发布价约为 5,000 美元;V100 的发布价约为 10,000 美元;A100 的发布价约为 15,000 美元;H100 的发布价约为 25,000 至 30,000 美元。B100 的预计售价在 35,000 至 40,000 美元之间——黄仁勋本人在今年早一点的时候接受CNBC采访时曾表示,Blackwell 的价格是这个数字。
在这八年中,GPU 价格持续上涨了 7.5 倍,但性能却提高了 1,000 多倍。因此,现在能想象使用 Blackwell 系统在十天左右的时间内训练出具有 1.8 万亿个参数的大型模型,比如 GPT-4,而两年前 Hopper 一代刚开始时,也很难在数月内训练出具有数千亿个参数的模型。现在,系统成本将与该系统两年的电费相当。(GPU 约占 AI 训练系统成本的一半,因此购买 10,000 个 GPU 的 Blackwell 系统大约需要 8 亿美元,运行十天的电费约为 540,000 美元。如果购买更少的 GPU,您能够大大减少每天、每周或每月的电费,但您也会相应增加训练时间,这会使成本再次上涨。)
附注:我们很乐意将 Hopper/Blackwell 的这次投资周期与六十年前 IBM System/360 的发布作比较,正如我们去年所解释的那样,当时 IBM 做出了至今仍是企业历史上最大的赌注。1961 年,当 IBM 启动其“下一个产品线”研发项目时,它是一家年收入 22 亿美元的公司,在整个 60 年代花费超过 50 亿美元。蓝色巨人是华尔街第一家蓝筹公司,正是因为它花费了两年的收入和二十年的利润来创建 System/360。是的,它的一些部分有些晚了,表现也不佳,但它彻底改变了企业数据处理的性质。IBM 认为它可能会在 60 年代后期带来 600 亿美元的销售额(以我们调整后的 2019 年美元计算),但他们的销售额只有 1,390 亿美元,利润约为 520 亿美元。
无论是 Nvidia 还是其竞争对手或客户都无法抵挡未来的引力以及生成性人工智能带来的利润和生产力承诺,而这种承诺不单单是在我们耳边低语,更是在屋顶上大声呼喊。
2026 年,我们将看到“Rubin” R100 GPU,它在去年发布的 Nvidia 路线,正如我们当时所说,我们大家都认为 X 是一个变量,而不是任何东西的缩写。事实上确实如此。Rubin GPU 将使用 HBM4 内存,并将有 8 个堆栈,大概每个堆栈都有 12 个 DRAM,而 2027 年的 Rubin Ultra GPU 将有 12 个 HBM4 内存堆栈,并且可能还有更高的堆栈(尽管路线图未提及这一点)。
*博客内容为网友个人发布,仅代表博主个人自己的观点,如有侵权请联系工作人员删除。