日期: 2024-08-12 作者: 固态硬盘
上周,全球最大云计算巨头亚马逊云科技自主研发的Graviton4处理器全面上市,最初为全新实例Amazon EC2 R8g提供支持。
服务器CPU领域曾经上演风水轮流转,早期由一众精简指令集前辈一统天下,后来被复杂指令集架构x86逆袭蚕食。等精简指令集中的后辈Arm想闯数据中心赛道时,x86早已全面霸场。
其实Arm早在2008年就对这个新兴市场跃跃欲试,结果一晃十年过去,几经试水,愣是没激起零星的水花。
1、2015年1月,出其不意地收购以色列芯片设计企业Annapurna Labs,引起产业密切关注;
2、2017年,推出首款自研网络芯片Amazon Nitro,把全球第一款商用的DPU芯片送上历史舞台;
3、2018年,发布首款Amazon Graviton处理器,让Arm服务器CPU在数据中心历史中有了清晰的坐标。
随后亚马逊云科技紧锣密鼓开展了教科书般的多线定制芯片攻关,其他中美大厂也相继跟上自研处理器的风潮。漫长的服务器CPU拉锯战,终于从x86单方面碾压,变成Arm阵营声势渐涨。
Graviton亦逐渐坐稳全球最广泛使用的Arm服务器CPU,亚马逊云科技更是被视作带领Arm生态在数据中心开疆辟土的“全村的希望”。伯恩斯坦去年的一份报告数据显示,亚马逊云科技占据了全球超过一半的Arm服务器CPU市场。
今天,大厂自研芯片屡见不鲜,但成功者寥寥可数。亚马逊云科技用五年写出的这本自研服务器CPU参考教材,值得被反复咀嚼。
这是亚马逊云科技自研服务器芯片发家的线月发布的Graviton处理器,发出了云计算大厂自研CPU的第一声枪响;一年后,继任者Graviton2出场,标志着Arm服务器CPU郑重进入数据中心市场之间的竞争中,与x86掰手腕。
Graviton2集成了300亿颗晶体管,核心数量足足是上一代的4倍,并翻倍提升了L1/L2缓存,总线TB/s,相比上一代实现了7倍的性能提升。与基于x86的同类实例相比,基于Graviton2的实例性能提高了40%,每个实例成本降低了20%。
在低功耗上的出色表现,使亚马逊云科技大举将通用工作负载转移到Graviton2上,以节省电力和成本。此后,Graviton系列的采用率飙升,覆盖的工作负载从起初的Cache和Web扩展到数据分析、机器学习、高性能计算等。
这背后,亚马逊云科技在底层创新上颇费心思:首次不会再使用同步多线程技术,而是实现物理核心单线程资源独享,让每个vCPU独占1个物理核心,使vCPU之间更加隔离,不会因争抢资源而导致性能抖动。
从第一代到第二代,Graviton通过增加核数取得了可观的性能提升,但到第三代,亚马逊云科技需要纳入更多的设计创新。
增加核数、提升主频,是提升性能的两个常见手段。2021年发布的第三代Graviton3没有采用这些思路,核心数不变,主频仅略微提升。因为提高频率对于大规模数据中心来说会比较冒险,可能会带来大量的能耗,而且需要搭配升级的电源及散热配置,最后导致客户的使用成本上升。
2、采用指令级并行方法,提高了单个核心周期可执行的指令数量,使核心能完成更多任务;
3、针对内存带宽和延时敏感型工作负载,增加了40%的内存空间,并采用DDR5将内存通道带宽提升50%。
结果,相比上一代,Graviton3能将应用负载的性能无差别提升25%,功耗相比x86实例降低多达60%。通过内置机器学习硬件加速单元,这颗处理器还实现了3倍的机器学习性能提升,并被AI研究人员和企业用于云中的MLOps。
2022年推出的Graviton3E,专对于浮点和向量指令运算进行了优化,向量计算性能达到Graviton3的2倍,非常适合于人工智能/机器学习、高性能计算等应用场景。
最新一代Graviton4用上了更好的Neoverse-V2核心,并将核心数增加到96核,每个核心的L2缓存提升1倍至2MB,内存带宽提升75%。
每一代Graviton都会较上一代有两位数的性能提升,并且单位算力功耗不断下降。而节能减排对于数据中心的可持续发展非常非常重要,Twitter、Databricks、F1方程式赛车、Snap等知名云客户都使用了基于Graviton的服务,并对其降本增效的优势赞誉有加。
据外媒报道,到2022年年中,Graviton约占亚马逊云科技CPU实例的20%,其中大部分是Graviton2,亚马逊云科技新增虚机实例中约50%都是Graviton系列。
一些云客户公开背书称,他们通过租用Graviton服务节省了10%~40%的计算成本。
作为Graviton早期用户的大宇无限,用Graviton2将大数据作业的成本降低了20%;大量使用Graviton2实例的涂鸦也升级到新一代实例,将IoT平台加解密性能提高50%。
根据市场调查与研究机构IDC的数据,2023年第一季度Arm服务器出货量市占率约为10%。此时Arm在服务器市场的生态问题已初步得到解决。
截至目前,亚马逊云科技在全球六大洲33个地区和100多个可用区累计部署了超过200万张Graviton处理器。这些处理器驱动了超过150种计算实例,被全球超过5万的企业和开发者所使用。
在服务云客户的过程中,亚马逊云科技团队发现如果希望针对所有可能的工作负载彻底变革计算的性价比,需要彻底重新思考实例,深入底层技术,包括定制芯片。
首先,Arm的许可证相对易得,而且设计自由度高,便于亚马逊云科技设计出更符合云业务需求的处理器。
其次,省电长期是数据中心的老大难。考虑到规模效应,每个芯片节省的几瓦特都很重要。而Arm已经被移动处理器市场检验过高能效、高算力密度、低成本等优势。
另外前文我们提到过,Graviton在提升频率上很谨慎,通过更高的指令级并行来补足性能,使其在性价比上更存在竞争力。在高CPU利用率下,Graviton中每个vCPU独占一个物理核心,不存在争用问题,能保持依然快的速度,其价格上的优势则会变得明显。
据亚马逊云科技披露,相比采用Graviton3的第七代R7g实例,基于新一代Graviton4处理器的Amazon EC2 R8g实例性能提高了30%,实例大小更大,vCPU和内存增加多出3倍,能为数据库、内存缓存和实时大数据分析等内存密集型工作负载提供更好的性价比。
与R7g实例相比,R8g实例可将Web应用程序最高提速30%,数据库最高提速40%、大型Java应用程序最高提速45%。
根据Phoronix发布的一些基准测试结果,在相同vCPU数量时,新Graviton4核心大致与英特尔Sapphire Rapids性能相当,同时能媲美AMD第四代EPYC,在运行高性能计算、加密、代码编译、光线D建模等工作负载时,代际进步整体非常出色。
▲经测试,基于Graviton4的R8g实例性价比超过基于英特尔至强、AMD EPYC的亚马逊云科技云实例(图源:
作为R8g实例首发客户之一,Honeycomb分享称Graviton4的吞吐量改进很明显,相比四年前刚开始使用Graviton,每vCPU吞吐量提高了一倍多。他们准备在R8g实例系列正式对外发布后立即把整个工作负载迁移到Graviton4上。
爆款游戏《堡垒之夜》的制作公司Epic Games评价说,基于最新Graviton4的EC2 R8g实例是基于他们测试过的最快的EC2实例,在其“最具竞争力和对延迟敏的工作负载中表现出色”,可以充分提高游戏服务器的性能。
对SAP HANA Cloud使用R8g实例的初步测试结果为,与基于Graviton3的实例相比,R8g实例的分析性能可提升高达25%,事务性工作负载性能可提升高达40%。
为什么是亚马逊云科技?正如亚马逊云科技大中华区解决方案架构总经理代闻在今年中国峰会上所言:“只有在云计算的环境下,才有机会做这样的从应用到CPU的全栈创新。”
自研芯片不是纸上创新,需要工程经验的积累,不仅要追求高性能,而且要足够的稳定可靠和高度安全。
用相同Arm微架构不代表就能做出一样性能的CPU,设计出芯片也不代表就能取得量产和商业上的成功。光是几百个CPU核心互连带来的线性度和通信延时问题,就能难倒不少芯片团队,更别提设计Arm服务器芯片还要突破生态难关。
亚马逊云科技的研发思路是从对云客户工作负载的深刻理解,逆向穿透到芯片设计。这种以客户为中心的方法能让亚马逊云科技短期内做调整,以快速适应市场动态。
以Graviton4为例,亚马逊云科技首次面向实际应用设计CPU架构,该处理器的设计工程中从传统的MicroBenchmark基准测试评价体系转向以实际工作负载进行评价的方法。比如,优化Cassandra数据库、Groovy应用、nginx服务器,所需要的前端和后端CPU参数是不一样的。
庞大的客户规模为亚马逊云科技高筑壁垒。其遍布全球的广泛数据中心集群,能承载Graviton系列处理器的落地。全球最大云计算业务所形成的规模效应,又能为亚马逊云科技有效摊薄成本。
持续创新的云服务,使亚马逊云科技能够了解到使用最多的应用及其资源消耗模式,以此来挑选对用户来说收益最高的技术点,进行针对性优化,快速改进软件和硬件堆栈甚至是CPU设计,研发出相匹配的vCPU和硬件核心。
同时,亚马逊的各条托管服务的产品线都使用统一的基础设施,因此Graviton创新可以及时应用到所有的托管服务里。用户通过更换计算选项,就能轻松享受到Graviton带来的性价比提升。
用户只需关心哪款实例更能满足需求,亚马逊云科技负责将软件的迁移和学习成本打下来。通过将更多的管理服务和Graviton做深度集成,从x86无缝迁移到Arm变得简单快捷。
今天,自研芯片已经成科技大厂的标准动作,不管是降本增效、构建竞争优势,还是提高可控性、降低第三方芯片企业依赖,都是容易说服下游客户和投资者的好故事。
回溯云计算发展史,亚马逊云科技在2006年发布首款EC2(弹性云计算)实例定义被视作一个历史时刻。随后慢慢的变多的企业逐渐接受云计算概念,并开始将自家应用迁移到云端。
现在亚马逊云科技可以在云上顺利运行几万个节点的高性能计算集群来训练大模型,能在云上处理高并发的实时流媒体应用,这些在当时都是很难想象的。要知道亚马逊云科技的第一款EC2实例,主频只有1.7GHz,网络带宽250Mbps,内存不到2GB,磁盘是只有160GB的机械盘。
在云计算业务刚起步的几年,亚马逊云科技要解决很多棘手问题,特别令团队焦虑的是:若使用定制版Xen作为虚拟化管理程序,无论如何耗费大量时间来优化代码,虚拟层始终会占用主机资源,并且x86 CPU并不擅长处理网络流量。
直到2013年,一家以色列芯片企业Annapurna Labs走进亚马逊云科技的视线。经过合作,亚马逊云科技首次将网络处理写到硬件。惊喜的落地表现,让亚马逊云科技盯上了这家出色的合作伙伴:2015年1月,亚马逊云科技宣布收购Annapurna Labs,自此踏上自研芯片的旅程。
就在这一交易的两年后,亚马逊云科技对外宣布Nitro虚拟化平台,将安全、管理、监控全部卸载到硬件上,将主机算力近乎100%地提供给客户。
从此,云计算走上了业务与基础设施完全物理隔离的路子,底层的虚拟化技术创新和上层的服务器种类发展可以并行展开。
这催生了EC2实例的关键拐点:从2006年到2017年,亚马逊云科技用11年从1种EC2实例做到70种;而从2017年到2023年,EC2实例骤然爆发式增长,6年从70种发展到750种,能为各类负载提供合适的计算实例。
站在Nitro成功的基石上,亚马逊云科技发展出网络芯片、服务器CPU、AI训练和推理芯片三条产品线:Nitro网络芯片已发展到第五代,持续优化网络性能、存储性能和安全加固;Graviton已经发布四代五款;AI推理芯片Inferentia和AI训练芯片Trainium,通过提供更具性价比的推理和训练实例,让用户有了GPU之外的AI加速选择。
这使得亚马逊云科技能够保持内部全栈创新的灵活性:从定制的板卡及服务器开始,到深入底层定制芯片,再到横向扩展自研芯片版图,亚马逊云科技逐渐将从芯片、硬件到软件整合协同,在为业务带来更好成本效益和可靠性的同时,构成独属于自身个人的核心竞争力。
自研芯片与亚马逊云科技自研的存储服务器和高速网络系统联动,使得更多芯片能够高效互连,从而真正明显缩短计算的时间。站在这些创新基础上,亚马逊云科技能够支持云计算中运行最具挑战性的任务之一——AI与机器学习。
在近期举行的亚马逊云科技纽约峰会上,亚马逊云科技宣布96%的AI/ML独角兽已将其业务跑在亚马逊云科技上,2024福布斯AI 50榜单中90%的企业选用亚马逊云科技。从2023年至今,亚马逊云科技已经正式对外发布了326项生成式AI功能,同期机器学习和生成式AI服务的正式可用数量超越了其他供应商的两倍。
广泛的用例与深厚的技术积累总是唇齿相依。这些数量惊人的AI用例,使得亚马逊有足够的实践案例来为客户提供能取得最佳收益的选择,而广泛的客户反馈又能成为其芯片设计最好的动能。芯片技术的持续迭代,将托举起慢慢的升高性价比的云服务,推动生成式AI普惠。
市场上有大量的芯片选择,云基础设施提供商能在如何将所有这些整合在一起方面发挥价值,从而更好实现从基础设施到云服务的各种创新。
与独立芯片企业不同的是,亚马逊云科技自研芯片的目的不在于参与市场之间的竞争,而在于为其客户提供一个“万能商店”,既提供自研芯片,又提供英特尔CPU、英伟达GPU等市面主流选择,由客户来依据这一些芯片实例的配置文件,自行选择最能满足工作负载需求的产品组合。
Graviton的六年演进,走通了Arm服务器CPU落地的故事。Arm为亚马逊云科技提供了灵活定制CPU的基础,亚马逊云科技则推动了服务器芯片市场格局的变阵,成为Arm在数据中心市场展现成本和性价比优势的最好代言。
只要Graviton还有降本增效的空间,亚马逊云科技就能够继续降价让利,把规模与技术的红利回馈给云客户。