英特尔酷睿Ultra 200V详解:远不止能耗暴降那么简单

日期: 2024-09-21 作者: 固态硬盘

简介

  在今年6月份的台北电脑展上正式公布Lunar Lake处理器架构细节之后,有关于英特尔新一代酷睿Ultra处理器,即酷睿Ultra 200V系列的性能与能效表现就备受用户期待。

  全新的Lion Cove性能核以及Skymont能效核到底会给新款酷睿Ultra平台带来怎样的性能?在Metoer Lake不错的能效表现基础上能否逐步提升能效比?以及新平台在本地化AI算力大幅度的提高之后,投射到应用端到底会给用户所带来怎样的新体验?这样一些问题成为了新一代酷睿Ultra平台最值得期待的关键点。

  转眼时间来到9月,柏林IFA展前,英特尔终于公布了Lunar Lake平台的能效、性能以及应用表现,同时也公布了新平台的具体上市时间。

  本次酷睿Ultra 200V系列新品将于9月24日上市,首批包含九款不相同的型号的处理器,最高为酷睿Ultra 9 288V。新品全部采用8核8线程设计,睿频加速频率最高为5.1GHz,缓存最高为12MB。

  Ultra 7核Ultra 9系列均搭载锐炫140V核显,Xe-cores均为8个,但是频率略有差异。内存均为芯片集成,分为16GB和32GB两种规格,均为LPDDR5X 8533MT/s。功耗方面,除了酷睿Ultra 9 288V为30W基础TDP之外,其余均为17W,而最大TDP均为37W,整体功耗大幅下降。

  接下来,让我们先简单回顾Lunar Lake的架构特性,同时看看它的实际能效与性能表现究竟如何?

  在这样的设计目标指引下,Lunar Lake相对于上一代Metoer Lake而言,将较为复杂的分离式模块化架构设计做了进一步整合。由此前的计算模块、图形模块、SoC模块、IO模块整合为计算模块和平台控制模块,另外还包含一个没有实际功能的填充模块。

  同时它还在整个芯片上集成了LPDDR5x内存颗粒,最高支持双通道32GB容量,这也代表着Lunar Lake平台笔记本产品将不会设计单独的主板内存插槽。

  从英特尔官方公布的信息来看,Lunar Lake在每瓦性能的提升上着实是下了很大功夫,这使得新平台总体功耗下降了50%。

  同时增强和集成了新的电源管理方案,通过全新的供电架构带来了更好的电源控制,提升了电源利用率。而且内存改用芯片封装之后,PHY功耗降低了40%,再加上改进后的能效核集群,Lunar Lake在功耗方面实现了多项关键创新。

  此外,在Meteor Lake时代,英特尔引入了低功耗到的设计,通过2个超低功耗Crestmont核心承载低功耗应用任务,以降低整个平台的能耗。Lunar Lake在此基础上逐步提升了低功耗岛的效率,由4个Skymont低功耗核心构成,并且将共享L2缓存提升到了4MB。

  这些变化最终反馈到测试端或应用端之后,每瓦性能的提升相对老平台或同期竞品就有了比较显著的优势。比如在UL Procyon的Office生产力应用测试中,全新的英特尔酷睿Ultra 9 288V性能比酷睿Ultra 7 165H以及骁龙X1E-80-100高7%,但是封装功耗则分别下降了53%和49%。相对于骁龙X1E-80-100而言每瓦性能提升1.2倍,相对于酷睿Ultra 7 165H而言提升高达2.29倍!两代酷睿Ultra处理器的每瓦性能差异着实惊艳。

  另外,酷睿Ultra 200V系列集成的全新Xe2架构GPU,也实现了代际间的每瓦性能提升。在《刺客信条:英灵殿》、《赛博朋克2077》以及《模拟农场22》三款游戏测试中,酷睿Ultra 9 288V对比酷睿Ultra 7 165H,性能分别提升32%、44%以及68%,功耗分别降低35%、22%以及11%,每瓦性能提升显著。

  以往,x86架构处理器的PC设备在整机功耗上往往表现不尽人意,这导致其续航能力备受诟病。虽然酷睿Ultra平台的出现大幅度的提高了续航能力,但往往是在较高功耗基础上通过加大电池容量来实现,这显然不是移动级处理器芯片技术迭代的初衷。

  某种程度上来说,Lunar Lake是英特尔酷睿家族中,真正的完成整个平台级功耗大幅度降低的产品。

  更低的功耗自然带来了更长效的续航能力。使用同样的OEM产品,酷睿Ultra 7 268V平台对比骁龙X1E-80-100平台,UL Procyon Office生产力续航时间超出1.7小时,Teams 3*3在线小时。而酷睿Ultra 9 288V在相同测试项目中,分别能够达到14小时和9.9小时续航能力,相比骁龙X1E-78-100以及AMD锐龙AI 9 HX 370,续航能力都要高出不少。

  因此,全新的Lunar Lake平台拥有更加极致的能效表现。它实现了全平台50%的能耗降低,实现了超过2倍的代际每瓦性能提升,实现了20小时的超长续航能力,实现了2倍的GPU能效提升,同时相比竞品(骁龙平台)也有着20%的每瓦性能优势。

  Lunar Lake家族全系处理器均采用8核8线程设计,相比上一代酷睿Ultra平台来说,核心、线程数量都会降低,因此可能会有用户对其CPU性能表现有所担忧。不过实际上英特尔通过多种改进设计,弥补了核心/线程数量下降的性能缺口,并且实现了平台级的能效比升级。那么英特尔是怎么样才能做到这项看起来不太可能完成的任务的呢?

  首先,Lunar Lake放弃了超线程设计,并将优化重点放在了性能核上。在关闭超线程之后,Lunar Lake性能功耗比提升15%,性能面积比提升10%,性能功耗面积比提升30%,更优的性能、功耗和面积比使得无超线程状态下的性能核有着更好的综合表现。

  其次,全新的低延迟结构设计。在AMD锐龙AI 300系列发布之后,核心间延迟暴增且内存延迟仍旧居高不下,这导致一些核心或内存敏感型应用在使用时会有显而易见的迟滞。而Lunar Lake则依旧保持了低核心延迟特性,同时降低了内存延迟,增强了分支预测能力,并提升了并行处理能力。

  根据官方数据分析来看,Lunar Lake能效核延迟大约在23ns左右,性能核间延迟大约在26ns左右,能效核到性能核间延迟大约为55ns,内存延迟控制在了90ns附近,相比Meteor Lake降低了40%!依旧足够低的核心延迟,是的Lunar Lake在应用侧依旧有更加流畅无迟滞的体验。

  其三,英特尔硬件线程调度器逐步优化。自酷睿平台使用“大小核”架构设计以来,线程调度就成为影响CPU性能和效率的重要的条件。Lunar Lake在线程调度方面使用了全新的动态调度策略,并且通过单一能效核的使用来降低平台功耗,通过其它能效核扩展实现多线程任务高效执行,同时也会根据实际任务负载需求来调度性能更强的性能核。因此,对于轻薄型笔记本来说,Lunar Lake的Lion Cove性能核心很有完美的单线程性能表现。参考官方放出的CINEBENCH 2024、Geekbench 6.3以及SPECrate 2017整数计算测试,酷睿Ultra 9 288V的单核性能分别高出基准线%,6%以及28%。

  多核性能方面,酷睿Ultra 200V在低功耗区间能带来更出色的性能,但毕竟核心数量有所缩减,峰值性能会略低于竞品。不过在各项常规应用的性能层面,比如Handbrake编解码方面,性能高出基准线%,同时相比竞品也有不同程度的领先。

  基于这些提升,Lunar Lake事实上拥有一颗非常快的CPU核心,其能效核代际间IPC提升幅度达到68%,性能核IPC提升14%,每线倍,并且有着更低的核心间延迟核内存延迟,因此为轻薄型笔记本赋予了极其出色的生产力应用体验。

  其实相比CPU而言,笔者个人更加期待Xe2架构的新一代锐炫核显的表现。本次酷睿Ultra 200V家族集成了英特尔锐炫140V和130V两种不相同的型号的核显,前者拥有8个Xe-cores,后者为7个。另外在最大频率、XMX AI算力方面有所差异,具体可以借鉴下图所示:

  Lunar Lake引入的全新Xe2GPU,相比Meteor Lake而言,图形性能提升1.5倍,并提供了更大的光追单元,帮助提升游戏的画质与真实感。

  之所以能带来1.5倍的图形性能升级,主要源于Xe2架构的Xe核心最高增加到了8个,带来了更强的图形计算能力。而AI性能的提升来源于Xe矩阵扩展引擎规格的升级,这一全新的矢量引擎支持4096OPS/clock和2048OPS/clock的INT8和FP16计算,并且改进了固定功能单元,提高了吞吐量,从而优化了AI计算效率。其总体AI算力达到了67TOPS,并且拥有8MB L2缓存。

  游戏性能方面,新一代锐炫核显的游戏性能最受期待。根据英特尔官方数据分析来看,全新的锐炫140V核显对比上一代酷睿Ultra 7 155H集成的锐炫核显,游戏帧数平均提升31%;相比骁龙X1E-84-100处理器,除了23款骁龙平台无法兼容运行的游戏之外,正常完成测试的游戏中,平均帧数高出竞品68%。另外相对于图形性能明显提升的锐龙AI 300系列的HX 370处理器集成的Radeon 890M来说,锐炫140V游戏平均帧数高出16%。

  同时,有超过120款游戏完美支持英特尔XeSS技术,而全新的Xe2XMX内核将实现更高的游戏帧率。根据官方测试来看,XeSS技术使得代际性能复合提升幅度超过60%。此外,在光追性能、99%低帧、DX12U三项游戏性能上,锐炫140V对比Radeon 890M以及骁龙平台,都很有显著的性能优势。

  图形性能和能效升级的同时,Xe2GPU也为Lunar Lake带来了全新的媒体和显示引擎。其中,媒体引擎在原有的AV1编解码上增加了VVC解码支持,而显示引擎支持eDP 1.5、DP 2.1、HDMI 2.1接口标准。新的媒体与显示引擎能更好地支持自适应分辨率流媒体和360全景视频。

  VVC解码是新引擎的一大亮点,虽然目前支持的比较少,但是VVC相对于AV1而言,保证相近质量的同时文件体积减少了10%,这能够在一定程度上帮助视频流媒体平台进一步缩减成本,是未来视频解码的一大主流方向。

  英特尔酷睿Ultra是AI PC时代开启的标志,酷睿Ultra 200V作为第二代产品,自然而然的会在AI算力方面实现大幅度的提高。全新的Lunar Lake处理器确实做到了,其CPU+GPU+NPU算力总计达到120TOPS,其中全新的Xe2GPU架构带来了67TOPS的峰值AI算力,全新的NPU带来了48TOPS的峰值算力,再加上5TOPS的CPU AI算力,相对于上一代Meteor Lake提升显著。

  英特尔酷睿Ultra平台拥有CPU+GPU+NPU三大AI计算引擎,现阶段,NPU、GPU、CPU的AI利用占比分别为25%,40%以及35%。而英特尔预计2025年三大引擎利用占比将发生一定变化,CPU占比降低,NPU占比会提升到30%左右,这在某种程度上预示着NPU对于AI应用的重要性进一步提升。

  在上一代产品的比拼中,酷睿Ultra平台的NPU性能就是最强的,延续到酷睿Ultra 200V系列,其NPU性能随着算力升级自然实现了进一步突破。现场个人会使用UL Procyon的NPU Integer模式测试了酷睿Ultra 9 288V的NPU性能,分数达到了1831分,相比上一代大约提升了4倍左右,性能相当可观。同时,英特尔官方也给出了相关测试成绩,int8性能评分1886,FP16性能评分1017,相比上一代都有非常显著的提升。

  而在AI生态方面,英特尔从框架到各类大模型的支持都走在业界前列。Llama 3、SDXL、LLaVA等大语言、扩散以及多模态模型的支持,再到英特尔OpenVINO、ONNX、WindowsML等框架的支持都尽善尽美,从而为用户和开发者都提供了足够让人信服的AI环境。

  基于此,英特尔酷睿Ultra 200V平台有着交付AI功能方面的行业领先性;有着300余项ISV特性带来的海量选择空间;有着更快的AI加速引擎、更多的数据类型支持以及更多的框架帮助用户和开发者更好地使用和开发AI应用,更有着无妥协的兼容性。

  英特尔酷睿Ultra平台在提供卓越的计算、图形、AI性能的同时,也为基于其打造的PC设备带来了优异的创作、连接、娱乐、学习等多维度体验。这得益于英特尔45年来持续性的软件生态发展,它使得酷睿Ultra平台能够在系统和编译、多媒体和性能、函数库/框架和开发工具包、AI开发以及AI PC应用及生态方面有着全方位软硬件适配保障,从而使其对x86软件ECO具备卓越的兼容性,进而在生产力应用、AI应用等性能层面带来相比竞品更好的表现。

  同时,卓越的平台级体验也是英特尔一直以来得以领先于业界的杀手锏。如Wi-Fi7、雷电4、蓝牙5.4等特性为平台带来卓越的连接性。而英特尔SSE、GSC、CSME以及全新引入的PSE等多重安全引擎从底层硬件层面带来不同层级的安全性增强。

  此外,伴随着酷睿Ultra 200V系列发布,英特尔Evo认证规范也迎来新升级。在其规范标准框架内,每款机型设计都需要经过至少12个月的严苛测试、验证,从而在显示屏光学测试、快充测试、音频测试、连接性测试等诸多方面使其达到英特尔Evo认证规范的要求。

  总体来说,英特尔Lunar Lake对于AI PC行业发展而言有着非凡意义,尤其是本地AI算力的超大幅度提升,很有可能会完全改变用户对于AI PC的看法,更高效、更具安全性的本地化AI体验将为现代PC用户的生产力效率赋能。

  同时,Lunar Lake不仅强在AI,更好的核心性能,更加优异的能效比,以及更出色的图形性能,也将推动轻薄型笔记本的再次革命。轻薄便携但是一天、甚至两天不插电办公,在轻薄本上更加流畅地运行3A游戏,以及用更低功耗干更重负载的任务,这些以往看起来互相矛盾的需求将在Lunar Lake上成为常态。