把内存塞进CPU、取消超线程、性能大提升!解析英特尔Lunar Lake处理器

日期: 2024-08-23 作者: 固态硬盘

简介

  英特尔自从第12代酷睿处理器发布后,在13代、14代产品上只是调整核心规格、频率,对核心微架构进行小改动,总的来看并未大幅度改动整个处理器的架构。虽然凭借着强悍的性能、极高的频率以及优秀的整体表现,英特尔酷睿i系列处理器依旧在市场上呼风唤雨,但是随着AI技术的兴起以及整个行业形势发展,英特尔如果要持续保持领头羊、引领行业发展的话,还是需要做出更多的变化。2024年6月5日,英特尔公开了新一代代号Lunar Lake的处理器产品,带来了全新的P核、E核、GPU、NPU以及SoC设计,全面革新了整个处理器的方方面面,更好的应对AI时代的计算需求,同时也维持了极高的传统计算能力,让我们大家一起来看一下它的主要变化。

  英特尔在Meteor Lake上首次采用了Chiplet设计,让不同的核心比如计算核心、GPU核心、IO核心以及SoC核心采用不一样的工艺制造,并通过高级封装技术将其整合在一起。这种工艺和核心解耦、各自采用更合适工艺制造的方式,带来了处理器设计上的重大变革。在Lunar Lake上,英特尔维持了这样的技术,但是创新性地加入了内存的封装,带来了集成度更高的产品,进一步提升了性能、能耗比以及应用体验。

  从整体架构角度来看,内存的封装将带来总系统级的效能提升。因为主板厂商不需要在PCB上布置单独的内存供电和数据传输线路,这些功能全部转移到处理器的PCB基板上,同时由高频率内存带来的信号线布置、抗干扰设计等都可以全部取消。对英特尔来说,内存转移到处理器基板上,还获得了更稳定的性能和更高的能耗比,以及最重要的移动电子设备内部面积节省。

  英特尔多个方面数据显示将内存转移到处理器基板后,带来了40%物理功耗降低、250平方毫米面积的节省以及每个芯片8.5GT/s的传输带宽速率,容量方面也能够达到32GB。这对笔记本电脑产品来说是足够用的。

  Lunar Lake在核心微架构上相对于Meteor Lake的另一个重大改进在于整个处理器最关键的微架构得到了更新。Lunar Lake的性能核也就是P核的微架构进化至Lion Cove,E核微架构进化至Skymont,带来了相对上一代微架构性能的大幅度提升。

  宏观特点来看,Lion Cove主要是增大规模、提高内部执行能力、增加更多执行端口并针对缓存进行大规模革新,英特尔认为Lion Cove在性能和面积效率方面做了改进,同时更符合现代化的需求。

  更具体来看的话,性能核心的核心改进,主要在于几点:整个分支预测宽度增加至之前的8倍、VEC和INT的乱序执行部分进行分离调度,此外还带来了更宽的调度单元、增强的内存子系统,加入了L0级别缓存以及彻底改动了内存子系统等。在性能功耗方面,带来了基于AI的电源管理以及针对核心面积和性能的优化。

  如果说上述改进大家感知不明显的话,那么Lion Cove取消了超线程技术和相关的晶体管资源,应该是本次最重要的变化了。英特尔认为,目前E核心在很大程度上起到了超线程技术的作用,同时超线程技术也需要耗费大量的晶体管资源,因此本代处理器干脆彻底取消,以获得更好的面积性能比,同时也能够更好的降低核心面积、功耗以及成本。

  性能方面,性能核心相比上代产品,平均提升了14%的IPC,低功耗下更明显一些,高功耗下提升依旧可以大于10%。如果再算上更高的频率的话,效能提升就更为可观了。

  性能核心的改进如果说是明显提高的话,那么能效核心的改进就能够说是翻天覆地了。Skymont的能效核心改进主要是整体IPC的提高、能效核心现在也能在更高的工作负载范围内输出性能了,此外还带来了增强的矢量计算和AI计算等。

  整体来看,能效核心分支预测大幅度加强,前端指令解码来到了3×3也就是9宽度设计,同时整个架构规模、调度端口、缓存以及队列深度等都进行了极大幅度的扩充。在矢量计算方面,SIMD增加到4×128位,这在某种程度上预示着吞吐能力相比上代产品翻倍,对VNNI指令的支持也更出色了。简单总结的话,就是能效核心现在变得不像人们印象中的就是为节能而设计的核心了,在规模大幅度扩大后,它相应地迎来了更高的性能,可完全当做主核心来使用了。

  性能方面,Skymont相比上代产品,单线倍,多线倍(由于功耗范围扩展),或者只有前代1/3的功耗。由于前代Crestmont的整体性能已超越英特尔之前使用的Skylake以及各种“+++”版本的性能,在如此大改后,还可以认为Skymont在微架构IPC方面可能距离Lion Cove差距不大,但是拥有更好的能效比表现,这可能是英特尔未来发展重要变化之一。

  在整个集群性能调度方面,Lunar Lake调度更为成熟。由于全新的工艺、更优秀的P、E核心以及更高性能功耗比的设计,Skymont和Lion Cove在性能、功耗的交叉点上移了不少,现在更多的任务可以交给Skymont做相关操作,Lion Cove只在更高性能需求的时候登场,这无疑带来了更好的性能功耗比表现。

  由于大小核心的存在,英特尔还是延续了硬件线程调度器的做法,但是做出了更多改进,比如更好的OS分区设置、更好的电源集成管理及整体算法的优化、AI判断的加入、更精细的调控等,都带来了整体线程调度效率的提高。

  Lunar Lake的整个调度目前更为动态、更为自主。P核心和E核心的调度优先级方面更偏向于能耗比提高,但也同时针对性能需求做了很好的优化。由于E核心现在更强大、覆盖最佳性能功耗比区间更广阔,因此转移至P核心的概率也更低,只有突发重载的情况,P核心才会火力全开。

  英特尔在自研GPU上进展十分好,其产品凭借高性价比得到了很多消费者的青睐。在Lunar Lake上,英特尔引入了第二代Xe GPU架构,带来了新的矢量引擎,整体性能、效率也显著提升。

  第二代Xe GPU的重要改进在于规模更大,光线追踪和AI性能更强。比如8个Xe核心、8个更强的光追单元以及增强的XeSS内核等。规模大意味着性能强,这在GPU上是百试不爽的灵药,Lunar Lake的GPU性能是上代产品的1.5倍,能够更好地使用户得到满足针对图形方面的需求。

  在AI计算方面,新的Xe GPU集成了新的矢量引擎,同样是带来了更大的规模,比如原生支持SIMD16,支持的精度更多,包括INT2、INT4、INT8、INT16以及BF16和FP16等,针对AI模型计算整体无论是效率还是功能方面都会有更好的提升。

  媒体引擎方面,本代英特尔启用了全新设计的媒体引擎,带来了AV1编解码和VVC编解码支持。主要的特性包含针对eDP 1.5的节能功能,包括能够更好的降低画面抖动的显示帧率和媒体帧率的自适应适配、节约CPU能耗的内容排队序列、降低整体显示功耗的选择性显示内容(Early Transport)等。规格方面主要是加入了H.266也就是VVC的解码支持,H.266相比目前的AV1文件大小继续缩小大约10%,除此以外还有自适应编码、屏幕内容编码流SSC等特性。显示方面支持3个显示通道、支持DP 2.1、HDMI 2.1等。

  总的来说,整个Lunar Lake的图形性能是大幅度提升的,英特尔数据是提升了大概50%,并且AI性能高达67TOPS,更多新特性的支持等。由于GPU的升级,更多的用户都能够直接选择集成显卡配置的机型,也能得到不错的图形计算应用体验,这是很令人满意的。

  在NPU方面,Lunar Lake的NPU由于AI应用的发展,也得到了大幅度提升和加强。NPU的整体算力高达48 TOPS,虽然看起来比GPU低,但是NPU整体计算效率是更高、更节约能耗的,因此更多的AI计算任务可以直接在NPU上完成而不需要动用CPU和GPU。NPU的变化主要是带来了新的功能,比如支持原生激活功能和数据转换、支持大语言模型的嵌入标记化等。架构方面,本代也就是第4代NPU的规模更大,包括12个增强的Shave DSP以及6个神经网络引擎,带宽翻倍,MAC架构优化等,带来了整体性能的大幅度提升。

  英特尔总结到,Lunar Lake目前最高能够给大家提供120TOPS的算力,能够实现大量AI计算,包括文生图、大模型本地化运行等。在慢慢的变多的软件内置AI功能的现在,本地AI计算依旧是很重要的,这一点英特尔也是顺应时代进行的操作。

  最后,我们仍旧是针对Lunar Lake的发布以及附于其上的技术应用进行一些总结。Lunar Lake是英特尔在进入Chiplet时代后的一次全面革新,整个Lunar Lake无论是P核心还是E核心,包括GPU、NPU以及互联性能等都进行了全面变化和提升,带来了大量的全新技术,支持更多的新规格。毫不夸张的说,本次Lunar Lake新技术应用之多、之复杂远超之前任何一款产品。英特尔近几年在技术演进上的进展还是极为激进的,无论是上一代Meteor Lake还是本代Lunar Lake,在架构设计、技术应用及整体规格上正在全面转向,Lunar Lake实际产品也就是酷睿Ultra 200系列上市后的表现令人期待,我们也尽快联系厂商,力争第一时间拿到产品并分享具体性能给大家。