“退回”8核8线程的Lunar Lake表现如何?英特尔颠覆式变革目的何在?

日期: 2024-10-12 作者: 固态硬盘

简介

  在才结束的2024台北电脑展(COMPUTEX)期间,英特尔公布了下半年会登场的新——这绝对是令人震惊的一代产品,因为它取消了使用多年的超线程技术,从当下笔记本用主流酷睿处理器至少8核12线线程的状况,“退回”到了4大核+4小核共8核8线程!而且,它还把内存焊到了处理器整体封装中!

  如此大的变化,意欲如何?如此操作的背后又有着什么故事?来听听牛大叔的科普和八卦吧^__^。

  ■然后,回答一个重要问题:英特尔为何需要如此设计?以及背后的一些故事和背景。

  看到这里,大家的第一反应可能是:我K,第一代酷睿Ultra(Meteor Lake)手都还没捂热,Lunar Lake就要来了?是的,它不仅要来了(今年下半年上市),而且还玩了一把“再度颠覆”:

  ●“低功耗小核”(LPE)又没了,Lunar Lake仅使用大核+小核(P核+E核)的设计;

  这要换在七八年前,每一个变化都能支撑起一代更新,并号称“革命性变化”,如今一口气全祭出来,的确令人震惊——而且前提是,从代与代的变化来看,酷睿Ultra其实是相当成功的,集显性能大涨,处理器日常应用功耗也降低不少进而带来续航的明显提升。Lunar Lake却又来一次彻底颠覆,处理器核心数量和线程甚至“严重倒退”,英特尔是何用意呢?

  先从技术层面说说Lunar Lake的设计方向,它是典型的为PC的AI应用大方向服务的,同时将带来更低的日常应用功耗,整机续航会再度大幅度的提高!而且,以上变化有制程、工艺和架构的巨幅提升作为支撑!

  ●先从最直观的内存变化说起:把内存焊在处理器整体封装上,好处是电路更短,且主板整体面积可减小250平方毫米。按照英特尔说法,可在“内存相关物理层省电最多40%”(很多媒体直接说“省电40%”是不准确的)。

  另外,Lunar Lake支持的内存规格达到了惊人的LPDDR5X 8533,行业领先。容量方面则是16GB/32GB两种容量可选——但我猜大部分机型大部分会选择32GB,毕竟按正常逻辑来说,Lunar Lake轻薄本上将不会再有内存插槽可供升级了。

  对了,八卦一嘴:其实“绑定内存”的做法并不是英特尔首创,大家可看看苹果M2处理器的图^__#。都说苹果M处理器的笔记本续航长,这就是这里面一个道理啦。

  英特尔酷睿处理器现如今还有不少是10nm制程,而轻薄本的第一代酷睿Ultra算是率先提升到了7nm+5nm+6nm的制程水平(CPU部分7nm(Intel 4),Arc Graphics集显为台积电5nm,控制和IO模块为台积电6nm)。

  而Lunar Lake则再度巨变:一种原因是全部采用台积电工艺;另一方面,制程再度提升:控制模块依然采用6nm制程(台积电N6工艺),但CPU+GPU+NPU的计算模块则采用了台积电的N3B工艺,也就是直接提升到了3nm制程!

  而常识就是:制程的跨代提升,意味着可以设计全新的架构,带来更强的性能,同时还能逐步降低功耗。真实的情况也正是如此,让我们继续往下看▼:

  具体的内部架构变化、各种细部单元的提升就不赘述了,大家记住“效果”就好:按照英特尔的说法,相对于第一代酷睿Ultra的大核(Redwood Cove),Lunar Lake的大核(Lion Cove)的IPC性能平均提升了14%!

  同样,关于小核具体的内部架构变化、各种细部单元的提升就不赘述了,我们只看效果。按照英特尔的说法,相对于酷睿Ultra的小核(Crestmont),Lunar Lake的小核(Skymont)的整数IPC性能平均提升了38%!浮点IPC性能更是平均提升了68%之多!!

  不过,这里有个细节牛大叔要提示警醒我们:仔细看上面的官方PPT,会发现Lunar Lake的小核对比的其实并不是酷睿Ultra的小核,而是LPE核,即那两颗“低功耗小核”(酷睿Ultra是P核+E核+2颗LPE核构成的)。图片右侧的“多线程整数性能对比”曲线图,也提到了是“酷睿Ultra的2颗LPE核”对比“Lunar Lake的4颗E核”,所以,最大性能为4倍,集合上全新架构和制程的大幅度的提高,倒也不是太吃惊——但!在相同功耗上性能为2.9倍,以及在相同性能上,4个E核的功耗仅为酷睿Ultra 2颗LPE核功耗的1/3,这就相当厉害了!至少PPT是这样展示的,实际效果如何,得等正式对外发布后测试!

  总之,从目前公布的官方信息来看,Lunar Lake的CPU大核和小核,性能提升的幅度是很明显的,而且也明显更省电,甚至可说是相当省电!

  这里又八卦一嘴,英特尔其实在英文资料中还公布了Lunar Lake的小核和Raptor Cove的对比,号称平均IPC提升了2%!有兴趣的朋友可以查一下Raptor Cove是什么^__#。再度提示:Lunar Lake仅是轻薄本处理器。

  有大核,有小核,就存在“如何调度,才能提升性能或能效”的问题。这里就涉及到英特尔的硬件线程调度器。具体的细节不解释了,只从宏观思路上给大家梳理一下:

  ·以前的各代大小核酷睿,思路往往是“有负载了,大核先上,求得最高性能和效率;如果有更多任务并行,再考虑把不那么紧急或低负载应用转移到E核或LPE核上”。

  ·而Lunar Lake由于E核够强,所以把思路“倒了过来”:有负载首先调用的是单个E核,如果能正常完成工作就用它了;若需要更多性能时,则调动其他E核一起干活儿;若需要强力并行计算时,再转向大核!这样做的指导思路就是尽可能降低处理器的整体功耗——毕竟,以轻薄本而言,绝大部分是轻量级的网页、多媒体和办公应用,其实无需大核出手!用E核又高效又低功耗地完成是更好选择!

  随着大量日常应用利用GPU加速,甚至干脆是GPU运算,硬件厂商都意识到,在轻薄类机型上,提升集显(GPU)的性能和功能,价值非常显著!所以,Lunar Lake上,全新的Xe2 GPU诞生了。

  这里我们依然不赘述细节,只看性能呈现。但大家要注意,官方PPT中“优于第一代酷睿Ultra GPU性能1.5倍”,并没明确说是酷睿Ultra H还是酷睿Ultra U——要知道这两者的GPU性能相差巨大,前者的Xe核心为7个和8个,而后者只有4个。

  另外还有个点牛大叔有点吃不准——虽然集显制程从第一代酷睿Ultra平台的5nm提升到了3nm,核心也是新的Xe2,但官方对比曲线和酷睿Ultra H(Xe1)的“同性能下功耗差异”会不会过于夸张了呢?毕竟酷睿Ultra的GPU跑满也就20多W,难道Xe2只要一半功耗就能追平?会不会过分优秀了(当然我倒是期待如此优秀^__^)?最终答案只有等到上市后测试来解答啦。

  这里还要提到全新的媒体和显示(成像)引擎。和绝大部分消费者紧密相关的是多媒体解码部分,也就是媒体引擎。Lunar Lake优化了AV1的硬件编码解码能力,并提供了VVC的硬解码能力。

  ▲牛大叔在DEMO区看到了Lunar Lake和Meteor Lake的视频播放功率对比,同样播放AV1编码的视频,Lunar Lake的功耗(我猜是整机除了屏幕外的功耗)几乎低一倍!那么现实应用中的意义是什么呢?答案是:Youtube上,8K视频(比如很多风景片)都采用AV1编码,如果你用笔记本在线看,整机的续航可以大幅提升!

  ▲而VVC解码则实现了“从软解到硬解的质变”。会场中演示了对应的功率差异:第一代酷睿Ultra靠CPU软解,处理器封装功耗高达37.4W;而切换到Lunar Lake的硬解码后,CPU功耗狂降10多倍至2.8W!

  这两年AI应用被热炒,英特尔也祭出了AI PC概念,并宣布2024为AI PC元年。而从目前的情况去看,业界似乎认定NPU是AI PC的重要一环——因为它可以用更低的功耗代替CPU和GPU实现特定的AI应用。

  但坦率说,第一代酷睿Ultra平台的NPU性能孱弱,基本是“结构性存在”。但在Lunar Lake上,NPU得到了大幅加强!

  注意,当前市面上的第一代酷睿Ultra的NPU被称为NPU3(有兴趣的朋友可以去查一下NPU1和NPU2是什么,这里不介绍了),所以,Lunar Lake的NPU被称为NPU4。相对于NPU3,它的一个巨大变化是采用了三倍的神经计算引擎,即6个神经计算引擎(NPU3为2个),而其整体AI算力提升到了48TOPS(每秒可进行48万亿次操作)。

  ▲这个曲线对比很直观:同功耗下,NPU4相对NPU3有两倍性能;而最高性能达到了NPU3的四倍。

  至于Lunar Lake的其他特性,诸如整合了WiFi7、多达3个雷电4接口、4个PCIe5.0和4个PCIe4.0等,这里就不赘述了。下面这张图比较好的归纳了Lunar Lake的特性▼

  ·大小核都采用了全新设计,性能增幅大,且在对比上代产品时,相同性能时功耗大幅降低;

  ·当然还有非常多设计服务于功耗的降低:比如更小的外频单位;以及全新的PMIC供电架构。

  ·全新NPU的规格和AI性能大幅度的提高,相比上一代,同功耗下实现两倍TOPS性能,最大TOPS性能达到4倍。

  全面解读Lunar Lake的“技术层面”后,接下来的问题是,英特尔为何需要采用这样颠覆性的设计?毕竟核心数量大减和取消超线程,从宏观来看,在大众消费层面的解释成本极高!

  虽然定义为轻薄本处理器,并非性能向的产品,但在这个“16线程都嫌少,(CPU线程)框框越多越令人兴奋”的大环境中,大刀猛砍处理器数量,还取消超线程,给普通消费者解释起来是比较痛苦的——因为在普通消费层面,复杂的电脑配置往往会简化为“14核/20线K高刷”一句线线程”,不懂的人肯定会觉得“这是啥超低端配置啊”……

  正如前面提到的,采用“P核+E核+LPE核+NPU复杂架构”的Meteor Lake,即第一代酷睿Ultra其实从GPU性能提升、整体平台功耗的降低、整机续航的提升上,相对于之前各代酷睿其实是非常显著非常成功的!一般的情况下,按部就班的推进就好。而Lunar Lake完全颠覆,必然是基于“更大的状况”,即竞争大环境——高通进军笔记本尤其是AI PC的力度非常大(有兴趣的朋友可自行了解下),而老对手AMD的步伐也相当快!谁都不想在全新的AI PC较量中落后!

  也正因为这样,Lunar Lake放弃了英特尔自造,直接冲了台积电3nm工艺;也正因为这样,Lunar Lake将更多精力放在了“降低功耗、提升能效”上,制程的提升,砍掉超线程,都有助于“节能”或者说“提升能效比”。毕竟,高通的处理器是ARM架构,功耗低续航长是先天优势——x86处理器要想在功耗和续航上与它正面刚,必须有所舍弃!

  很显然,在大量日常应用都开始利用GPU加速甚至GPU运算的当下,稳定提升GPU的性能是很重要的;而高性能的NPU则是“战未来”,所以,Lunar Lake对CPU部分“下狠手”就容易解释了。

  之前牛大叔曾经说过,基于小规模独立软件开发商的AI应用推广是相当难的。当下国内有不少特定领域的AI应用,但因为都是基于云端的,且没有大资金用于宣传,所以“大众看不到,不知道”。那部署在电脑上做成本地化AI呢?就更难了!电脑上能部署的AI模型不可能太大,效果可能会打折扣,还存在难以升级的问题!另一方面,即便本地部署,谁来买单?PC厂商预装后用户个人选择订阅付费?还是PC厂商买单后,以提升整机售价的形式转嫁给消费者?那多少钱合适?另外,你占据了硬盘空间,消费者不喜欢用不着又咋办?无论哪种形式,都有不完善和难以解决的问题!

  但从全球宏观层面来看,处于垄断地位的微软则丝毫没有推广问题!而它与AI大佬OpenAI的“深度绑定”(微软的AI助手Copilot基于OpenAI的GPT,而GPT又是运行在微软的Azure云端算力上的),铸就了Copilot AI功能的快速的提升,功能越来越强。加上Office 365也可调用Copilot进行各种办公智能辅助,所以,微软Copilot正在成为全世界(尤其是发达国家和地区)慢慢的变多PC用户的AI应用首选——实际上用户根本不用选,因为新款笔记本上就自带Copilot按键,一键直达!

  再说简单点就是:在PC的通用型AI应用层面,从目前的趋势来看,Copilot大概率是最大赢家!所以,英特尔AMD高通,都得与微软深度合作。而微软定义的Copilot+ PC,就提到了一定要采用CPU+GPU+NPU的硬件形态。

  且恰好,在与高通合作的Copilot+ PC上,微软推出了多款强势的本地AI应用,包含“Recall”(见上图)、“进阶版画图”和“实时字幕”——这仨应用都可离线运行,且都是运行在NPU上的。而一个官方宣传视频中,出现了“40TOPS算力的NPU”画面,所以,业界也就将≥40TOPS默认为了“新一代AI PC的NPU算力标准”(貌似微软并未官方宣布过这个标准)。而未来PC的大部分AI应用,大概率也是“云端+本地”结合的形式,而本地的AI应用,会有较大比例是微软自家提供且基于NPU算力的——而这,就是英特尔Lunar Lake大幅度的提高NPU算力的根本原因!如果你再看看其他厂商的处理器新品,就很容易得出相同答案。

  答案显然是:不会放弃。Lunar Lake是针对轻薄本的处理器,其实它有个“宏观定位”,是处理器封装功耗17W-30W的轻薄机型和超轻薄机型(继续八卦一下:别看Lunar Lake是8核8线程,但它最高功率可跑到90W!说不定功率上去了依然是一员猛将)。

  而根据牛大叔了解的信息,采用多核架构的高性能移动处理器酷睿H和HX也将继续保留——当然啦,新品最好是提升一下制程啦!返回搜狐,查看更加多