人工智能技术改变了我们的生活,而说到AI背后的算力,人们经常会先想到GPU。从2019年英特尔为其第二代至强可扩展处理器增添了内置的深度学习加速技术后,原本定位通用计算的CPU芯片,也加入了为AI加速的行列。
今天,代号为「SapphireRapids」的第四代至强可扩展处理器也在中国迎来发布首秀,除了一系列微架构的革新和技术规格的升级外,新CPU对AI运算「更上层楼」的支持也格外引人关注,其背后的技术助力,也是英特尔在这代产品中增添的全新内置AI加速器——英特尔高级矩阵扩展(AMX)技术自然也成为了焦点。
(资料图)
作为焦点,当然要拿出实力来证明自己的价值——在发布会上,英特尔透露的第四代至强可扩展处理器的基础算力平均提升值为53%,而在AMX的助推下,其在PyTorch上的AI实时推理速度,可提升至上一代产品(FP32)的5.7-10倍,训练性能提升最高也能提升到上一代产品的10倍……这意味着,这款新至强,把业界顶级CPU的性能门槛一下子提高了不少。
新一代英特尔CPU为AI任务处理找到了新方向。现在,英特尔可以通过新CPU和GPU实现对各类AI任务的加速。为实现这些提升,英特尔引入了一系列内置加速单元。
多种加速器加持,提升AI训练、推理及端到端性能
AI的热度,从AlphaGo一鸣惊人后,一直就没有减退。最近一段时间,人们都在谈论ChatGPT等「大模型」带来的革命性体验。由预训练模型方法推动的AI技术正在向跨任务、跨模态的方向演进,已成为当下AI技术发展的重要趋势。
然而,大模型虽然带来了前所未有的AI能力,又对算力提出了无穷无尽的需求。芯片制造商和科技公司一直在寻找提升AI应用效率的方法。GPU更多解决的,是训练效率,是探索AI算法边界的能力,而CPU,似乎更适合在AI应用的规模化部署和实践上发挥重要作用。
自从四五年前开始在CPU中内置针对AI进行加速的专用运算单元或指令集后,英特尔就一直相信,如果想要在更为广泛的行业中真正推进AI应用的普及,那么就应该充分利用现阶段应用和部署最为广泛的IT基础设施和架构,也就是要更加充分地利用CPU的资源。毕竟使用GPU和其他专用加速器的成本以及知识和人才门槛都非常高。相比之下,CPU内置AI加速能力,主攻AI推理加速,并搭配以更为简单易用、能够部署和优化难度的软件工具,会是一条更为行之有效的路径。
它是这么想,也是这么做的——首先,从2017年第一代至强可扩展芯片开始,英特尔就开始利用英特尔高级矢量扩展512技术(AVX-512指令集)的矢量运算能力对AI进行加速上的尝试,到2018年英特尔在第二代至强可扩展芯片导入深度学习加速(DLBoost)技术,更是让至强成为了首款集成AI加速有力的主流数据中心级CPU,或者说:CPU加速AI的代名词。
2020年通过扩展出bfloat16加速功能,面向多路服务器的第三代至强可扩展处理器在推理加速能力之外,又增加了训练加速能力,已被证明可以帮助业界大量AI工作负载实现更优的性能和功耗比。
就在大家认为英特尔在CPU加速AI的技术创新和投入会止步于此的时候,第四代至强可扩展芯片,又带来了矩阵化的算力支持——AMX。
这种全新内置AI加速器的出现,进一步验证了「与其增加CPU内核数和时钟频率,加入和更新专用计算单元对提升AI工作负载性能更有效」这一思路。正如前文所述,第四代至强可扩展芯片不仅可借助AMX实现相当于上一代芯片(FP32)10倍的AI性能提升,与前两代产品使用的深度学习加速技术相比,其理论性能(每秒操作量)最高也可以达到其8倍之多。
机器学习包含大量的矩阵计算,在主打通用计算的CPU上,此类任务会被转换为效率较低的向量计算,而在加入专用的矩阵计算单元后,至强CPU的AI能力有了巨大的提升。因此,AMX可以被视为至强CPU上的「TensorCore」——从原理上看,CPU上的AI加速器实现的目的和GPU、移动端处理器上的类似。由于AMX单元对底层矩阵计算进行加速,理论上它对于所有基于深度学习的AI应用都能起到效果。
如果说AMX为至强CPU带来的是直观的推理和训练加速,那么第四代至强可扩展芯片内置的其他几种加速器,就是为AI端到端应用加速带来的惊喜。
这是因为在真正完整的AI应用流水线中,任务往往会从数据的处理和准备开始,在这一阶段,第四代至强可扩展芯片内置的数据流加速器(DSA),可让数据存储与传输性能提升到上一代产品的2倍,而专门针对数据库和数据分析加速的英特尔存内分析加速器(IAA),也可将相关应用的性能提升到上一代产品的三倍(RocksDB);数据保护与压缩加速技术(QAT),则能在内核用量减少多达95%的情况下将一级压缩吞吐量提升至原来的两倍。这些技术的使用,也有助于AI端到端应用性能的整体跃升。
此外,随着AI应用在更多行业,包括金融、医疗等数据敏感型行业的落地,人们对于数据安全合规的要求逐渐提高,联邦学习等技术逐渐获得应用。在这一方面,至强可扩展处理器集成的专攻数据安全强化的加速器——软件防护扩展(SGX),也是大有用武之地,它的突出优势就是可以为处理中或运行中的敏感数据和应用代码提供与其他系统组件和软件隔离的安全飞地,实现更小的信任边界。
这种技术对于AI而言,最核心的价值就是可以让有多方数据交互、协作的AI训练过程变得更加安全,各方数据都可以在其拥有者的本地参与训练,用于训练的数据和模型会被安全飞地所保护,最终模型可以在这种保护下提升精度和效率,但为其演进做出了关键贡献的数据则会一直处于「可用而不可见」的状态下,以确保其中的敏感和隐私信息的安全性。
在这么多内置加速器的支持下,可以说,从数据预处理,到训练,再到推理,最后到整个AI应用的安全保护层面,第四代至强可扩展处理器都实现了更全面的功能覆盖和重点增强。与此同时,英特尔还在进一步强化AI加速的开箱即用优势:通过与大量第三方进行合作,英特尔共同优化了SAPHANA、MicrosoftSQLServer、Oracle、VMwareCloudFoundation、RedHatOpenShift等主流应用,很多主流软件库和开源机器学习框架,以及大多数云服务也对这款英特尔架构上的新品做好了优化,开发者可以直接使用新硬件开发和部署AI算法。
从开发者的角度看,使用第四代至强可扩展处理器实现优化加速的门槛也确实很低:人们只需使用集成在TensorFlow和PyTorch中的库,无需任何额外工作即可激活至强芯片内置AI加速的能力。此外,只需更改几行代码,开发人员就可以无缝地加速单节点和多节点配置中的Scikit-learn应用。
全能服务器CPU
除了有加速器傍身专攻特定应用负载外,第四代至强可扩展处理器在基础性能上也是可圈可点。
例如,它采用了与英特尔第12、13代酷睿同款的Intel7制造工艺(改进版10nm制程)和GoldenCoveCPU架构,同时首次引入chiplet小芯片封装方式,最多可搭载60个核心,改用新的SocketELGA4677封装接口,集成了112MB三级缓存,功耗最高达到350W。
新一代至强还带来了对八通道DDR5-4800和PCIe5.0的支持,并包含CXL1.1高速互连总线,可选集成最多64GBHBM2e内存。
上述这些针对IO和存储的新技术的引入,使得第四代至强可扩展处理器具备了能够打破带宽瓶颈的I/O能力,让使用者可以充分利用处理器的代际性能提升满足AI平台等业务对于通用算力的苛刻需求。
其实在过去几年里,英特尔已经陆续推出了一些异构产品,例如2022年英特尔旗下的HabanaLabs正式发布了用于深度学习训练的Gaudi2,随之被应用在AWS上。同年夏天主打视觉云应用的数据中心GPUFlex系列也在视频处理、云游戏和视觉AI推理应用中初露头脚,但很多「发烧级」用户最期待的还是数据中心GPUMax系列,今天,这款采用了突破性设计,采用多芯片集合的方式,混合5种工艺,晶体管数量超过千亿的「怪兽」,终于来了!
GPU产品线的完善,也使得英特尔成为业界唯一一家能提供横跨CPU、GPU、ASIC、FPGA四大类型芯片计算解决方案的供应商,可为智能数据中心提供基于任何场景、需求的产品组合。
强大的硬件之外,英特尔还利用oneAPI软件体系实现了对异构硬件的统一编程和管理,构建了能够灵活调配、无缝协作和低门槛的AI开发工具。通过XPU硬件、oneAPI软件及UCIe开放标准的布局,英特尔已经打造出了软硬一体化的完整生态。
随着新一代芯片发布,我们或许将看到未来AI计算的形态发生重要转变。
标签: 更上一层楼
相关新闻
保险时讯
09-15
10-21
10-21
10-21
10-21
10-21
10-21
10-21
10-21
10-21