芯东西(公众号:aichip001)
编译 | luna
编辑 | Panken
芯东西 9 月 1 日报道,8 月 29 日,在顶尖处理器和系统架构师的年度盛会 Hot Chips 2023 上,Arm 宣布推出 Neoverse 计算子系统(CSS),同时发布了第一代 CSS 产品 Arm CSS N2。这是 Arm 为进一步减少数据中心 CPU 开发周期和成本而推出的最新力作。
Neoverse 是 Arm 面向数据中心市场研发的 CPU IP 产品家族。相比以前提供的独立 IP 产品,Neoverse CSS 提供了更完整的系统设计模块,包括 IP 的集成、整合、验证等配置,等于是进一步节省了很多开发步骤,让其合作伙伴能根据需求更快开发出专用的服务器 CPU。
据 Arm 分享,以前开发 CPU 可能耗时长达 3 年,而使用 CSS 后,其一个客户的芯片开发从启动到投入使用,总共只花了 13 个月。
一年一度的 Hot Chips 大会本周在斯坦福大学举行,Arm 与其他知名芯片巨头及初创公司一同分享了以上动态。通过这次会议,观众不仅可以看到芯片领域顶级技术专家齐聚一堂的盛景,还可以领略行业风向标带来的前沿产品介绍以及他们对未来发展趋势的解析,今年也不例外。
本文将详解 Arm 在会上披露的 Arm CSS 的技术要点,并结合第一代 CSS CPU 产品 N2,来探讨全新的计算子系统如何缩减数据中心 CPU 的开发周期以及降低其成本。
一、13 个月搞定芯片交付!Arm 甩出定制新招,大降数据中心 CPU 开发成本
数据显示,5G 移动通信用户数已达 10 亿、物联网设备接近 150 亿个,加上高达 120ZB(皆字节)的数据产出量,连网的装置与数据的数量正持续地增加,而这一切都需要更多的功耗与更高的性能。叠加摩尔定律的递减,SoC 设计成本与复杂性持续攀升,推出高效率与特定计算处理即是企业的应对之策。
Arm 面向数据中心的基础设施定制化需求,推出的 Neoverse 计算子系统(CSS)是一款预先配置、整合及验证的系统,该系统通过在先进芯片上提供经过验证以及 " 性能最佳化 " 的计算,使芯片设计资源集中用于建构差异化的市场定制化解决方案。
▲ CSS 的组件
▲ CSS 是一个经过充分验证的系统
据介绍,CSS 的组件包括 Neoverse 核心、CMN 网状结构和系统 IP,能够快速提供市场高性能计算所需的系统管理、电源管理、软体和开发工具。CSS 提供 Armv9 架构和 Neoverse 技术的路线图为:Arm 机密计算架构(CCA)、AMBA CHI C2C、Arm 可变矩阵扩展(SME)等。
CSS 以更低的成本构建定制芯片,与传统解决方案相比,风险更低、上市时间更快。
▲ CSS 可节省大量时间和成本
该系统可以降低 SoC 设计复杂性,CSS 客户报告显示,从开始开发到可使用的芯片只需 13 个月,可节省 80 个 " 工程年 ",即原本需要工程师 80 年的工作时间。
▲ CSS 客户报告
Arm 资深副总裁暨基础设施事业部总经理 Mohamed Awad 说:" 我们赋予合作伙伴将有限的资源专注在关键差异化的能力,同时 Arm 也继续发挥所长,即提供可扩展且高效率的计算基础。"
二、首款 CSS 产品 N2:5nm 制程,Armv9 架构,可扩展 256 核
全新的计算子系统为 Arm Neoverse 系列提供计算处理的支撑,Arm 当即推出第一代 CSS CPU 产品—— CSS N2。CSS N2 基于现有的 Neoverse N2 核心而进行升级,通过 Neoverse 系列核心卓越的每瓦特性能来加快处理,以缩短芯片上市时间,助力芯片设计厂可以更专注于实现其商业价值,推出差异化的硬件和软件。
▲ CSS N2 核心功能一览
根据 Arm 介绍,CSS N2 采用5nm先进制程,多达 64 个 Neoverse N2 核心;每个核心高达 1MB 的 L2 私有缓存和高达 64MB 的共享系统级缓存;多达 8 个 DDR5 40b 或 LPDDR5 通道;多达 4 个 x16 PCIe/CXL Gen5 通道。
▲ CSS N2 的组件
从 Arm 分享的 CSS N2 技术路线可以看到,CSS N2 根据 Neoverse N2 核心进行预先整合、预先验证的配置,且优化了功耗、性能与面积(PPA)。具体来说,如下:
1、多核和多芯片扩展功能
对于需要高核心数的横向扩展云等用例,CSS N2 支持跨两个插槽扩展多达256 个核心。使用 UCIe 或特定于合作伙伴的 PHY 的高速芯片到芯片链路可以在单个插槽中链接多达 128 个核心。
▲ CSS N2 云到边缘用例
两个插槽可以使用 CXL PHY 和 SMP 协议进行相干连接。在这两种情况下,AMBA CXS 协议都用于将 UCIe/CXL 物理层和数据链路层桥接到基于 AMB ACHI 的 CMN-700 互连网状网络中。
除了所有硬件规格和组件外,CSS N2 还附带一套适合其运行和快速部署的软件和固件,具有各种功能和文档,以便用户在此 N2 核心上可以进行开发。
▲ CSS N2 的软件
2、连接加速器和外部设备
为了支持专用芯片和异构计算的开发,CSS N2 为片上和外部连接的加速器或其他设备提供了选项。片上加速器可以使用 Arm 的 NI-700 分组片上网络互连进行整合,并支持中断和地址转换。对于片外加速,CSS N2 支持组合 PCIe Gen5/CXL1.1 PHY,支持连接 GPU、TPU、DPU 和其他高速设备。这包括对 CXL Type3 连接的支持,这对于内存扩展、池化和分层用例非常有用。
▲ CSS N2 结构图
3、搭建完整的核心并增强安全性
CSS N2 包括 Arm 的合作伙伴构建专用芯片所需的所有计算子系统元素。这包括通过嵌入式 Cortex-M7 处理器处理的系统控制和管理。系统控制处理器(SCP)是一个值得信赖的核心,控制所有系统功能,如时钟控制、电源和电压域。可管理性控制处理器(MCP)与外部 BMC 连接,用于片上管理、RAS、事件记录和通信警报。
4、可靠认证
CSS N2 通过了 SystemReady SR 认证,并带有参考固件堆栈和虚拟固定核心模型。这使合作伙伴能够快速开发核心固件、集成操作系统和服务,并调整启动流程、安全性和电源管理——所有这些都在流片最终芯片之前完成。
CSS N2 将 Neoverse V2 核心、DDR5 内存和 PCIe Gen5/CXL IO 封装到一个性能和功耗平衡的子系统中,支持用于矢量处理和机器学习(ML)、加密增强、内存分区和监控以及高级电源管理,满足 5G、DPU、Arm 上的云计算和机器学习等的一系列市场需求。
Arm 背后的想法是,CSS N2 提供一个核心,使公司能够更轻松地使用 N2 核心的技术开发他们的产品,以获得带有 Arm Neoverse N2 核心的完整芯片,具有集成的安全和控制系统,并允许每个公司添加其他附加模块。
三、高性能 Neoverse V2 架构详解:能效翻倍,支持 CMN-700 网状互连
Arm Neoverse V2 CPU 为云端计算、高性能计算和机器学习性能领先而设计,是首款具有 Armv9 架构的性能、功耗和安全性强化功能的 V 系列处理器,其性能是 Neoverse V1 的两倍。
沿袭 V 系列,V2 通过内存标记扩展(MTE)和性能定义功耗管理(PDP)等 Armv9 功能,提高专用处理和工作负载加速能力。
值得注意的是,相关技术博客称,Neoverse V2 拥有几乎无限的扩展能力。与CMN-700 核心网状网络搭配使用时,V2 可配置多达 256 个核心和 512MB 的系统级缓存(SLC)。在 V2 上,AMBA CHI C2C 使用 UCIe、CXL、PCIe 或定制化 PHY 连接计算、存储芯片和加速器,进而实现芯片间和芯片外连网。
据 Arm 介绍,V2 核心构建在现有 Neoverse 架构的功能之上,可提供具有总拥有成本(TCO)优势的高性能,同时支持具有 DDR5/HBM3 内存、PCIe5 IO 和 CXL2.0 附加内存或相干加速器的多芯片 / 插槽解决方案。
根据外权威服务器专业评测网站 Serve The Home 报道,在数据方面,V2 的性能相较于 V1 有了两到三位数的显著提高:
1)在基准测试程序 SPEC CPU 和 SPECRate(速度和吞吐量)分别显示出 13% 和 17% 的增长率。
2)在当下流行的分布式内存缓存系统 Memcached 上进行的测试显示,性能提升高达 15%。
3)Web 服务器 NGINX 在 V2 上性能提升高达 32%。
4)由于 V2 在分支预测、获取和硬件预取方面的改进,在关系型数据库管理系统 MySQL 的开源平台 Percona 发行版上显示,V2 性能(以每秒事务数衡量)提高了 104%。
▲ V2 与 V1 的测试表现
5)最后,使用 XGBoost 的机器学习测试发现,V2 比 V1 的性能平均提高了一倍,性能提升两倍。通过全面强化的管道和高达两倍的 L2 快取大小(每核心 2MB),V2 在云端和机器学习应用上的性能是 V1 的两倍。
V2 核心为整体 Neoverse 计算架构带来了重大改进,重点关注提高性能,同时确保微架构的变化不会导致不成比例的高功耗和面积成本。Neoverse V2 包含最新的以基础设施为中心的 Neoverse V2 CPU 核心,实现了 Armv9 架构的新功能。
结语:搅局数据中心市场,Arm 正重新定义芯片开发的 " 基础设施 "
作为全球顶级半导体 IP 供应商,Arm 近年来一直在改良芯片开发的 " 基础设施 ",让基于其 IP 核心的芯片设计门槛一降再降。此次 Arm 最新推出的 CSS,不仅是其 Neoverse 产品矩阵的最新创举,也是对数据中心服务器 CPU 下的一剂猛料。
▲ Neoverse 产品路线图
以前做开发,虽然能拿到 Arm 的 Neoverse 服务器 CPU 参考设计和授权,但其合作伙伴还是需要在一系列开发步骤中投入人力和财力。
而采用像 Neoverse CSS N2 这样的现成设计后,Arm 合作伙伴就能 " 跳关 " 开发,也就是不用开发处理器,也不用进行设计验证、第三方 IP 集成验证、添加接口、晶圆厂集成等繁复步骤,就能开发出满足特定需求、功能齐全的 CPU。
这种更加灵活且降低开发门槛的解决方案,让没那么多专业芯片工程师的企业也能参与到定制的服务器 CPU 设计中,进而有助于扩大 Arm 在数据中心领域的客户范畴和生态系统。
相关标签: