在华为全联接大会上,华为轮值董事长徐直军详细介绍了公司在人工智能算力领域的最新战略布局与产品规划。他指出,算力不仅是人工智能发展的核心,更是中国在这一领域取得突破的关键。自2018年推出昇腾310芯片、2019年发布昇腾910芯片以来,华为持续加大在AI基础算力研发上的投入,致力于为全球AI算力构建坚实基础。
面向未来,华为已规划三个系列的昇腾芯片,包括950、960和970系列。其中,昇腾950系列包含950PR和950DT两颗芯片,分别计划于2026年第一季度和第四季度上市。昇腾960芯片将于2027年第四季度推出,而昇腾970芯片预计在2028年第四季度面世。与前代产品相比,昇腾950在技术上实现了多项突破,新增支持FP8/MXFP8/HIF8、MXFP4等低精度数据格式,算力分别达到1 PFLOPS和2 PFLOPS,显著提升了训练与推理效率。同时,向量算力大幅提升,内存访问粒度更精细,互联带宽提升至2 TB/s,并搭载了自研的HBM技术HIBL1.0和HIZQ2.0。
在通用计算领域,华为还规划了鲲鹏950与鲲鹏960芯片,分别计划于2026年第四季度和2028年第一季度上市。这两款芯片将围绕支持超节点和更高性能持续演进,以满足不断增长的算力需求。华为正式发布了面向超节点的互联协议——灵衢,并开放了灵衢2.0技术规范。自2019年启动研究以来,灵衢1.0已开启商用验证,此次灵衢2.0的开放旨在邀请产业界共同研发相关产品和部件,共建开放生态。
超节点作为智算发展的重要趋势,其物理上由多台机器组成,但逻辑上以一台机器进行学习、思考和推理。华为在此次大会上发布了Atlas 950 SuperPoD和Atlas 960 SuperPoD两款超节点产品。其中,Atlas 950超节点基于昇腾950芯片,支持8192卡规模,由128个计算柜和32个互联柜组成,占地面积约1000平方米,FP8算力达8EFlops,FP4算力达16EFlops,互联带宽高达16 PB,相当于当前全球互联网总带宽的10倍以上。这款超节点将于2026年第四季度上市,徐直军强调,它将成为2026至2028年间全球算力最强的AI超节点。
Atlas 960超节点则支持15488卡,由176个计算柜和44个互联柜组成,算力、内存和带宽在Atlas 950基础上再度翻番,计划于2027年第四季度上市。徐直军特别提到,超节点的价值不仅体现在制造、通信和计算等传统业务领域,还在互联网产业广泛应用的推荐系统方面发挥着重要作用。华为基于泰山950和Atlas 950可构建混合超节点,为下一代深度推荐系统开创全新的架构方向。
通过超大带宽、超低时延互联技术及超大内存容量,混合超节点能够形成PB级别的共享内存池,支持超大规模推荐系统嵌入表,从而承载超高维度的用户特征。同时,其具备的超大AI算力可支持低时延推理和高效特征检索。然而,大规模超节点在提升智能计算和通用计算能力的同时,也对互联技术提出了巨大挑战。例如,如何实现8192卡乃至15488卡规模的高效可靠互联,成为业界亟待突破的技术难题。
徐直军指出,当前产业界许多已发布的超节点方案未能实现大规模部署,其核心瓶颈并非芯片本身,而是互联技术尚未成熟。具体来说,一是如何实现长距离且高可靠的互联。大规模超节点涉及多个机柜,连接距离可能长达1000至2000米。当前电互联技术在高速信号传输时距离受限,最多仅支持两个机柜互联;而光互联技术虽能满足长距离连接需求,却无法达到单一计算机系统所要求的高可靠性。二是如何实现超大带宽与超低时延。当前跨机柜卡间互联带宽与超节点需求存在5倍以上差距,时延最好仅能达到3微秒左右,与Atlas 950/960设计目标仍有24%的差距。
由于受到外部制裁,华为无法采用全球最先进的芯片制程工艺。因此,必须通过超节点架构将多个芯片组合成一台逻辑统一的计算机,以系统级创新弥补单芯片性能差距。依托30多年积累的技术能力,华为通过系统性创新攻克了上述互联技术难题,完全满足了Atlas 950/960超节点的设计需求,并为未来实现万卡级超节点奠定了技术基础。徐直军表示,基于全球最强算力的超节点和集群,华为对于为人工智能的长期快速发展提供可持续且充裕算力充满信心。