SIGCOMM2024收录阿里云HPN 7.0论文 展示AI智算新架构

   发布时间:2024-05-13 15:55

【智快网】5月13日消息,近日,备受瞩目的网络通信领域国际顶级会议SIGCOMM2024公布了其收录的论文名单。在这份名单中,中国企业阿里云表现出色,共有6篇论文被选中。其中一篇详细阐述了阿里云最新研发的智算集群网络架构HPN 7.0,该论文在SIGCOMM的历史上标志着首次涉及AI智算集群网络架构领域。据悉,SIGCOMM2024将于今年8月在悉尼举行线下会议。

随着大型模型的热度不断升温,AI基础设施的需求也日益严苛。为了满足这一时代的需求,阿里云针对性地研发了HPN7.0架构。该架构特别针对大模型训练过程中的特点,如规模大、数据流多、突发性强以及对稳定性的高要求,进行了独特的设计。它采用了“双上联+多轨+双平面”的网络结构,并配备了最新一代的51.2Tbps单芯片以太网交换机和400G高性能网卡。此外,通过自研的Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高效稳定互联。

据智快网了解,自2023年9月起,HPN7.0已在阿里云进行大规模部署。与上一代架构相比,在典型场景下,大模型的训练性能提升了14.9%,同时显著增强了智能计算网络的稳定性。近期,阿里云发布的通义千问2.5版大模型就是基于HPN7.0高性能网络架构进行训练的。与2.1版本相比,新模型在理解能力、逻辑推理、指令遵循和代码能力方面分别提升了9%、16%、19%和10%,其中文性能已全面超越GPT-4Turbo。

阿里云基础设施网络负责人蔡德忠指出,公司自2017年就开始了对端网融合可预期网络的探索。而HPN7.0不仅延续了这一探索,更将端网融合的体系结构从网络协议栈层面扩展到网络架构和通信库,实现了针对AI智能计算时代的新型网络集群架构创新。

网络架构作为网络技术和系统的核心,其重大创新极为罕见。此前,SIGCOMM关于传统数据中心网络架构的经典文章是Google提出的Jupiter网络,它已成为行业内的标准架构模式。专家表示,阿里云提出的新一代网络架构HPN7.0有望成为下一代AI高性能网络架构的新标准。

回顾SIGCOMM近50年的历史,仅有50余篇论文来自中国大陆,其中阿里云就占据了25篇,是国内科技公司中收录最多的。这反映了阿里云在高性能网络领域的深厚底蕴和持续创新。阿里云不仅提出了端网融合的可预期网络技术体系,还在业界率先实现了RDMA低延迟网络和智算集群网络架构HPN 7.0等先进技术的广泛应用。阿里巴巴也因此荣获权威机构AMiner评选的全球十大最具影响力的网络研究机构之一。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群