从铜缆到光互连:英伟达突破算力瓶颈,开启AI扩容新征程

   发布时间:2026-04-07 02:48 作者:唐云泽

在人工智能算力需求持续飙升的背景下,英伟达正通过技术迭代重构GPU互连架构。其最新发布的Vera Rubin NVL576与Rosa Feynman NVL1152系统,标志着GPU集群规模正式突破单机柜限制,通过光互连技术将单域计算节点扩展至576乃至1152颗GPU。这一跨越式发展背后,是英伟达对铜缆与光互连技术的深度权衡与战略布局。

2024年推出的NVL72机柜曾代表铜缆互连的物理极限。该系统通过5000余根同轴铜缆实现72颗GPU全互连,总缆长超3.2公里,自重达1.36吨。铜缆方案凭借零功耗、无源器件的高可靠性,以及每颗GPU仅需18个连接器的成本优势,成为当时最优解。英伟达网络高级副总裁Gilad Shainer曾强调:"在可用范围内,铜是完美的连接介质。"但铜缆的信号衰减特性导致1.8TB/s带宽下有效传输距离不足1米,这直接限制了单机柜GPU容量。

随着大模型训练对算力需求的指数级增长,跨机柜互连成为刚需。传统InfiniBand网络带宽与延迟无法满足数千颗GPU协同训练要求,英伟达开始重新评估光互连技术。2025年,公司在Spectrum以太网与Quantum InfiniBand交换机上率先量产共封装光学(CPO)模块,通过将光引擎集成至交换芯片封装,使单个光模块功耗从10-15瓦降至3瓦以下,体积缩减60%,为光互连进入scale-up网络扫清障碍。

新发布的NVL576系统采用铜光混合架构:机柜内部GPU与NVSwitch仍通过铜背板连接,跨机柜则采用光模块组建spine网络。这种设计既保留了铜缆在短距离连接中的成本与可靠性优势,又突破了物理距离限制。据测算,若用可插拔光模块替代铜缆,整套系统将额外消耗20千瓦电力,相当于增加16%的能耗。而CPO技术的引入,使光互连的功耗与成本降至可接受范围。

为确保供应链安全,英伟达在2026年3月完成三项关键投资:向激光器供应商Coherent与Lumentum各注资20亿美元锁定产能,并投资20亿美元与Marvell合作开发硅光子技术。Coherent随即宣布将磷化铟晶圆产能翻倍,Lumentum则加速高功率激光芯片研发。Marvell通过收购Celestial AI获得Photonic Fabric光子互连技术,该技术可构建跨机柜一致性内存网络,有望在Feynman系统中实现单层交换网络架构。

英伟达超大规模计算副总裁Ian Buck透露,Feynman系统计划在GPU封装中集成CPO,但需解决交换芯片端口密度难题。当前工艺下,单颗芯片直连上千颗GPU仍不现实,公司正探索分层交换与单层交换的平衡方案。Gilad Shainer在采访中暗示倾向单层架构:"计算引擎间的延迟必须尽可能低,这是设计核心原则。"

这场技术转型正重塑AI基础设施竞争格局。UALink联盟虽已推出开放互连标准,但其硬件量产要等到2026年底,规模部署可能延迟至2027年。而英伟达通过提前锁定光学供应链,在时间窗口期内建立起产能壁垒。不过公司明确表示,铜缆在机柜内部连接中仍不可替代——Vera Rubin与Feynman系统均保留铜背板设计,仅将光互连应用于跨机柜场景。这种"各司其职"的策略,标志着AI算力架构进入铜光共生的新时代。

 
 
更多>同类内容
全站最新
热门内容
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群