OpenAI试水谷歌TPU芯片,但大规模部署计划仍持谨慎态度

   发布时间:2025-07-04 20:25 作者:赵云飞

近期,业内动态显示,OpenAI在寻求计算资源的多元化布局上迈出了新步伐,其合作网络不再局限于长期伙伴微软,而是积极拓展至甲骨文、CoreWeave等,甚至包括直接竞争对手谷歌。

尽管市场传闻OpenAI可能与谷歌建立合作关系,利用谷歌自研的张量处理单元(TPU)来运行或训练其模型,但据路透社报道,这一合作在近期内并未成为现实。OpenAI在周末发布的声明中承认,他们正在测试谷歌的TPU技术,但目前尚无大规模部署的具体计划。

这一声明是在《The Information》的一篇报道之后发出的,该报道指出谷歌已努力说服OpenAI将其工作负载转移至自家的加速器上。此举被外界视为OpenAI试图减少对微软及英伟达依赖的信号,尤其是在萨姆·奥特曼领导的模型构建商寻求更多自主权的背景下。

事实上,OpenAI在硬件堆栈多样化方面已有多年的探索。尽管起初可能主要依赖英伟达的DGX系统,但这一关系从未排他。GPT系列模型在多种硬件平台上均有运行,包括微软自研的Maia加速器。同时,微软作为OpenAI的主要基础设施提供商之一,也是最早采用AMD Instinct MI300系列加速器的企业之一,这些加速器在运行GPT-4等模型时展现了关键优势。

AMD的加速器以其高内存容量和带宽著称,这可能使它们在模型服务方面比英伟达的GPU更具经济性。因此,即使OpenAI与微软的关系有所调整,AMD仍保持着与这家新兴AI巨头的关键合作关系。上个月,奥特曼在AMD AI推进活动上发表演讲,进一步强调了双方的合作。

OpenAI还被曝正在自主研发AI芯片,以优化其训练和推理管道的计算、内存、带宽和网络比例。这一举动表明,OpenAI在追求技术自主性的道路上越走越远。

在这样的背景下,OpenAI测试谷歌自研芯片的想法并不令人意外。毕竟,谷歌的Gemini模型已经证明了其架构在大规模训练上的能力。而且,谷歌提供的TPU加速器拥有多种配置,可满足不同计算、内存和可扩展性需求,为OpenAI提供了灵活性。

例如,谷歌第七代Ironwood TPU具有高达4.6 petaFLOPS的密集FP8性能、192GB高带宽内存(HBM)以及1.2TB/s的芯片间带宽,与英伟达的Blackwell加速器相当。这些TPU可以以256芯片或9,216芯片的集群形式存在,甚至可以进一步连接以扩展计算能力。

然而,尽管有这些潜在优势,OpenAI还是决定暂不使用谷歌的TPU。这背后的原因可能包括性能未达到预期、谷歌无法满足其需求或每个Token的成本过高等。但更可能的是,OpenAI的软件堆栈已经高度优化以适应GPU环境。要将这一软件调整到充分利用TPU架构,需要投入大量时间和资源,且最终可能并不会带来显著的性能提升。

正如常言所说,只有亲自尝试才知道山有多高。OpenAI在探索新技术和合作伙伴的道路上,显然也在不断学习和调整策略。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群