寒序科技亮剑推理芯片赛道:北大系黑马挑战巨头,目标2000 Tokens每秒

   发布时间:2026-03-11 01:26 作者:沈瑾瑜

当英伟达被传以200亿美元估值“招安”北美推理芯片明星企业Groq时,一场关于AI算力格局的变革正在悄然酝酿。而在太平洋彼岸,一家脱胎于北京大学的创业团队——寒序科技,正以“非共识”技术路线向行业抛出重磅炸弹:其首颗超大带宽流式推理芯片完成流片测试,单位面积带宽突破100 GB/s/mm²,下一代“MRAM+SRAM”混合架构更将目标直指2000 Tokens/s的推理速度极限。

这场技术突围战的核心,直指传统GPU架构的“阿喀琉斯之踵”——内存墙。现代GPU为兼容通用计算,设计了复杂的多级缓存和动态调度机制,在训练阶段通过数据并行展现统治力,却在推理场景中陷入“高射炮打蚊子”的困境。以生成Token为例,每个步骤依赖的矩阵向量乘运算(GEMV)本质是带宽受限型任务,而GPU的浮点运算单元常因等待显存数据搬运而闲置,导致算力利用率不足30%。

寒序科技的解决方案堪称“暴力美学”:彻底摒弃硬件调度逻辑,采用片上存储权重的流式架构。其芯片内部被划分为三大功能模块——高密度权重存储区、GEMV计算阵列、向量运算单元,数据流动路径严格遵循神经网络前向传播的确定性规则。这种“生产线模式”设计使每个纳秒的数据位置均可预判,消除动态资源争抢带来的延迟抖动,将带宽利用率推至理论极限。

流片测试数据印证了技术路线的颠覆性。在40nm制程下,寒序首颗芯片实现单位面积带宽100 GB/s/mm²,较传统HBM3e方案提升3倍以上,较Groq同类架构密度提升40%。这意味着在相同芯片尺寸下,寒序方案可处理更大规模的模型参数,或以更小功耗达成同等推理性能。对于需要毫秒级响应的具身智能、实时同传等场景,这种突破直接解决了“算力够用但带宽不够”的行业痛点。

更令行业瞩目的是其下一代混合存储架构。针对Groq纯SRAM方案容量受限的缺陷,寒序创新性引入MRAM(磁性随机存储器)。这种新型非易失性存储器兼具SRAM级速度与DRAM级密度,单芯片模型存储容量较纯SRAM方案提升10倍以上。通过动态分配MRAM存储长程权重、SRAM缓存短程激活数据,混合架构在保持2000 Tokens/s极限速度的同时,将单卡可运行模型规模从70B扩展至300B量级,为多智能体协同、复杂环境推理等场景提供算力基石。

技术突破的背后,是北大磁学中心十余年的底层研究积淀。团队在MRAM材料与存算一体架构领域拥有60余项专利,其独创的“磁电耦合写入技术”使MRAM写入能耗降低80%,突破了混合架构落地的最后一道屏障。这种从材料到系统的垂直创新,使寒序成为全球少数掌握高密度MRAM集成能力的推理芯片企业。

资本市场的反应印证了技术路线的价值。在完成数千万元Pre-A轮融资后,寒序科技已启动7nm制程芯片流片,预计2026年实现量产。投资方启高资本表示:“当行业还在争论GPU与ASIC路线时,寒序用确定性流式架构重新定义了推理芯片的物理边界,这种底层创新具有真正的范式革命意义。”

随着AI Agent从实验室走向产业应用,推理芯片的市场格局正在重构。英伟达虽在GTC 2026前夕强化推理布局,但其基于GPU的改良方案仍受制于架构惯性。而寒序科技代表的垂直创新者,正通过解构计算本质、重构数据流动规则,在算力霸权时代撕开一道突破口。当推理成为AGI落地的最后一公里,这场关于速度、密度与能效的战争,才刚刚拉开帷幕。

 
 
更多>同类内容
全站最新
热门内容
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群