在人工智能技术发展的进程中,云端大模型算力不断攀升,而边缘AI正逐渐成为行业瞩目的焦点。边缘AI凭借其实时响应、安全隐私保护以及成本等方面的显著优势,被视为AI技术的未来发展方向。然而,当前多数端侧AI仍对云端存在依赖,在复杂场景下出现响应延迟、高算力需求受供电和体积限制等问题,特别是在海量物联网场景中,这些痛点极大地阻碍了边缘AI的规模化发展。
近日,在芯片设计服务及IP领域深耕多年的芯原与谷歌携手,共同推出了面向端侧大语言模型应用的Coral NPU IP。这一成果为边缘AI的发展带来了新的契机。该设计专为始终在线、超低能耗的边缘AI应用打造,尤其适用于可穿戴设备。通过此次合作,谷歌的开源研究成果实现了从算法到芯片验证的商业化闭环,有力推动了端侧AI应用的快速落地,有望让更多便携设备实现智能化升级。
对于芯片设计商来说,为低功耗边缘设备赋予AI能力,通常有两种方式:一是借助CPU,二是使用专用加速器。CPU虽然灵活且软件适配性高,但缺乏针对AI负载的专用架构,难以同时兼顾性能与能效;专用加速器ML效率高,却存在灵活性不足、编程困难的问题。而且,二者软件生态高度碎片化,开发者不得不使用专有编译器,增加了学习成本。
目前,传统芯片设计多采用CPU + AI加速器的组合架构,但这种架构在处理实时在线持续性AI任务时效率低下,难以满足超低能耗和成本敏感的边缘AI场景需求。Coral NPU则为行业提供了全新思路,其秉持“AI为先”的设计理念,从底层架构到开发环境都进行了创新。它基于开放的RISC - V指令集架构,将负责运行ML运算的“矩阵执行单元”置于架构核心位置,同时配备轻量级RISC - V RV32IM前端作为简单控制核心,以及遵循RVV 1.0标准的向量执行单元提供额外计算能力。三种运算在同一ISA内紧密耦合,使整个架构底层实现了面向AI负载的优化。
这种架构设计带来了显著优势,实现了功耗与性能的高效平衡。其性能可达每秒执行约5120亿次操作(512GOPS),而功耗却控制在毫瓦级别。这对于需要7×24小时运行AI功能且电池容量有限的小型AI设备来说,无疑是一次重大突破。Coral NPU支持主流机器学习框架,如JAX、PyTorch和TensorFlow Lite(TFLite),并采用基于开放标准的工具,如来自低级虚拟机(LLVM)项目的多级中间表示(MLIR)作为编译器基础设施,大幅简化了AI开发从云到端的流程。
Coral NPU在RISC - V基础上扩展了AI能力,既能进行传统CPU计算,又能实现AI矩阵计算,避免了传统独立CPU/NPU设计带来的系统复杂性、成本及数据迁移问题,解决了边缘AI设备生态碎片化的难题,同时提升了机器学习性能,降低了芯片厂商的研发设计门槛。
Coral NPU专为超轻量、超低能耗、始终在线的边缘AI打造,特别适合可穿戴设备等对设计轻巧、美观有要求,且需要持续续航提供全天候AI体验的产品。今年以来,在海内外龙头企业的推动下,智能眼镜在消费电子市场崭露头角,但普遍存在依赖云端AI能力、交互延迟和价格高昂等问题。行业认为,智能眼镜进一步发展取决于重量30克以内、续航8小时以上以及价格2000元以下这三个关键指标。Coral NPU IP的推出,凭借其面向AI优化的架构以及在推动边缘设备小型化、低功耗和降低成本方面的优势,有望助力智能眼镜提升体验并实现规模化落地。
例如,针对特定使用场景,通过对AI功能进行裁剪,在端侧运行经过训练的高效轻量级模型,可显著提升AI能力和智能化水平,加速产品技术创新,增强相关产品的差异化竞争力。今年8月,谷歌推出了史上最小Gemma 3开源轻量级模型,仅有2.7亿个参数。在其演示中,用Gemma 3驱动的睡前故事生成器网页应用,只需勾选几个选项就能生成精彩故事。一些玩具厂商已开始在产品中部署轻量级模型,实现智能化升级,为儿童教育陪伴和成人情绪价值提供支持,这将对玩具和陪伴类产品及市场产生颠覆性影响。芯原内部也正在面向AI玩具、眼镜等海量应用市场微调小模型,并与相关领先机构合作,以便在推出定制化芯片平台时,更好地平衡算力部署的性能、功耗和成本。
若将Coral NPU和Gemma 3应用于智能眼镜,结合特定数据集进行针对性训练,并针对垂直场景进一步细分,使其具备端侧实时翻译、拍照、音频处理等功能,就能覆盖大多数使用场景。这不仅有助于芯片和终端厂商把握市场机遇,推出差异化产品抢占市场,还能加速智能眼镜等边缘AI设备的创新和规模落地,让端侧AI的智能和服务更快惠及用户。
芯原和谷歌在技术与生态打造方面的合作已有十余年历史。此次合作源于谷歌2023年发起的“Open Se Cura”开源研究计划。该计划是谷歌研究团队联合多个合作伙伴开发的开源框架,基于RISC - V架构,包含开源设计工具和IP库,旨在加速开发适用于小型设备的低功耗AI系统。Coral NPU IP的推出,基于双方在该项目上的经验,标志着谷歌开源技术与芯原在芯片设计和产业化支持上的深度携手。
目前,Coral NPU IP已在谷歌开发者网站开源,面向全球开发者开放。芯原将提供商业化的企业级IP版本,并结合自身丰富的IP储备以及芯片设计与验证能力,为客户面向可穿戴、智能家居等领域的芯片提供一站式定制等服务。在NPU IP领域,芯原积累深厚,其神经网络处理器(NPU)IP已被91家客户用于140余款人工智能芯片中,集成了芯原NPU IP的AI类芯片全球出货近2亿颗。今年上半年,芯原超低能耗NPU已可为移动端大语言模型推理提供超40 TOPS算力,并在知名企业的手机和平板电脑中量产出货。最新一代NPU架构针对Transformer类模型进行了优化,既能高效运行Qwen、LLAMA类大语言模型,也能支撑Stable Diffusion、MiniCPM等AIGC和多模态模型。芯原NPU还与自有的众多处理器IP深度集成,形成包括AI - ISP、AI - Display、AI - VPU、AI - GPU、AI - DSP在内的众多AI加速子系统解决方案。此次Coral NPU IP的推出,将成为芯原NPU IP产品矩阵以及端侧AI芯片设计平台的重要组成部分,可为客户定制更多超低功耗场景的端侧AI芯片设计方案,加速推动大语言模型在边缘端的部署。





















