芯原谷歌强强联合，以Coral NPU IP助力边缘AI规模化落地新征程-科技-智快网

在人工智能技术发展的进程中，云端大模型算力不断攀升，而边缘AI正逐渐成为行业瞩目的焦点。边缘AI凭借其实时响应、安全隐私保护以及成本等方面的显著优势，被视为AI技术的未来发展方向。然而，当前多数端侧AI仍对云端存在依赖，在复杂场景下出现响应延迟、高算力需求受供电和体积限制等问题，特别是在海量物联网场景中，这些痛点极大地阻碍了边缘AI的规模化发展。

近日，在芯片设计服务及IP领域深耕多年的芯原与谷歌携手，共同推出了面向端侧大语言模型应用的Coral NPU IP。这一成果为边缘AI的发展带来了新的契机。该设计专为始终在线、超低能耗的边缘AI应用打造，尤其适用于可穿戴设备。通过此次合作，谷歌的开源研究成果实现了从算法到芯片验证的商业化闭环，有力推动了端侧AI应用的快速落地，有望让更多便携设备实现智能化升级。

对于芯片设计商来说，为低功耗边缘设备赋予AI能力，通常有两种方式：一是借助CPU，二是使用专用加速器。CPU虽然灵活且软件适配性高，但缺乏针对AI负载的专用架构，难以同时兼顾性能与能效；专用加速器ML效率高，却存在灵活性不足、编程困难的问题。而且，二者软件生态高度碎片化，开发者不得不使用专有编译器，增加了学习成本。

目前，传统芯片设计多采用CPU + AI加速器的组合架构，但这种架构在处理实时在线持续性AI任务时效率低下，难以满足超低能耗和成本敏感的边缘AI场景需求。Coral NPU则为行业提供了全新思路，其秉持“AI为先”的设计理念，从底层架构到开发环境都进行了创新。它基于开放的RISC - V指令集架构，将负责运行ML运算的“矩阵执行单元”置于架构核心位置，同时配备轻量级RISC - V RV32IM前端作为简单控制核心，以及遵循RVV 1.0标准的向量执行单元提供额外计算能力。三种运算在同一ISA内紧密耦合，使整个架构底层实现了面向AI负载的优化。

这种架构设计带来了显著优势，实现了功耗与性能的高效平衡。其性能可达每秒执行约5120亿次操作（512GOPS），而功耗却控制在毫瓦级别。这对于需要7×24小时运行AI功能且电池容量有限的小型AI设备来说，无疑是一次重大突破。Coral NPU支持主流机器学习框架，如JAX、PyTorch和TensorFlow Lite（TFLite），并采用基于开放标准的工具，如来自低级虚拟机（LLVM）项目的多级中间表示（MLIR）作为编译器基础设施，大幅简化了AI开发从云到端的流程。

Coral NPU在RISC - V基础上扩展了AI能力，既能进行传统CPU计算，又能实现AI矩阵计算，避免了传统独立CPU/NPU设计带来的系统复杂性、成本及数据迁移问题，解决了边缘AI设备生态碎片化的难题，同时提升了机器学习性能，降低了芯片厂商的研发设计门槛。

Coral NPU专为超轻量、超低能耗、始终在线的边缘AI打造，特别适合可穿戴设备等对设计轻巧、美观有要求，且需要持续续航提供全天候AI体验的产品。今年以来，在海内外龙头企业的推动下，智能眼镜在消费电子市场崭露头角，但普遍存在依赖云端AI能力、交互延迟和价格高昂等问题。行业认为，智能眼镜进一步发展取决于重量30克以内、续航8小时以上以及价格2000元以下这三个关键指标。Coral NPU IP的推出，凭借其面向AI优化的架构以及在推动边缘设备小型化、低功耗和降低成本方面的优势，有望助力智能眼镜提升体验并实现规模化落地。

例如，针对特定使用场景，通过对AI功能进行裁剪，在端侧运行经过训练的高效轻量级模型，可显著提升AI能力和智能化水平，加速产品技术创新，增强相关产品的差异化竞争力。今年8月，谷歌推出了史上最小Gemma 3开源轻量级模型，仅有2.7亿个参数。在其演示中，用Gemma 3驱动的睡前故事生成器网页应用，只需勾选几个选项就能生成精彩故事。一些玩具厂商已开始在产品中部署轻量级模型，实现智能化升级，为儿童教育陪伴和成人情绪价值提供支持，这将对玩具和陪伴类产品及市场产生颠覆性影响。芯原内部也正在面向AI玩具、眼镜等海量应用市场微调小模型，并与相关领先机构合作，以便在推出定制化芯片平台时，更好地平衡算力部署的性能、功耗和成本。

若将Coral NPU和Gemma 3应用于智能眼镜，结合特定数据集进行针对性训练，并针对垂直场景进一步细分，使其具备端侧实时翻译、拍照、音频处理等功能，就能覆盖大多数使用场景。这不仅有助于芯片和终端厂商把握市场机遇，推出差异化产品抢占市场，还能加速智能眼镜等边缘AI设备的创新和规模落地，让端侧AI的智能和服务更快惠及用户。

芯原和谷歌在技术与生态打造方面的合作已有十余年历史。此次合作源于谷歌2023年发起的“Open Se Cura”开源研究计划。该计划是谷歌研究团队联合多个合作伙伴开发的开源框架，基于RISC - V架构，包含开源设计工具和IP库，旨在加速开发适用于小型设备的低功耗AI系统。Coral NPU IP的推出，基于双方在该项目上的经验，标志着谷歌开源技术与芯原在芯片设计和产业化支持上的深度携手。

目前，Coral NPU IP已在谷歌开发者网站开源，面向全球开发者开放。芯原将提供商业化的企业级IP版本，并结合自身丰富的IP储备以及芯片设计与验证能力，为客户面向可穿戴、智能家居等领域的芯片提供一站式定制等服务。在NPU IP领域，芯原积累深厚，其神经网络处理器（NPU）IP已被91家客户用于140余款人工智能芯片中，集成了芯原NPU IP的AI类芯片全球出货近2亿颗。今年上半年，芯原超低能耗NPU已可为移动端大语言模型推理提供超40 TOPS算力，并在知名企业的手机和平板电脑中量产出货。最新一代NPU架构针对Transformer类模型进行了优化，既能高效运行Qwen、LLAMA类大语言模型，也能支撑Stable Diffusion、MiniCPM等AIGC和多模态模型。芯原NPU还与自有的众多处理器IP深度集成，形成包括AI - ISP、AI - Display、AI - VPU、AI - GPU、AI - DSP在内的众多AI加速子系统解决方案。此次Coral NPU IP的推出，将成为芯原NPU IP产品矩阵以及端侧AI芯片设计平台的重要组成部分，可为客户定制更多超低功耗场景的端侧AI芯片设计方案，加速推动大语言模型在边缘端的部署。