从黄仁勋预言到VLX实践：流式多模态如何解锁物理AI量产新路径-行业-智快网

从黄仁勋预言到VLX实践：流式多模态如何解锁物理AI量产新路径

发布时间：2026-07-03 01:59 来源：快讯作者：顾青青

在2026年拉斯维加斯CES展会上，英伟达创始人兼CEO黄仁勋宣布，AI发展进入全新阶段——物理AI时代正式开启。他提出，AI的演进历经感知、生成、智能体三个阶段后，现已迈向理解物理世界的关键节点。这一阶段要求AI不仅掌握质量、摩擦、动量守恒等物理规律，更需构建完整的智能系统，实现从虚拟到现实的跨越。

物理AI的核心挑战在于突破屏幕限制，在真实环境中持续运作。Om AI联汇CEO赵天成指出，通用视觉智能将成为关键突破口。这项技术要求模型具备持续观察、精准定位和自主行动三大能力，且所有处理需在终端设备完成。近日发布的VLX端侧流式多模态模型系列，通过创新架构实现了这一目标，首次在终端设备上打通"感知-定位-决策"的完整闭环。

VLX系列包含三个专用模型：Flow模型采用流式视频输入架构，可不间断接收图像数据流，实现毫秒级实时感知；Seek模型引入区域指代机制，能输出毫米级空间锚点，解决传统模型无法定位目标坐标的难题；Go模型则直接生成设备可调用的导航点，使机器人具备自主移动能力。三者协同工作，形成完整的物理世界交互系统。

基准测试数据显示，VLX系列在多项指标上超越行业旗舰模型。Seek-3B在目标检测、语义理解等任务中，以30亿参数规模达到Gemini 3.1 Pro和GPT-5的精度水平；Go（0.6B）在机器人导航任务中，成功率较参数大13倍的Qwen-RobotNav-8B高出12个百分点。端侧推理延迟仅0.1秒，较云端方案提升50倍，彻底解决了实时性瓶颈。

技术路径的创新是VLX取得突破的关键。传统方案采用"大模型压缩"策略，而VLX从设计之初就针对终端算力优化：Flow模型用Linear Attention机制替代标准架构，防止显存溢出；Seek模型通过区域指代降低计算量；Go模型采用短时航点预测，快速响应环境变化。这种"为场景设计模型"的思路，使系统在低算力设备上也能高效运行。

实际应用中，VLX已展现出强大的场景适应能力。在具身智能领域，其跨平台特性使算法迁移周期缩短80%，支持云深处、宇树等企业的机器人设备；无人机搭载该系统后，可自主完成违章识别、避障和航线规划，巡检效率提升数倍；可穿戴设备方面，好马APP已帮助近10万视障用户实现安全导航和空间寻物。安防摄像头接入VLX后，无需更换硬件即可升级为24小时自主研判的AI哨兵。

在PC和芯片领域，VLX同样推动着生态变革。该系统已完成与苹果、联想、惠普、英伟达等品牌的端侧适配，为PC注入实时视觉理解能力；针对国产芯片算力限制的优化，使其能在华为昇腾、地瓜、RK3588等平台流畅运行，打破了海外高端芯片的垄断。目前，VLX系列模型已向开发者开放体验平台，大幅降低了端侧智能应用的研发门槛。

更多>同类内容