从黄仁勋预言到VLX实践:流式多模态如何解锁物理AI量产新路径

   发布时间:2026-07-03 01:59 作者:顾青青

在2026年拉斯维加斯CES展会上,英伟达创始人兼CEO黄仁勋宣布,AI发展进入全新阶段——物理AI时代正式开启。他提出,AI的演进历经感知、生成、智能体三个阶段后,现已迈向理解物理世界的关键节点。这一阶段要求AI不仅掌握质量、摩擦、动量守恒等物理规律,更需构建完整的智能系统,实现从虚拟到现实的跨越。

物理AI的核心挑战在于突破屏幕限制,在真实环境中持续运作。Om AI联汇CEO赵天成指出,通用视觉智能将成为关键突破口。这项技术要求模型具备持续观察、精准定位和自主行动三大能力,且所有处理需在终端设备完成。近日发布的VLX端侧流式多模态模型系列,通过创新架构实现了这一目标,首次在终端设备上打通"感知-定位-决策"的完整闭环。

VLX系列包含三个专用模型:Flow模型采用流式视频输入架构,可不间断接收图像数据流,实现毫秒级实时感知;Seek模型引入区域指代机制,能输出毫米级空间锚点,解决传统模型无法定位目标坐标的难题;Go模型则直接生成设备可调用的导航点,使机器人具备自主移动能力。三者协同工作,形成完整的物理世界交互系统。

基准测试数据显示,VLX系列在多项指标上超越行业旗舰模型。Seek-3B在目标检测、语义理解等任务中,以30亿参数规模达到Gemini 3.1 Pro和GPT-5的精度水平;Go(0.6B)在机器人导航任务中,成功率较参数大13倍的Qwen-RobotNav-8B高出12个百分点。端侧推理延迟仅0.1秒,较云端方案提升50倍,彻底解决了实时性瓶颈。

技术路径的创新是VLX取得突破的关键。传统方案采用"大模型压缩"策略,而VLX从设计之初就针对终端算力优化:Flow模型用Linear Attention机制替代标准架构,防止显存溢出;Seek模型通过区域指代降低计算量;Go模型采用短时航点预测,快速响应环境变化。这种"为场景设计模型"的思路,使系统在低算力设备上也能高效运行。

实际应用中,VLX已展现出强大的场景适应能力。在具身智能领域,其跨平台特性使算法迁移周期缩短80%,支持云深处、宇树等企业的机器人设备;无人机搭载该系统后,可自主完成违章识别、避障和航线规划,巡检效率提升数倍;可穿戴设备方面,好马APP已帮助近10万视障用户实现安全导航和空间寻物。安防摄像头接入VLX后,无需更换硬件即可升级为24小时自主研判的AI哨兵。

在PC和芯片领域,VLX同样推动着生态变革。该系统已完成与苹果、联想、惠普、英伟达等品牌的端侧适配,为PC注入实时视觉理解能力;针对国产芯片算力限制的优化,使其能在华为昇腾、地瓜、RK3588等平台流畅运行,打破了海外高端芯片的垄断。目前,VLX系列模型已向开发者开放体验平台,大幅降低了端侧智能应用的研发门槛。

 
 
更多>同类内容
全站最新
热门内容
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群