近期,科技界迎来了一项关于人工智能的新突破。英伟达公司推出了一款名为Cosmos-Reason1的系列模型,该模型专注于物理推理任务,旨在提升AI在物理常识和具身推理方面的能力,为机器人技术和自动驾驶车辆等领域带来了实际应用的广阔前景。
长久以来,人工智能在语言处理、数学计算和代码生成方面取得了显著成就,但将其功能扩展到物理环境中却是一个棘手的问题。Physical AI,即物理AI,不同于传统的AI技术,它依赖于视频等感官输入,并结合现实世界的物理法则来生成反应。这类AI需要执行导航、操作和交互等任务,这就要求它具备常识推理以及对空间、时间和物理规律的深刻理解。
然而,当前的AI模型在连接物理世界方面存在明显的不足。它们难以直观理解重力或空间关系,导致在具身任务中的表现不尽如人意。直接在物理世界中训练AI不仅成本高昂,而且风险巨大,这极大地阻碍了开发进程。
为了应对这一挑战,英伟达推出了Cosmos-Reason1系列模型。该模型包括Cosmos-Reason1-7B和Cosmos-Reason1-56B两个版本,通过Physical AI的监督微调(SFT)和强化学习(RL)两个阶段进行训练。这一创新性的方法为物理推理提供了新的解决方案。
研究团队引入了双本体系统来增强模型的能力。一个分层本体将物理常识划分为空间、时间和基础物理三大类,并进一步细化为16个子类。另一个二维本体则映射了人类、机械臂、人形机器人等五种具身代理的推理能力。这种设计使得模型能够更好地理解和处理物理世界中的复杂情况。
Cosmos-Reason1模型采用了仅解码器的大型语言模型(LLM)架构,并结合视觉编码器来处理视频数据。这使得模型能够同步推理文本和视觉数据,从而提高了其在物理推理任务中的表现。训练数据集包含了约400万条标注的视频-文本对,涵盖了动作描述和复杂推理任务。
为了评估Cosmos-Reason1模型的性能,研究团队构建了针对物理常识的三个基准和针对具身推理的六个基准。这些基准测试包含了604个问题、426个视频以及610个问题、600个视频,分别用于评估模型在物理常识和具身推理方面的能力。
实验结果表明,Cosmos-Reason1模型在物理常识和具身推理基准测试中均表现出色。特别是在经过RL训练后,模型在预测下一步行动、验证任务完成和评估物理可行性等方面取得了显著进步。这一突破为物理AI的发展注入了新的活力。