火山引擎豆包1.5模型升级,多模态理解与GUI Agent能力引领创新

   发布时间:2025-05-13 16:35 作者:沈如风

在近日于上海举行的FORCE LINK AI创新巡展活动中,火山引擎隆重推出了其最新的豆包1.5视觉深度思考模型(Doubao-1.5-thinking-vision-pro)。尽管该模型的激活参数仅为20B,但它展现出了卓越的多模态理解与推理能力,令人瞩目。在多达60项的公开评测基准中,豆包1.5在38项上取得了业界最佳成绩(SOTA),特别是在视频理解、视觉推理以及GUI Agent能力方面,均位列前茅。

在视频理解领域,豆包1.5引入了动态帧率采样技术,这一创新极大地提升了模型对视频时序的定位能力。结合先进的向量搜索功能,模型能够迅速且准确地找到与文本描述相匹配的视频片段,为视频内容的深度挖掘与检索提供了强有力的支持。

不仅如此,豆包1.5还具备了视频深度思考的能力。通过深度学习数万亿的多模态标记数据,模型积累了丰富的视觉知识。同时,借助强化学习技术,豆包1.5的视觉推理能力得到了显著提升。在复杂的图形推理任务中,它能够自主提出假设、进行验证,并在发现不符时不断反思与调整,直至得出正确答案,这一过程展现了其强大的思考与自我修正能力。

豆包1.5新增的GUI Agent能力同样令人印象深刻。凭借其出色的GUI定位性能,模型能够在多种不同环境,如PC端和手机端,完成复杂的交互任务。这一功能在新开发的App功能自动化检测中发挥了巨大作用,目前已在字节跳动多款App产品的开发测试中得到实际应用,大大提高了测试效率与准确性。

GUI Agent,作为一种基于多模态视觉模型驱动的人工智能系统,能够模拟人类用户的操作,如点击、输入、拖拽以及读取界面信息等,从而完成各种指定的工作任务。这一技术的引入,无疑为豆包1.5增添了更为广泛的应用场景与价值。

豆包1.5的推出也标志着火山引擎在人工智能领域迈出了坚实的一步。该模型不仅展现了火山引擎在技术创新方面的实力,更为行业内的其他参与者树立了新的标杆。

目前,豆包1.5视觉深度思考模型已在火山方舟平台正式上线,标志着这一先进技术将正式服务于更广泛的用户群体,为人工智能的应用与发展注入新的活力。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群