Allen人工智能研究所推出MolmoWeb:开源视觉网络智能体新选择

   发布时间:2026-04-03 06:46 作者:陆辰风

人工智能领域迎来重要进展——Allen人工智能研究所(Ai2)正式推出开源视觉网络智能体MolmoWeb。作为Molmo 2模型家族的新成员,该系统以独特的技术路径和开源特性引发关注,其40亿参数与80亿参数两个版本均支持本地部署,为研究人员提供了轻量化的研究工具。

与传统依赖专有模型蒸馏训练的网络智能体不同,MolmoWeb采用创新的数据构建方式。研发团队通过可访问性树技术生成合成轨迹数据,结合3万个人类任务轨迹组成的训练集,其中包含1100多个网站的近60万个子任务。这种混合训练策略使模型既能理解网页结构,又能模拟人类操作逻辑。训练数据还包含220万组问答对,通过让模型回答关于400个网站截图的问题,强化其信息检索能力。

在功能实现层面,该系统具备完整的浏览器操作能力。通过分析网页截图预测行动步骤,可完成导航跳转、表单填写、商品搜索等复杂任务。其操作方式与人类用户高度相似,通过模拟点击、文本输入和页面滚动等交互行为推进任务流程。这种设计使其能够适应不同网站的结构变化,无需针对特定平台进行定制开发。

基准测试数据显示,MolmoWeb在浏览器操作任务中表现优异。其性能超越OpenAI旧版GPT-4o模型,在开放权重模型领域更是一骑绝尘,40亿与80亿参数版本均领先于Fara-7B和GLM-4.1V-9B等同类产品。不过研究人员坦言,当前专有模型在综合性能上仍保持优势,但MolmoWeb的开源特性为学术界提供了重要的研究基线。

该项目团队强调,开源生态的完整性比单一模型性能更重要。此次发布不仅包含模型权重和训练代码(即将上线),还同步开放了评估工具和人类演示数据集。其中人类任务轨迹数据集的规模创下公开数据集新纪录,为后续研究提供了丰富的训练素材。这种全链条开源策略旨在破解当前网络智能体研究中的可复现性难题,推动技术透明化发展。

目前,MolmoWeb已通过Hugging Face和GitHub平台向全球研究者开放下载。其轻量化设计使个人开发者也能在消费级硬件上运行模型,这为中小研究团队参与网络智能体开发提供了可能。随着训练数据的持续扩充和社区贡献的加入,这个开源系统有望催生更多创新应用。

 
 
更多>同类内容
全站最新
热门内容
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群