小红书,这家以“种草”文化著称的社交平台,近期在AI技术自研领域迈出了重要步伐,连续两个月内发布了三款开源模型,引起了业界的广泛关注。最新亮相的多模态大模型dots.vlm1,凭借其强大的视觉理解和推理能力,展现了接近Gemini 2.5 Pro闭源模型的实力。
在竞争激烈的AI领域,各大科技公司纷纷推出自家模型,OpenAI的Claude升级至4.1版本,谷歌则推出了用于生成游戏世界的Genie 3,引发社区热议。国产模型也不甘示弱,HuggingFace平台上的前十名开源模型中,已有多个来自国内团队。然而,仔细观察这些排名靠前的模型,不难发现,大多数仍为文本模型,缺乏多模态能力。
小红书的人文智能实验室(Humane Intelligence Lab,简称hi lab)近日低调开源了其首个多模态大模型dots.vlm1,为视觉语言模型(VLM)领域带来了新气象。这款模型基于小红书自研的12亿参数NaViT视觉编码器和DeepSeek V3大语言模型构建,不仅在视觉理解和推理任务上表现出色,还保持了纯文本任务中的竞争力。
hi lab此前开源的dots.ocr文档解析模型已在Huggingface平台上获得热榜第七的好成绩,尽管其基础模型参数仅为17亿,但性能却达到了业界领先水平。这一成就显示了hi lab团队在AI技术自研方面的认真态度和强大实力。
dots.vlm1在多个视觉评测集上的表现接近当前领先的Gemini 2.5 Pro与Seed-VL1.5 Thinking模型,显示出强大的图文理解与推理能力。在文本推理任务上,dots.vlm1的表现与DeepSeek-R1-0528相当,尽管在数学和代码能力上已具备一定的通用性,但在更多样化的推理任务上仍有提升空间。
在实际测试中,dots.vlm1展现了令人惊艳的能力。面对复杂图表和数独问题,模型能够逐步分析并给出正确答案,甚至在长时间思考过程中出现了类似DeepSeek的“啊哈时刻”,体现了其真正的思考和推理能力。dots.vlm1还能解决红绿色盲数字问题,进行数学计算,甚至模仿李白诗风创作诗词,展现了其全面的多模态能力。
dots.vlm1的技术架构由三个核心组件构成:全自研的NaViT视觉编码器、轻量级的MLP适配器以及DeepSeek V3 MoE大语言模型。这一架构通过三阶段流程进行训练,包括视觉编码器预训练、VLM预训练和VLM后训练,旨在提升模型对多样视觉数据的感知能力和泛化能力。
NaViT视觉编码器是dots.vlm1的核心之一,它完全从零开始训练,原生支持动态分辨率,专为视觉语言模型设计。通过两阶段的训练策略,NaViT编码器在基础视觉和语义感知以及高分辨率输入处理方面均表现出色。
在预训练数据方面,hi lab为dots.vlm1准备了跨模态互译数据和跨模态融合数据两大类别,旨在构建一个全谱系的数据分布,覆盖所有可被人类理解且可转化为离散token序列的视觉信息。这些数据包括普通图像、复杂图表、OCR场景图像、视频帧以及Grounding监督数据等,为模型的多模态能力提供了有力支持。
小红书之所以在AI大模型领域加大自研力度,是因为多模态能力已成为通向通用人工智能(AGI)的必经之路。通过模拟人类利用多种感官综合感知世界的方式,多模态AI能够形成更全面、细致的理解,对复杂场景作出更整体化的判断。在自动驾驶、具身智能等领域,VLM正成为机器人理解和融入人类社会的重要工具。
小红书hi lab在AI技术自研上的决心和投入不仅体现在dots.vlm1上,还体现在其不断壮大的dots模型家族中。从dots.llm1到dots.ocr再到dots.vlm1,小红书正逐步构建起自己的AI技术生态。未来,随着AI技术的不断发展,小红书有望在内容理解、个性化推荐以及社区交互等方面实现更多创新应用。