在当今 AI 技术飞速发展、竞争异常激烈的时代,多模态 AI 领域又迎来了一个备受关注的新成员,它的出现究竟能给我们带来怎样的惊喜和改变
小红书 HI Lab 推出多模态模型引关注

快科技 8 月 7 日消息,据媒体报道,小红书人文智能实验室,也就是简称的 HI Lab,凭借独特多模态技术一下子就崭露头角了。很多人都没想到,小红书这个平时大家用来分享生活的平台,在 AI 技术这块儿也开始有这么大的动作,真是让人觉得挺意外的。
近日,这个 HI Lab 突然宣布开源最新视觉语言模型 dots.vlm1,这事可不小,不仅能看出他们搞技术自研的决心特别大,也给本来就挺热闹的多模态 AI 领域又添了一把火,让大家都充满了期待。

dots.vlm1 是实验室首个开源大模型
作为 HI Lab 第一个拿出来开源的多模态大模型,dots.vlm1 肚子里可藏着不少东西,它是基于全自研的 12 亿参数 NaViT 视觉编码器和 DeepSeek V3 大语言模型一块搭建起来的。这点就让人觉得挺靠谱,不是那种随随便便拼凑出来的东西。

它在视觉理解和推理这些活儿上,表现得跟业界那些领先的水平都快差不多了,同时,就算是处理纯文本任务,也能保持相当厉害的竞争力,真是个多面手,不偏科。
dots.vlm1 突破文本处理局限

一直以来,好多 AI 模型都把劲儿使在了文本处理上,好像就围着文字打转,其他方面就没那么上心了,dots.vlm1 的出现算是打破了这个局限。总算有人把目光放得更宽了,想想都觉得挺好的。
这不,一下子就为多模态 AI 的发展打开了一条新的路,以后 AI 可能不仅仅能看懂文字,说不定看图片、视频什么的,都会变得更厉害,用途也会更多。
模型实际测试表现出色

要说这模型到底好不好用,还得看实际测试怎么样,结果发现 dots.vlm1 的表现真是让人眼前一亮。它不像有些模型只是数据好看,实际用起来就拉胯。
它能精准识别空间关系,复杂的图表也能给你解析明白,就连数独问题都能轻松解答,更厉害的是,高考数学题它都能理解和完成,这能力真是没得说,太让人佩服了。像经典红绿色盲数字测试图,它一次性就全部答对了,颜色和形状识别都特别准。
文本生成能力同样突出

除了看东西厉害,dots.vlm1 在写东西这方面也不含糊,表现特别突出。本来以为它视觉厉害,文字可能就一般了,没想到是个全能选手。
它还能学着李白的诗风,写出描述刘慈欣《诗云》里“诗云”意象的诗歌,写出来的作品意境还挺深远,用词也挺精准,这文本创作实力真是一点儿都不含水分,让人刮目相看。

成功源于团队持续投入与严谨流程
dots.vlm1 能这么成功,可不是天上掉下来的,说到底还是因为 HI Lab 对技术自研一直不停地投入。他们肯花时间、花精力去钻研,才有了今天的成果。

这个实验室是小红书内部大模型技术和应用产品团队合并升级来的,专门研究多元智能形态。开发时遵循三阶段训练流程:先预训练视觉编码器,再联合训练两大模型,最后微调提升泛化能力,一步一步都少不了,特别严谨。
开源为行业树立新标杆

值得大家关注的是,dots.vlm1 开源可不只是给 AI 研究者提供了宝贝资源,更重要的是,它积极推动了多模态 AI 技术往前进步。在当前这么激烈的 AI 领域竞争中,小红书 HI Lab 这么做,算是为行业立了个新的榜样,让大家都能效仿着把技术做得更好。


相信随着 dots.vlm1 不断完善,应用场景越来越多,它以后在更多领域肯定能爆发出特别大的潜力,我们就等着看它慢慢发光发热!你觉得 dots.vlm1 未来会最先在哪个领域发挥出最大的作用?