惊了!最“Open”的开源新模型,竟出自小红书

文曲星2025-06-08 13:37:40136

近日,向来在大模型领域低调的小红书,开源了首个自研大模型 dots.llm1,展现出迄今为止行业最大的开源力度。该模型由小红书 hi lab 团队研发,是一款中等规模的 MoE 模型,总参数量 142B,激活参数 14B。

在性能方面,激活 14B 参数时,dots.llm.inst 模型在中英文通用场景、数学、代码、对齐任务上表现亮眼,与 Qwen2.5 - 32B - Instruct、Qwen2.5 - 72B - Instruct 相比竞争力强,与 Qwen3 - 32B 在中英文、数学、对齐任务上表现接近。

开源力度堪称行业天花板,hi lab 团队不仅开源了可开箱即用的 dots.llm1.inst 模型,还开源了一系列 pretrain base 模型,包括各阶段的 checkpoint 和长文 base 模型,同时详细介绍了 lr schedule 和 batch size 等信息,方便开发者进行「二创」。

实测中,dots 模型在中文理解、写作、编码等方面表现出色。技术层面,dots.llm1 通过更干净优质的数据、高效训练方式实现「以小搏大」。预训练数据处理严格,未使用合成语料;训练效率上,与 NVIDIA 合作提出解决方案,优化 Grouped GEMM;模型设计借鉴 DeepSeek 系列,采用 WSD 学习率调度;Post - train 阶段通过两阶段监督微调打磨模型。

此次开源是小红书与技术社区对话的重要一步,为开发者提供了新的模型基座,也有望从社区获得反哺。

原文链接:https://www.163.com/dy/article/K1HD4RFO0511AQHO.html

扫一扫二维码,添加客服微信