近日,小紅書在大模型領(lǐng)域扔下 “重磅炸彈”,其首次開(kāi)源的大模型 dots.llm1 正式亮相,迅速引發(fā)行業(yè)關(guān)注。

小紅書開(kāi)源首個(gè)大模型,中文評(píng)測(cè)超越 DeepSeek-V3.jpg

dots.llm1 為 1420 億參數(shù)的 MoE(混合專家)模型,推理時(shí)僅激活 140 億參數(shù),卻在性能上與阿里 Qwen3-32B 接近,在中英文、數(shù)學(xué)、對(duì)齊等任務(wù)中表現(xiàn)不俗。尤為亮眼的是,在中文表現(xiàn)方面,該模型在 C-Eval 測(cè)試中斬獲 92.2 分,超越包括 DeepSeek-V3 在內(nèi)的一眾模型,CLUEWSC 測(cè)試也獲得 92.6 分,達(dá)到行業(yè)領(lǐng)先的中文語(yǔ)義理解水平。
數(shù)據(jù)是小紅書開(kāi)源大模型的一大亮點(diǎn)。dots.llm1.ins 預(yù)訓(xùn)練階段使用了 11.2 萬(wàn)億非合成數(shù)據(jù),來(lái)自通用爬蟲與自有爬蟲抓取的 Web 數(shù)據(jù)。為產(chǎn)出高質(zhì)量、多樣化數(shù)據(jù),小紅書 hi lab 團(tuán)隊(duì)提出可擴(kuò)展、細(xì)粒度的三階段數(shù)據(jù)處理框架,其 Web 雜亂清除模型能有效清理樣板、重復(fù)內(nèi)容,類別平衡方法則優(yōu)化了 Web 數(shù)據(jù)比例,增加知識(shí)類內(nèi)容占比。經(jīng)處理的數(shù)據(jù)質(zhì)量顯著優(yōu)于開(kāi)源 Txt360 數(shù)據(jù)。
在模型架構(gòu)上,dots.llm1 采用僅限解碼器的 Transformer 架構(gòu),以 MoE 層替換 FFN。注意力層使用普通多頭注意力機(jī)制,MoE 層含 128 個(gè)路由專家和 2 個(gè)共享專家,均以 SwiGLU 激活實(shí)現(xiàn)為兩層 FFN。訓(xùn)練時(shí)采用輔助無(wú)損方法與序列平衡損失,保障負(fù)載均衡。參數(shù)設(shè)置上,模型共 62 層,首層為普通密集 FFN,后續(xù)層為 MoE,使用 AdamW 優(yōu)化器,預(yù)訓(xùn)練最大序列長(zhǎng)度設(shè)為 8k,經(jīng)退火階段后擴(kuò)展至 32k。
后訓(xùn)練階段,團(tuán)隊(duì)基于約 400k 指令調(diào)優(yōu)實(shí)例對(duì)模型監(jiān)督微調(diào),涵蓋多語(yǔ)言對(duì)話、知識(shí)問(wèn)答、指令跟隨、數(shù)學(xué)編碼推理等領(lǐng)域。微調(diào)分兩階段,先對(duì)實(shí)例上采樣、多會(huì)話連接后微調(diào) 2 個(gè) epoch,再通過(guò)拒絕采樣微調(diào)結(jié)合驗(yàn)證器系統(tǒng),強(qiáng)化數(shù)學(xué)、編碼等特定領(lǐng)域能力。
小紅書通過(guò) dots.llm1,展現(xiàn)出利用高效設(shè)計(jì)與高質(zhì)量數(shù)據(jù)拓展大模型能力邊界的決心。此次開(kāi)源,不僅為開(kāi)發(fā)者提供了新的選擇,也為大模型開(kāi)源社區(qū)注入新活力,未來(lái)其在實(shí)際應(yīng)用中的表現(xiàn),值得持續(xù)關(guān)注。

來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!