據(jù)科技媒體 marktechpost 發(fā)布消息,英偉達(dá)聯(lián)合推出了 Nemotron-Research-Tool-N1 系列模型。該系列受 DeepSeek-R1 啟發(fā),采用新型強(qiáng)化學(xué)習(xí)(RL)范式,旨在強(qiáng)化模型的推理能力,為大型語言模型(LLMs)運(yùn)用外部工具帶來新突破。
當(dāng)下,借助外部工具提升 LLMs 性能成為熱門趨勢,這些工具助力 LLMs 在搜索引擎、計(jì)算器、視覺工具及 Python 解釋器等領(lǐng)域表現(xiàn)優(yōu)異。然而,現(xiàn)有研究多依賴合成數(shù)據(jù)集,難以捕捉清晰推理步驟,致使模型僅能模仿表面模式,無法真正理解決策流程。
為提升 LLMs 運(yùn)用工具的能力,過往方法主要從兩方面探索:一是進(jìn)行數(shù)據(jù)集整理和模型優(yōu)化,研究者創(chuàng)建大規(guī)模監(jiān)督數(shù)據(jù)集,運(yùn)用監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)強(qiáng)化學(xué)習(xí)等技術(shù),將 LLMs 與外部工具整合以拓展功能;二是改進(jìn)推理過程,從傳統(tǒng)訓(xùn)練時(shí)擴(kuò)展轉(zhuǎn)變?yōu)闇y試時(shí)采用復(fù)雜策略,早期方法依靠步驟級監(jiān)督和學(xué)習(xí)獎(jiǎng)勵(lì)模型來引導(dǎo)推理軌跡。但這些方法受限于合成數(shù)據(jù),LLMs 雖能處理單輪或多輪工具調(diào)用,卻缺乏自主推理深度。
有鑒于此,英偉達(dá)聯(lián)合賓夕法尼亞州立大學(xué)、華盛頓大學(xué)組建專業(yè)團(tuán)隊(duì),開發(fā) Nemotron-Research-Tool-N1 系列模型。該系列針對現(xiàn)有局限,借鑒 DeepSeek-R1 的成功經(jīng)驗(yàn),開發(fā)出輕量級監(jiān)督機(jī)制,著重關(guān)注工具調(diào)用的結(jié)構(gòu)有效性與功能正確性。它不依賴顯式標(biāo)注的推理軌跡,而是采用二元獎(jiǎng)勵(lì)機(jī)制,促使模型自主發(fā)展推理策略。
研究者統(tǒng)一處理了 xLAM 和 ToolACE 等數(shù)據(jù)集的子集,設(shè)計(jì)輕量級提示模板指導(dǎo)工具生成過程。模板利用...標(biāo)簽指示中間推理,<tool_call>...</tool_call > 標(biāo)簽封裝工具調(diào)用,避免模型過度擬合特定提示模式。以 Qwen2.5-7B / 14B 為主干模型,并對 LLaMA 系列變體展開測試以評估泛化能力。在 BFCL 基準(zhǔn)測試中,Nemotron-Research-Tool-N1-7B/14B 模型表現(xiàn)卓越,超越了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專用微調(diào)模型。與相同數(shù)據(jù)源的 SFT 基準(zhǔn)相比,優(yōu)勢顯著,在 API-Bank 基準(zhǔn)上,Tool-N1-7B / 14B 的準(zhǔn)確率分別比 GPT-4o 高出 4.12% 和 5.03%,有力驗(yàn)證了新 RL 范式幫助 LLMs 自主生成推理策略的潛力 。

來【龍頭AI網(wǎng)】了解最新AI資訊!