輝達 (NVIDIA) 於 12/15 推出開源 AI 模型系列 Nemotron 3,鎖定代理型 AI 的實際部署需求。其中,Nemotron 3 Nano 作為首款即日起開放使用的模型,被定位為「高運算效率、低推論成本」的關鍵角色,瞄準企業與開發者在多代理 AI 系統中的大量基礎工作負載。輝達表示,Nemotron 3 Nano 正是為解決「成本、效率與可擴展性」而設計的核心模型。
Table of Contents
代理型 AI 成本與效率成關鍵,輝達鎖定 Nano 切入
輝達指出,企業在導入多代理 AI 系統時,普遍面臨三大問題:
-
代理之間的通訊成本快速上升。
-
長流程任務容易出現情境漂移 (Context Drift)。
-
推論成本過高,難以大規模部署。
在這樣的背景下,Nemotron 3 Nano 被定位為「處理高頻、明確任務的主力模型」,負責軟體除錯、內容摘要、資訊檢索、AI 助理流程等大量、重複性高的工作,讓整體系統不必每個任務都動用大型前沿模型。
(註:情境漂移 Context Drift,任務拉得越長,AI 越容易跑題、誤解重點,甚至自相矛盾。)
Nemotron 3 Nano 規格公開:300 億參數,但只啟用 30 億
在技術架構上,Nemotron 3 Nano 採用混合式混合專家架構:
-
總參數量:約 300 億。
-
單次任務啟用參數:最多 30 億。
-
設計目標:在維持準確度的同時,大幅降低推論計算量。
輝達說明,這種設計讓模型能「用小腦袋,做大量事情」,特別適合在多代理系統中反覆被呼叫的任務。
效能對比 Nemotron 2:吞吐量最高 4 倍、生成成本降 60%
相較上一代 Nemotron 2 Nano,輝達表示,新架構帶來明顯改善:
-
詞元吞吐量最高提升 4 倍。
-
推理詞元生成量最高降低 60%。
-
整體推論成本明顯下降。
這也讓 Nemotron 3 Nano 成為目前輝達定位中「最具運算成本效率」的開放模型。
百萬詞元情境窗口,強化長流程任務穩定度
Nemotron 3 Nano 具備 100 萬詞元 (1M token) 的情境窗口,可在單一工作流程中記住更多背景資訊。輝達指出這項設計有助於:
-
串接長流程、多步驟任務。
-
降低 AI 代理在長時間運作下遺失上下文的風險。
-
提升資訊檢索與摘要任務的準確度。
對於企業級 AI 助理與自動化流程來說,這是提升穩定性的重要基礎。
第三方評測肯定:同級模型中最開放且高效之一
獨立 AI 基準測試機構 Artificial Analysis 評估指出,Nemotron 3 Nano 在同等規模模型中,屬於「最開放」的模型之一,在效率與準確度表現上具領先水準。
輝達也強調開放性是 Nemotron 系列的核心設計理念,讓開發者能依自身需求進行微調與客製化。
即日起開放使用,優先支援開發與部署生態
在實際使用層面,Nemotron 3 Nano 已率先上線:
-
模型平台:Hugging Face
-
推論服務:Baseten、Deepinfra、Fireworks、FriendliAI、OpenRouter、Together AI
-
工具支援:LM Studio、llama.cpp、SGLang、vLLM
同時,Nemotron 3 Nano 也以 NVIDIA NIM™ 微服務形式提供,可部署在任何輝達的加速基礎設施上,讓企業在兼顧隱私與控制權的前提下進行大規模應用。
(註:NVIDIA NIM™ 為企業打造的 AI 模型即用型服務封裝,企業只需要透過 API 呼叫,就能用模型,不必自己處理底層效能問題。)
雲端與企業平台陸續到位,Nano 為代理型 AI 核心基礎層
輝達表示,Nemotron 3 Nano 將成為企業代理型 AI 架構中的「基礎層模型」:
-
AWS:即將於 Amazon Bedrock 提供
-
其他平台:Google Cloud、Coreweave、Microsoft Foundry、Nebius、Nscale、Yotta (規劃中)
-
企業 AIv 平台:Couchbase、DataRobot、H2O.ai、JFrog、Lambda、UiPath
透過 Nano 承擔大量基礎推論任務,企業可在同一工作流程中,將高難度任務再交由更大型模型處理,以最佳化整體「詞元經濟」。
(美晶片投資專家:Google TPU 暫居上風,但 NVIDIA GPU 更具長期優勢)
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。

























