• 数据数据库
  • 博客
  • 关于我们
  • 加入我们
  • 产品信息

NVIDIA GTC 2026:从 GPU 走向 AI 工厂平台的关键转型

fiisual

2026/3/25

NVIDIA 在 GTC 2026 展示其由 GPU 供应商转型为 AI 工厂平台的完整蓝图,以 Vera Rubin 系统为核心,整合 CUDA-X、生态系与 AI Factory 架构,并强调推论时代下 token economics 与 agentic AI 的关键地位。随着资料处理、推论架构与企业 AI 部署需求提升,NVIDIA 透过异质运算、开放模型 Nemotron 与 Omniverse 模拟平台,进一步扩展至 physical AI 与区域 AI 市场,描绘未来 AI 基础设施与产业发展方向。

NVIDIA GTC 2026 聚焦新平台 Vera Rubin、推论需求与产业未来方向的战略,Jensen Huang 在 keynote 中,从新一代系统平台谈到 agentic AI、token economics 与 physical AI,进一步描绘 NVIDIA 在 AI 时代的 full-stack 布局。

NVIDIA GTC 产品发表与平台布局

Vera Rubin 从单一 GPU 迈向 AI 工厂基础设施平台

Nvidia 定义为三大平台的示意图。

本次 GTC 开场,CEO Jensen Huang 直接将 NVIDIA 定义为同时拥有 CUDA-X、Systems 与 AI Factory 三大平台的公司。相较于过去偏重单一 GPU 产品定位,NVIDIA 已将 Vera Rubin 提升为完整的 AI Factory System,涵盖底层 system layer、中层 CUDA-X 软体平台,以及上层 AI Factory 应用框架。 NVIDIA 透过 GPU、CPU、LPU、网通、储存与液冷等硬体资源,搭配 CUDA-X、Dynamo、DSX 等软体平台协同设计,展现软硬体高度整合,并进一步从传统 GPU 供应商转型为 AI 基础设施平台提供者。

NVIDIA 的核心优势不只是晶片性能,而是建立在长达二十年的软硬体共演化基础之上,包括 CUDA 开发工具、生态系函式库、框架支援、安装基础、开发者社群,以及大量跨产业的落地应用,多年来建立在 NVIDIA 之上的 ecosystem 迭代演进、越发进步,其平台安装基础越大,下载量越高,开发者越多,应用场景越广,既有基础设施的可用寿命越长,而整体运算成本也因软体持续优化而下降。

回顾 CUDA 二十年的发展历程,从早期可程式化图形架构、GeForce 将 GPU 带进消费市场,到 RTX 推动即时光线追踪与 AI 图形技术普及,NVIDIA 并不是因为生成式 AI 爆发才突然变成 AI 基础设施公司,而是早已沿着可程式化运算的方向长期发展,而图形、深度学习与 AI 计算之间的历史是具有连续性的。实际上先前随着 SaaS 产业被 AI 取代的担忧产生,市场也针对 CUDA 本身是否被取代产生疑虑,然而本次 Jensen 强调,CUDA 并不是一个旧平台,而是所有新平台的共同基础,无论是资料处理、AI 训练、AI 推论、实体模拟还是 robotics,背后都仍建立在同一个可扩展的运算平台上,NVIDIA 将 CUDA 视为所有 vertical solution 的共同基石。

图形与 AI 的融合扩展至资料处理 (Data processing)

NVIDIA 持续把 AI 运用从图像处理延伸到资料处理,新一代图形技术与 DLSS 5,强调controllable 3D graphics 与 generative AI 的融合,并应用至企业资料处理层。 过去,企业资料处理主要依赖「structured data 结构化资料」,例如 SQL、Pandas 与 dataframes 等;然而,全球新增资料中仍有极高比例属于「unstructured data 非结构化资料」,例如 PDF、影片、语音与各类文件。

若能透过 AI 理解并活用这些非结构化资料,便能将原本难以检索、分析与利用的资讯,转化为可搜寻、可查询、可推理的知识基础,进一步扩大企业资料处理与分析的范围与价值。因此 NVIDIA 也积极与 IBM、Google Cloud 等伙伴合作推进 data processing acceleration,传统 CPU 处理架构已经无法支撑未来 AI 对资料刷新频率、运算速度与成本效率的要求,因此需要以 GPU 计算函式库与更大规模的平台整合来重写企业资料处理堆叠,NVIDIA 的产品应用已不再局限于 training 与 inference,而是向前延伸到 data layer,在企业 AI 的整体价值链上建立更完整的平台与应用场景。

Vera Rubin NVL72 五机柜架构落地

Vera Rubin NVL72 采用 Oberon 标准机架架构,搭载 72 颗 Rubin GPU 与 36 颗 Vera CPU,并深度整合 NVLink 6 交换器、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 乙太网路交换器及 Groq 3 LPU,形成由五大专属机柜构成的超大型运算系统。 此架构自运算、网通、交换至软体平台进行系统级整合,不仅显著提升推论吞吐量并降低单位 token 成本,亦使 NVIDIA 的商业模式由过去销售单一 GPU,升级为提供整柜、整系统乃至完整 AI 基础设施解决方案。随着 Vera CPU 可独立扩展,并结合 Spectrum-X 与 ConnectX-9 强化资料中心内外部高速互连能力,整体平台价值与机柜 ASP 显著提升,反映公司正由高效能晶片供应商进一步转型为高 ASP 的 AI 基础设施平台提供者。

Rubin Ultra 导入 Kyber 架构以及中板互联、全液冷设计

NVIDIA 更新 Rubin Ultra 规格,除了将机柜架构升级至 Kyber NVL144 并采用第七代 NVLink Switch 外,亦舍弃过去以 tray 与 cable 为主的设计,转为 blade-based 垂直插入式架构,使运算节点可垂直滑入 midplane 并直接与后侧 NVLink 交换器连接,形成 Kyber 机柜架构,将单一 NVLink 网域内 GPU 规模由 72 颗提升至 144 颗,同步显著改善大规模 AI 丛集的互连效率、部署密度与系统扩充能力。Kyber 机柜由 36 台 compute blade 与 12 台 switch blade 构成,每台 compute blade 搭载 4 颗 Rubin Ultra GPU 与 2 颗 Vera CPU,每台 switch blade 配备 6 颗 NVLink 晶片,显示此次升级重点已由单晶片算力延伸至整体 rack-scale 架构、交换系统与互连的全面优化。

同时,在散热与机柜工程设计上,NVIDIA 持续推动 AI 工厂朝高密度、全液冷与无缆化发展,Vera Rubin 平台已全面采用液冷架构,以 45 度热水冷却并简化缆线配置。 此外,compute tray 采模组化、无缆线与分层液冷设计,使液冷、水冷板、快接头与 midplane 等关键组件价值显著提升,并预期未来 1.6T 交换机与 CPO 架构亦将导入液冷。整体而言,Rubin Ultra 搭配新一代 NVLink 架构,标志 NVIDIA 正将 GPU、CPU、交换器、机柜、液冷与网通进行高度整合,从既有 Oberon 与 NVLink 6 所奠定的基础,进一步透过 Kyber、NVL144 与中板互联架构提升系统密度与平台 ASP,并为后续 Feynman 世代导入 NVLink 8 CPO 及更大规模光电整合扩展奠定基础。

整合 Groq 建构解构式推论架构,透过异质运算提升效率

NVIDIA 与 Groq 的整合核心在于透过 Dynamo 软体作业系统建构解构式推论(Disaggregated Inference)架构,将 Groq 3 LPX 推论机柜与 Vera Rubin 平台进行异质整合,其中 Vera Rubin 负责需大量数学运算、注意力机制与 KV Cache 储存的 Pre-fill 阶段,而 Groq LPU 则专注于对延迟更为敏感的 Decode、FFN 与 token 生成任务,使不同推论工作负载得以由最适合的硬体执行。 导入 Groq 的关键在于其 LPU 采用静态资料流架构与静态编译设计,并具备大容量片上 SRAM,专为单一推论工作负载、低延迟 token 生成与长上下文需求打造,能有效补足 GPU 在低延迟推论场景的限制。因此,NVIDIA 透过技术授权并深度整合 LPU,解决单一架构难以同时兼顾高吞吐量与高 token 速率的瓶颈,进一步满足 agentic AI 对低延迟、高吞吐与长上下文推论的需求,并提升 AI factory 的商业化效率。

Nemotron 产品线扩展,NVIDIA 强化开放模型平台以支援企业 Agentic AI 部署

Nemotron 为 NVIDIA 于 GTC 2026 强化的核心开放模型家族之一,定位由单一语言模型升级为企业导入 Agentic AI 与开放模型生态的重要基础平台。 公司将 Nemotron 纳入六大开放前沿模型体系,强调其支援客制化微调与后训练能力,并作为推动主权 AI、区域 AI 及跨领域应用扩展的关键模型平台。NVIDIA 进一步推出 Nemotron 3 系列产品,涵盖语言、视觉、语音与安全等多模态能力,以满足企业专用 Agentic AI 的部署需求。其中,Nemotron 3 Ultra 聚焦程式码助理与复杂流程自动化,并结合 Blackwell 平台与 NVFP4 格式提升输送效率;Nemotron 3 Omni 整合音讯、视觉与语言理解,可自影片与文件中高效撷取洞察;Nemotron 3 VoiceChat 则支援即时语音互动,整合语音辨识、模型处理与文字转语音能力。

产业趋势

Token 成为 AI 时代的核心资源

Jensen 进一步重新定义资料中心的经济模型,并提出 AI factory 与 token factory 的概念。 未来 AI 服务的收入能力,不再只取决于资料中心部署了多少 GPU 或具备多少 FLOPS,而是要看在固定电力、固定资本支出与固定基础设施容量下,究竟能以多低的 token cost、多高的吞吐量与多低的延迟产出多少 token,token 将成为更接近商业化现实的衡量单位。因为对模型公司、云端平台、企业 AI 系统与未来的 agentic software company 而言,最重要的是每单位算力最终能转化为多少可出售、可使用、可变现的 token。 因此 Jensen 强调,资料中心未来不再只是储存资料与执行通用云端工作负载的场所,而是持续生产 intelligence 的 AI factory,其生产单位是 token,核心营运指标则包括 token 吞吐量、token cost、延迟与在能源效率,成为 AI 服务收入、客户体验与基础设施投报率的关键。

企业 IT 正从 SaaS 时代走向 Agent-as-a-Service 时代,NVIDIA 以 NemoClaw 建立企业级部署

Jensen OpenClaw 示意图。

本次 Jensen 也将软体业的未来称为 enterprise IT renaissance,目前约 2 兆美元规模的 IT 与 SaaS 产业,将因 agentic AI 而进入新一轮重构,过去企业购买的是让人操作的软体工具,未来企业将购买能直接执行工作、调用系统、与人协同完成任务的 agents。

他更强调 “every company need OpenClaw strategy”,因为一旦 agentic framework 成形,所有企业软体公司都必须回答自己如何在这个新架构下重新定义产品。

以 OpenClaw 为例,其为开源 AI agent 平台,与传统聊天型 AI 的主要差异在于其支援跨平台应用,使 AI 能直接操作电脑与网路服务,并进一步定位为 agentic AI 时代的作业系统,具备资源管理、任务调度、多步骤流程拆解与子代理调用能力,推动软体业从 SaaS 到 Agent-as-a-Service,并进一步出现 annual token budget、recruiting token 等概念。对应 token as the commodity 的论述,当 token 直接对应工程师生产力、企业内部 AI 使用权限与客户服务能力时,token 可能成为人力资本与产品能力的一部分,代表未来企业 IT 预算分配方式也会发生显著改变,从购买 seat-based software,逐步转向购买 token capacity、agent capacity 与 AI workflow capacity。

而 NVIDIA 不仅倡议开源框架,更进一步推出 NemoClaw 作为可企业部署的安全化参考架构,将开源 agentic framework 与其 AI software stack 深度整合,并纳入 Open Shell、安全护栏、隐私路由器、政策引擎与治理机制,使 agentic systems 能在既有 IT 架构中安全存取敏感资料、调用外部工具并与 SaaS 平台整合,在兼顾合规、隐私与资安的前提下落地于金融与医疗等高敏感场景,成为企业导入 Agentic AI 的关键信任基础与标准化部署框架。

AI 进入推论时代,基础建设由hyperscaler 扩大至主权与区域 AI

AI 产业已正式进入 inference inflection,过去两年由 ChatGPT 率先开启 generative AI 时代,随后进一步演进至 reasoning AI,以及 Claude Code、Codex 等 agentic coding 应用,AI 已能够拆解问题、调用工具、执行任务,逐步成为具备实际生产力的运算系统,也使 AI 的主要成本结构与价值创造重心,开始由训练逐步转向推论。 本次 NVIDIA 对 AI 基础设施需求的判断,已由先前看到的约 5,000 亿美元,上修至截至 2027 年的 1 兆美元,且仍持续成长。目前需求来源不再局限于少数 hyperscaler 或 frontier model 公司,而是同时来自 OpenAI、Anthropic、Gemini、xAI 及多个 open-source 模型体系,以及 AI natives、云端平台、sovereign AI、industrial 与 enterprise 等更广泛的区域与垂直应用市场。以 Sovereign AI 为例,未来不会只有少数全球通用大模型统治所有市场,不同国家、不同语言、不同法规环境、不同产业垂直领域,都会需要自己的模型、自己的治理规则与自己的资料主权机制。Nemotron 的推出,以及与 open model、生态伙伴和区域 AI 建设的连结,NVIDIA 试图扩大市场,提供各地区建构 regional AI、industry AI 与 sovereign AI,切入更分散、更多元、时间跨度更长的区域性 AI 建设机会。

Omniverse 与模拟能力串起数位 AI 与实体 AI

Disney Olaf 于GTC 展示的截图。

本次 GTC 也提及 robotaxi、与 Uber 的合作、T-Mobile 的基地台、Cosmos world models、自驾相关模型,以及 Disney 的 Olaf 展示,显示 AI 逐步进入真实世界的车辆、机器人、通讯基础设施与各类感知控制系统。Uber 与 robotaxi 合作象征自驾平台商业化正在加速;T-Mobile 的案例则意味着电信基地台未来可能成为边缘 AI 的新节点;Cosmos world models、Newton solver 与模拟平台则强调实体世界 AI 的根本问题在于资料稀缺与场景复杂,因此必须倚赖 world model、simulation 与 synthetic data;而 Disney Olaf 的展示,更让市场直观看到具身 AI、物理模拟与角色化互动已开始具备可展示、可商品化的雏形。

Omniverse 是 NVIDIA 的 3D 开发平台,是 NVIDIA 在实体世界 AI 布局中的中介层,对企业来说,它可用来模拟工厂、机房与设备;对 robotics 与自驾团队来说,它可用来生成训练环境;对 NVIDIA 自己来说,它则是将运算平台、生态伙伴、实体系统与数位 twin 结合在一起的关键枢纽,若未来 AI 从纯数位 (purely digital) 走向具身智能 (embodied intelligence),这类模拟平台的战略价值可能会显著提升。

结论

总结而言,GTC 2026 显示 NVIDIA 的战略重心已由高效能 GPU 供应商转型为 AI 工厂平台提供者,一方面以 Vera Rubin 及未来 Feynman 为核心,持续整合 GPU、CPU 与系统架构等,打造高 ASP 与高效率的完整基础设施平台;另一方面透过开放模型生态,将影响力由硬体延伸至推论调度与企业代理部署。

随着 AI 由训练走向推论,并由生成进一步发展至 agentic 与 physical AI,产业竞争核心亦由单点算力转向 token 生产,NVIDIA 正试图同时掌握底层运算平台与上层应用框架,从而由销售晶片进一步升级为提供整体 AI 工厂、作业系统与完整生态体系的关键平台商。

Blog Post Ad

其他标签