黄仁勋GTC完整演讲：生成Token的成NG南宫娱乐· NG南宫28官方网站· APP下载本与效率决定科技企业的营收与生死

作者:小编2026-03-28 14:45:41

　　南宫28,南宫注册,南宫网址,南宫平台,南宫娱乐,南宫娱乐官网,南宫娱乐登录入口,南宫官方网站,南宫app,南宫pc,南宫28官网,南宫28平台,南宫28APP,南宫28下载,南宫娱乐城,南宫游戏官网AWS，我们加速了EMR、SageMaker和Bedrock。NVIDIA与AWS进行了深度集成，他们也是我们的首个云合作伙伴。在Microsoft Azure方面，我们为其打造并安装了首台NVIDIA A100超级计算机，这为后来与OpenAI的巨大成功合作奠定了基础。我们与Azure的合作由来已久，不仅为其云服务和Bing Search提供加速，还与他们的AIFoundry开展了深度合作。随着AI在全球范围内的扩展，Azure Regions的合作也变得极其重要。我们提供的一项核心功能是机密计算(Confidential Computing)。机密计算能够确保操作员无法触碰或查看数据和模型。NVIDIA GPU是全球首款实现该功能的GPU，它能够支持并在不同云端和地区安全部署OpenAI和Anthropic等极其宝贵的模型。这一切都要归功于至关重要的机密计算技术。

　　在这一切的核心是我们自主发明的CUDA-X库算法，这是NVIDIA作为一家算法公司的立身之本，也是我们区别于其他公司的特别之处。算法让我们能够深入各个行业，将世界顶尖计算机科学家解决问题的方法重构并转化为库。在本次展会上，我们将发布大量库和模型，这些不断更新的库是我们公司的瑰宝，它们激活了计算平台，真正解决了实际问题。比如引发现代AI大爆发的cuDNN，以及用于决策优化的cuOPT、计算光刻的cuLitho、直接稀疏求解器的cuDSS、基因组学的Parabricks等上千个CUDA-X库，正助力开发者在科学和工程领域取得突破。大家所看到的一切都不是人工动画，而是基于基础物理求解器、AI物理模型和物理AI机器人模型的完全模拟。凭借对算法的理解与计算平台的结合，NVIDIA作为一家垂直整合且横向开放的公司，正不断解锁新机遇。

　　我们在过去一年里做了大量工作，2025年是NVIDIA的推理之年。我们希望确保不仅擅长训练和后训练，而且在AI的每一个阶段都表现出色。对基础设施的投资可以长期扩展，NVIDIA基础设施使用寿命长且成本极低。毫无疑问NVIDIA系统是世界上成本最低的AI基础设施。去年的一切都是围绕推理AI展开的，这推动了拐点的到来。同时Anthropic和Meta的Llama等代表全球三分之一AI开源模型算力的平台都选择了NVIDIA。开源模型已接近前沿水平且无处不在。NVIDIA是当今世界上唯一能够跨越所有语言和AI领域运行的平台，涵盖生物学、计算机图形学、计算机视觉、语音、蛋白质、化学和机器人技术等领域。我们的架构从边缘到云端通用，使其成为成本最低且最值得信赖的平台。

　　面对一万亿美元的庞大基础设施规模，必须确保投资具有高性能、成本效益和长期使用寿命。你可以满怀信心地选择NVIDIA，无论部署在云端、本地还是世界任何地方，我们都能提供支持。我们现在是一个运行所有AI的计算平台，这已体现在业务中。我们60%的业务来自前五大超大规模云服务商，其中一部分用于内部AI消耗。推荐系统和搜索等内部工作负载正从传统方法转向深度学习和大语言模型，这些负载正向NVIDIA极具优势的GPU上迁移。通过与各大AI实验室合作并拥有庞大的原生生态系统，我们能将算力带入云端并被迅速消耗。另外40%的业务遍布区域云、主权云、企业、工业领域、机器人技术、边缘计算和超级计算系统等。AI广泛的触达范围和多样性正是其韧性所在，它现已成为一项基础技术和全新的计算平台变革。

　　我们的职责是继续推动技术进步。去年作为推理之年，我们在Hopper架构巅峰时冒着巨大风险进行了彻底重塑。我们决定将架构提升到全新水平，彻底重构系统以解耦计算并创造了NVLINK-72。其构建、制造和编程方式都发生了彻底改变。GraceBlackwell和NVLINK-72是一场巨大的赌注，感谢所有合作伙伴的辛勤努力。NVFP4不仅仅是精度上的提升，它代表了完全不同类型的TensorCore和计算单元。我们证明了可以在不损失精度的情况下进行推理并大幅提升性能和能效，同时还能将其用于训练。结合NVLINK-72、NVFP4、Dynamo、TensorRT-LLM以及一系列新算法，我们甚至投入数十亿美元建造了DGXCloud超级计算机来优化内核和软件栈。过去人们常说推理很简单，但实际上推理是终极难题，也是驱动收入的核心动力。对AI推理最全面的扫描数据显示每瓦特Token数至关重要。每个数据中心都受到功率限制，物理法则决定了1吉瓦的工厂不可能变成2吉瓦。因此必须在有限功率下产出最大数量的Token，力求处于效能曲线的顶端。

　　过去介绍Hopper时我还能举起一颗芯片，但VeraRubin是一个需要整体优化的庞大系统。智能体系统最关键的是大语言模型的思考过程，模型不断增大对内存和存储系统产生了巨大压力，因此我们重新发明了存储系统。AI需要工具尽可能快地运行，为此我们打造了全新VeraCPU，它专为极高单线程性能设计，是全球唯一采用LPDDR5的数据中心CPU，能效比傲视群雄。该CPU旨在与机架其他部分协同进行智能体处理。VeraRubin系统已实现100%液冷，取消了线缆，安装时间从两天缩短至两小时。它使用45度温水冷却，大幅降低了数据中心的散热成本与能源消耗。这是目前世界上唯一构建到第六代的纵向扩展交换系统，实现难度极高。此外采用共封装光学技术的Spectrum-X交换机也已全面量产，光子直接连接芯片硅片，工艺完全是革命性的。VeraCPU作为独立产品已成为价值数十亿美元的业务。

　　业界都在致力于不断突破能力边界，因为模型参数越大就越智能，输入的上下文越长则相关性越高。而在更快的生成速度下，系统能更好地进行思考与迭代，从而催生出更聪明的AI模型，每一次性能的跃升都赋予了服务更高的溢价空间。未来可能会出现收费高达45美元甚至每百万Token收费150美元的高级模型服务，专门为处于关键研发路径或进行长期复杂研究、对Token生成速度有极高要求的用户提供支持。不过从现实来看，如果一个研究团队每天消耗五千万个Token，以每百万150美元计价，这样的成本是难以承受的。但我们坚信阶梯化与细分化就是AI产业的未来发展方向。AI技术必须从确立自身价值和实用性起步，不断迭代升级，未来大多数AI服务都将采用这种多层级的模式。

　　然而如果我们向外大幅延伸需求场景，假设你需要提供的服务不再是每秒400个Token，而是每秒1000个Token的超高速生成，NVLink72受限于带宽瓶颈将力不从心。这正是Groq大显身手的领域。Groq技术超越了现有极限，甚至突破了NVLink72所能触及的性能天花板。如果将技术转化为实际收益，Vera Rubin的创收能力是Blackwell的5倍。如果你的主要业务是高吞吐量工作负载，我建议100%部署Vera Rubin；但如果你的业务涉及大量代码编写或极高价值的Token生成任务，引入Groq将是明智之举。一种合理的资源配置是将Groq部署在约25%的数据中心节点中，剩余75%全部采用Vera Rubin。通过将两者深度融合，我们可以进一步拓展系统的性能边界。

　　基于解耦推理的概念，Vera Rubin负责处理相对简单的预填充(Pre-fill)环节，而Groq则深度参与解码(Decode)过程。解码阶段中计算密集的注意力(Attention)机制由Vera Rubin承担，而前馈网络(Feedforward Network)以及最终的Token生成则在Groq芯片上执行。这两大系统通过以太网(Ethernet)紧密耦合，并通过特殊传输模式将网络延迟削减了近一半。在这一强大的硬件底座之上，我们运行了专为AI工厂打造的卓越操作系统Dynamo，最终实现了高达35倍的性能飞跃，更带来了全球前所未见的Token生成层级推理性能。这就是整合了Groq技术的新一代Vera Rubin系统。

　　在这之后我们将迎来代号为Feynman的全新一代架构。Feynman不仅拥有全面革新的GPU，还将搭载由NVIDIA与Grok团队强强联手打造的全新LPULP40芯片。与之配套的还有代号为Rosa的全新CPU以及新一代BlueField-5数据处理器，负责将新一代CPU与SuperNIC CX10紧密连接。在Feynman架构下，我们将提供基于铜缆的Kyber纵向扩展方案，以及基于CPO技术的Kyber光通信纵向扩展方案。这是我们首次在纵向扩展领域同时并行推进铜缆和共封装光学技术路线。铜缆连接依然至关重要，但同时我们也必须大规模提升光通信的连接规模和CPO产能，以应对日益暴涨的算力需求。

　　为了解决这一痛点，我们打造了Omniverse及其延伸的DSX平台。这是一个让全球产业链伙伴能够在虚拟世界同协作、联合设计吉瓦级超级AI工厂的数字孪生平台。我们拥有涵盖机架结构、机械物理、热力学散热、电气工程以及复杂网络拓扑的全套物理级模拟系统，这些仿真能力已深度集成到我们全球生态伙伴的专业工业软件中。此外DSX平台还能直接与现实世界的电网连接，动态统筹调度数据中心功耗与电网负荷以节约能源。在数据中心内部我们引入了Max-Q技术，在供电、冷却及各类硬件设施之间进行动态负载均衡，确保每一度电都能转化为最极致的Token吞吐量。在这个宏大的系统工程中，我深信至少还能挖掘出两倍以上的性能提升空间。

　　NVIDIA DSX是一张用于设计和运营AI工厂的Omniverse数字孪生蓝图。开发者可以通过丰富的API接入：使用DSXsim进行物理、电气与热能仿真；通过DSxExchange管理AI工厂的运营数据；利用DSxFlex实现与电网的动态功率协同；最后由DSX Max-Q动态最大化Token吞吐量。这一流程始于NVIDIA与各大设备制造商提供的仿真就绪(Sim-ready)资产，交由PTC Windchill PLM进行管理，随后导入达索系统的3DExperience平台进行基于模型的系统工程(MBSE)设计。工程企业可将数据无缝导入自定义的Omniverse应用中完成最终厂房设计。在虚拟验证环节，我们调用西门子Star-CCM+进行外部热分析，使用Cadence Reality进行内部热分析，利用ETAP进行电气仿真，最后依靠NVIDIA的网络模拟器DSx Air配合Procore平成虚拟调试。

　　那么OpenClaw究竟是什么？本质上它是一个超级连接器和全局化的智能体系统(Agentic System)。它的核心能力在于调用并连接大型语言模型，从而接管与管理计算机资源。OpenClaw可以访问各类工具和底层文件系统；具备强大的任务调度能力，能够执行定时任务(Cron Jobs)；它拥有极强的逻辑拆解能力，能够根据分步引导(Step-by-step)的提示词拆解复杂问题，并自主衍生和唤醒其他子代理(Sub-agents)协同工作。此外它还拥有极其丰富的全模态I/O输入输出能力，你可以通过任何模态与之交互甚至向它挥手它也能理解，并在执行完毕后通过系统消息、短信或电子邮件向你汇报结果。

　　它还有什么功能？基于这一点，可以说它事实上是一个操作系统。我刚才使用的正是描述操作系统时会用到的语法。OpenClaw已经开源了Agentic计算机的核心操作系统，这与Windows让个人电脑成为可能并无二致。现在OpenClaw让创建个人智能体成为了可能，其影响不可估量。最重要的一点是，现在每一家软件公司和技术公司都意识到了这一点。对于CEO们来说，问题在于你们的OpenClaw战略是什么。正如我们曾经需要制定Linux战略、HTTP和HTML战略从而开启互联网时代，正如我们需要制定Kubernetes战略从而使移动云成为可能，当今世界上的每家公司都需要制定OpenClaw战略和智能体系统战略，这是全新的计算机。

　　Open Models是全球规模最大且最具多样性的AI生态系统之一，涵盖语言、视觉、生物学、物理学和自主系统领域的近三百万个开放模型，助力构建特定领域的AI。作为开源AI领域最大的贡献者之一，NVIDIA构建并发布了六个系列的开放前沿模型，提供训练数据和框架以帮助开发者进行定制和采用。每个系列都在推出登顶排行榜的新模型。其核心包括用于语言推理、视觉理解、RAG、安全和语音的Nemotron模型，用于物理AI世界生成与理解的前沿模型Kosmos，全球首款具备思考与推理能力的自动驾驶AIAlphaMIO，通用机器人基础模型GROOT，用于生物化学和分子设计的开放模型VaioNemo，以及植根于AI物理学的天气和气候预测模型Earth-2。

　　NVIDIA开放模型为研究人员和开发人员提供了构建其专业领域AI的基础。我们的模型是世界级的并在排行榜上名列前茅，但最重要的是我们将持续推动其进化，例如Nemotron 3之后将推出Nemotron 4，Kosmos 1之后推出了Kosmos 2，GROOT也已经到了第二代。我们通过垂直整合与水平开放让每个人都能加入AI革命。在研究、语音、世界模型、通用人工智能机器人、自动驾驶汽车和推理领域，我们的模型均位列排行榜第一，其中最重要的是集成在OpenClaw中的Nemotron-3，它是世界上最好的三个模型之一。我们致力于创建基础模型以便用户进行微调和后训练，使其完全符合所需的智能水平。即将推出的Nemotron 3 Ultra将成为世界上最出色的基础模型，帮助每个国家建立其主权AI。

　　此外，我们正与ABB、Universal Robotics、KUKA等众多机器人公司合作，将物理AI模型集成到仿真系统中，以便将机器人部署到生产线上。Caterpillar和T-Mobile也参与了合作，未来的无线电塔将升级为NVIDIA Aerial AI RAN，这种机器人无线电塔能对流量进行推理，计算出如何调整波束成形以节省能源并提高保真度。在众多人形机器人中，Disney机器人是我最喜欢的之一。物理AI在全球范围内的首次大规模部署从自动驾驶汽车开启，借助NVIDIA AlphaMIO，车辆现在具备了推理能力，能够安全智能地应对各种场景。汽车可以对操作进行旁白解说，解释绕过违章停放车辆等决策的思考过程，并严格遵循加速等指令。

　　为加速这一进程，NVIDIA构建了开源的ISAAC Lab用于机器人的训练、评估与模拟。Newton用于可扩展且GPU加速的可微分物理模拟，Kosmos世界模型用于神经模拟，GROOT开源机器人基础模型用于推理与动作生成。凭借充足的算力，各地开发者正弥合物理AI的数据鸿沟。例如，Peritas AI在ISAAC Lab中训练手术室辅助机器人并通过Kosmos成倍增加数据；Skilled AI利用ISAAC Lab和Kosmos生成训练后数据，并通过强化学习在数千种场景中强化模型。Humanoid、Hexagon Robotics、Foxconn和Noble Machines均使用ISAAC Lab进行全身控制、操作策略训练及数据生成微调。Disney Research则在Newton和ISAAC Lab中结合其Kamino物理模拟器为其角色机器人训练策略。

上一篇丨

NG南宫娱乐· NG南宫28官方网站· APP下载现场文字实录）十四届全国人大四次会议经济主题记者会

下一篇丨

没有了

全国咨询热线： HASHKFK

新闻资讯

南宫28新闻

黄仁勋GTC完整演讲：生成Token的成NG南宫娱乐· NG南宫28官方网站· APP下载本与效率决定科技企业的营收与生死

联系我们