wordpress做外贸网站的劣势,上海网站建设代,公司做网站的原因,网站开发的环境6月2日#xff0c;英伟达联合创始人兼首席执行官黄仁勋在Computex 2024#xff08;2024台北国际电脑展#xff09;上发表主题演讲#xff0c;分享了人工智能时代如何助推全球新产业革命。
以下为本次演讲的要点#xff1a;
①黄仁勋展示了最新量产版Blackwell芯片#…6月2日英伟达联合创始人兼首席执行官黄仁勋在Computex 20242024台北国际电脑展上发表主题演讲分享了人工智能时代如何助推全球新产业革命。
以下为本次演讲的要点
①黄仁勋展示了最新量产版Blackwell芯片并称将在2025年推出Blackwell Ultra AI芯片下一代AI平台命名为Rubin2027年推Rubin Ultra更新节奏将是“一年一次”打破“摩尔定律”。
②黄仁勋宣称英伟达推动了大语言模型诞生其在2012年后改变了GPU架构并将所有新技术集成在单台计算机上。
③英伟达的加速计算技术帮助实现了100倍速率提升而功耗仅增加到原来的3倍成本为原来的1.5倍。
④黄仁勋预计下一代AI需要理解物理世界。他给出的方法是让AI通过视频与合成数据学习并让AI互相学习。
⑤黄仁勋在PPT里甚至给token敲定了一个中文译名——词元。
⑥黄仁勋表示机器人时代已经到来将来所有移动的物体都将实现自主运行。
以下是两小时演讲全文实录
尊敬的各位来宾我非常荣幸能再次站在这里。首先我要感谢台湾大学为我们提供这个体育馆作为举办活动的场所。上一次我来到这里是我从台湾大学获得学位的时候。今天我们即将探讨的内容很多所以我必须加快步伐以快速而清晰的方式传达信息。我们有很多话题要聊我有许多激动人心的故事要与大家分享。
我很高兴能够来到中国台湾这里有我们很多合作伙伴。事实上这里不仅是英伟达发展历程中不可或缺的一部分更是我们与合作伙伴共同将创新推向全球的关键节点。我们与许多合作伙伴共同构建了全球范围内的人工智能基础设施。今天我想与大家探讨几个关键议题
1我们共同的工作正在取得哪些进展以及这些进展的意义何在
2生成式人工智能到底是什么它将如何影响我们的行业乃至每一个行业
3一个关于我们如何前进的蓝图我们将如何抓住这个令人难以置信的机遇
接下来会发生什么生成式人工智能及其带来的深远影响我们的战略蓝图这些都是我们即将探讨的令人振奋的主题。我们正站在计算机行业重启的起点上一个由你们铸就、由你们创造的新时代即将开启。现在你们已经为下一段重要旅程做好了准备。
新的计算时代正在开始
但在开始深入讨论之前我想先强调一点英伟达位于计算机图形学、模拟和人工智能的交汇点上这构成了我们公司的灵魂。今天我将向大家展示的所有内容都是基于模拟的。这些不仅仅是视觉效果它们背后是数学、科学和计算机科学的精髓以及令人叹为观止的计算机架构。没有任何动画是预先制作的一切都是我们自家团队的杰作。这就是英伟达的领会我们将其全部融入了我们引以为傲的Omniverse虚拟世界中。现在请欣赏视频
全球数据中心的电力消耗正在急剧上升同时计算成本也在不断攀升。我们正面临着计算膨胀的严峻挑战这种情况显然无法长期维持。数据将继续以指数级增长而CPU的性能扩展却难以像以往那样快速。然而有一种更为高效的方法正在浮现。
近二十年来我们一直致力于加速计算的研究。CUDA技术增强了CPU的功能将那些特殊处理器能更高效完成的任务卸载并加速。事实上由于CPU性能扩展的放缓甚至停滞加速计算的优势愈发显著。我预测每个处理密集型的应用都将实现加速且不久的将来每个数据中心都将实现全面加速。
现在选择加速计算是明智之举这已成为行业共识。想象一下一个应用程序需要100个时间单位来完成。无论是100秒还是100小时我们往往无法承受运行数天甚至数月的人工智能应用。
在这100个时间单位中有1个时间单位涉及需要顺序执行的代码此时单线程CPU的重要性不言而喻。操作系统的控制逻辑是不可或缺的必须严格按照指令序列执行。然而还有许多算法如计算机图形学、图像处理、物理模拟、组合优化、图处理和数据库处理特别是深度学习中广泛使用的线性代数它们非常适合通过并行处理进行加速。为了实现这一目标我们发明了一种创新架构将GPU与CPU*结合。
专用的处理器能够将原本耗时的任务加速至令人难以置信的速度。由于这两个处理器能并行工作它们各自独立且自主运行。这意味着原本需要100个时间单位才能完成的任务现在可能仅需1个时间单位即可完成。尽管这种加速效果听起来令人难以置信但今天我将通过一系列实例来验证这一说法。
这种性能提升所带来的好处是惊人的加速100倍而功率仅增加约3倍成本仅上升约50%。我们在PC行业早已实践了这种策略。在PC上添加一个价值500美元的GeForce GPU就能使其性能大幅提升同时整体价值也增加至1000美元。在数据中心我们也采用了同样的方法。一个价值十亿美元的数据中心在添加了价值5亿美元的GPU后瞬间转变为一个强大的人工智能工厂。今天这种变革正在全球范围内发生。
节省的成本同样令人震惊。每投入1美元你就能获得高达60倍的性能提升。加速100倍而功率仅增加3倍成本仅上升1.5倍。节省的费用是实实在在的
显然许多公司在云端处理数据上花费了数亿美元。当数据得到加速处理时节省数亿美元就变得合情合理。为什么会这样呢原因很简单我们在通用计算方面经历了长时间的效率瓶颈。
现在我们终于认识到了这一点并决定加速。通过采用专用处理器我们可以重新获得大量之前被忽视的性能提升从而节省大量金钱和能源。这就是为什么我说你购买得越多节省得也越多。
现在我已经向你们展示了这些数字。虽然它们并非精确到小数点后几位但这准确地反映了事实。这可以称之为“CEO数学”。CEO数学虽不追求*的精确但其背后的逻辑是正确的——你购买的加速计算能力越多节省的成本也就越多。
350个函式库帮助开拓新市场
加速计算带来的结果确实非凡但其实现过程并不容易。为什么它能节省这么多钱但人们却没有更早地采用这种技术呢原因就在于它的实施难度太大。
没有现成的软件可以简单地通过加速编译器运行然后应用程序就能瞬间提速100倍。这既不符合逻辑也不现实。如果这么容易那么CPU厂商早就这样做了。
事实上要实现加速软件必须进行全面重写。这是整个过程中*挑战性的部分。软件需要被重新设计、重新编码以便将原本在CPU上运行的算法转化为可以在加速器上并行运行的格式。
这项计算机科学研究虽然困难但我们在过去的20年里已经取得了显著的进展。例如我们推出了广受欢迎的cuDNN深度学习库它专门处理神经网络加速。我们还为人工智能物理模拟提供了一个库适用于流体动力学等需要遵守物理定律的应用。另外我们还有一个名为Aerial的新库它利用CUDA加速5G无线电技术使我们能够像软件定义互联网网络一样用软件定义和加速电信网络。
这些加速能力不仅提升了性能还帮助我们将整个电信行业转化为一种与云计算类似的计算平台。此外Coolitho计算光刻平台也是一个很好的例子它极大地提升了芯片制造过程中计算最密集的部分——掩模制作的效率。台积电等公司已经开始使用Coolitho进行生产不仅显著节省了能源而且大幅降低了成本。他们的目标是通过加速技术栈为算法的更进一步发展和制造更深更窄的晶体管所需的庞大计算能力做好准备。
Pair of Bricks是我们引以为傲的基因测序库它拥有世界*的基因测序吞吐量。而Co OPT则是一个令人瞩目的组合优化库能够解决路线规划、优化行程、旅行社问题等复杂难题。人们普遍认为这些问题需要量子计算机才能解决但我们却通过加速计算技术创造了一个运行极快的算法成功打破了23项世界纪录至今我们仍保持着每一个主要的世界纪录。
Coup Quantum是我们开发的量子计算机仿真系统。对于想要设计量子计算机或量子算法的研究人员来说一个可靠的模拟器是必不可少的。在没有实际量子计算机的情况下英伟达CUDA——我们称之为世界上最快的计算机——成为了他们的*工具。我们提供了一个模拟器能够模拟量子计算机的运行帮助研究人员在量子计算领域取得突破。这个模拟器已经被全球数十万研究人员广泛使用并被集成到所有*的量子计算框架中为世界各地的科学超级计算机中心提供了强大的支持。
此外我们还推出了数据处理库Kudieff专门用于加速数据处理过程。数据处理占据了当今云支出的绝大部分因此加速数据处理对于节省成本至关重要。QDF是我们开发的加速工具能够显著提升世界上主要数据处理库的性能如Spark、Pandas、Polar以及NetworkX等图处理数据库。
这些库是生态系统中的关键组成部分它们使得加速计算得以广泛应用。如果没有我们精心打造的如cuDNN这样的特定领域库仅凭CUDA全球深度学习科学家可能无法充分利用其潜力因为CUDA与TensorFlow、PyTorch等深度学习框架中使用的算法之间存在显著差异。这就像在没有OpenGL的情况下进行计算机图形学设计或是在没有SQL的情况下进行数据处理一样不切实际。
这些特定领域的库是我们公司的宝藏我们目前拥有超过350个这样的库。正是这些库让我们在市场中保持开放和*。今天我将向你们展示更多令人振奋的例子。
就在上周谷歌宣布他们已经在云端部署了QDF并成功加速了Pandas。Pandas是世界上*的数据科学库被全球1000万数据科学家所使用每月下载量高达1.7亿次。它就像是数据科学家的Excel是他们处理数据的得力助手。
现在只需在谷歌的云端数据中心平台Colab上点击一下你就可以体验到由QDF加速的Pandas带来的强大性能。这种加速效果确实令人惊叹就像你们刚刚看到的演示一样它几乎瞬间就完成了数据处理任务。
CUDA实现良性循环
CUDA已经达到了一个人们所称的临界点但现实情况比这要好。CUDA已经实现一个良性的发展循环。回顾历史和各种计算架构、平台的发展我们可以发现这样的循环并不常见。以微处理器CPU为例它已经存在了60年但其加速计算的方式在这漫长的岁月里并未发生根本性改变。
要创建一个新的计算平台往往面临着“先有鸡还是先有蛋”的困境。没有开发者的支持平台很难吸引用户而没有用户的广泛采用又难以形成庞大的安装基础来吸引开发者。这个困境在过去20年中一直困扰着多个计算平台的发展。
然而通过持续不断地推出特定领域的库和加速库我们成功打破了这一困境。如今我们已在全球拥有500万开发者他们利用CUDA技术服务于从医疗保健、金融服务到计算机行业、汽车行业等几乎每一个主要行业和科学领域。
随着客户群的不断扩大OEM和云服务提供商也开始对我们的系统产生兴趣这进一步推动了更多系统进入市场。这种良性循环为我们创造了巨大的机遇使我们能够扩大规模增加研发投入从而推动更多应用的加速发展。
每一次应用的加速都意味着计算成本的显著降低。正如我之前展示的100倍的加速可以带来高达97.96%即接近98%的成本节省。随着我们将计算加速从100倍提升至200倍再飞跃至1000倍计算的边际成本持续下降展现出了令人瞩目的经济效益。
当然我们相信通过显著降低计算成本市场、开发者、科学家和发明家将不断发掘出消耗更多计算资源的新算法。直至某个时刻一种深刻的变革将悄然发生。当计算的边际成本变得如此低廉时全新的计算机使用方式将应运而生。
事实上这种变革正在我们眼前上演。过去十年间我们利用特定算法将计算的边际成本降低了惊人的100万倍。如今利用互联网上的所有数据来训练大语言模型已成为一种合乎逻辑且理所当然的选择不再受到任何质疑。
这个想法——打造一台能够处理海量数据以自我编程的计算机——正是人工智能崛起的基石。人工智能的崛起之所以成为可能完全是因为我们坚信如果我们让计算变得越来越便宜总会有人找到巨大的用途。如今CUDA的成功已经证明了这一良性循环的可行性。
随着安装基础的持续扩大和计算成本的持续降低越来越多的开发者得以发挥他们的创新潜能提出更多的想法和解决方案。这种创新力推动了市场需求的激增。现在我们正站在一个重大转折点上。然而在我进一步展示之前我想强调的是如果不是CUDA和现代人工智能技术——尤其是生成式人工智能的突破以下我所要展示的内容将无法实现。
这就是“地球2号”项目——一个雄心勃勃的设想旨在创建地球的数字孪生体。我们将模拟整个地球的运行以预测其未来变化。通过这样的模拟我们可以更好地预防灾难更深入地理解气候变化的影响从而让我们能够更好地适应这些变化甚至现在就开始改变我们的行为和习惯。
“地球2号”项目可能是世界上*挑战性、最雄心勃勃的项目之一。我们每年都在这个领域取得显著的进步而今年的成果尤为突出。现在请允许我为大家展示这些令人振奋的进展。
在不远的将来我们将拥有持续的天气预报能力覆盖地球上的每一平方公里。你将始终了解气候将如何变化这种预测将不断运行因为我们训练了人工智能而人工智能所需的能量又极为有限。这将是一个令人难以置信的成就。我希望你们会喜欢它而更加重要的是这一预测实际上是由Jensen AI做出的而非我本人。我设计了它但最终的预测由Jensen AI来呈现。
由于我们致力于不断提高性能并降低成本研究人员在2012年发现了CUDA那是英伟达与人工智能的首次接触。那一天对我们而言至关重要因为我们做出了明智的选择与科学家们紧密合作使深度学习成为可能。AlexNet的出现实现了计算机视觉的巨大突破。
AI超算的崛起起初并不被认同
但更为重要的智慧在于我们退后一步深入理解了深度学习的本质。它的基础是什么它的长期影响是什么它的潜力是什么我们意识到这项技术拥有巨大的潜力能够继续扩展几十年前发明和发现的算法结合更多的数据、更大的网络和至关重要的计算资源深度学习突然间能够实现人类算法无法企及的任务。
现在想象一下如果我们进一步扩大架构拥有更大的网络、更多的数据和计算资源将会发生什么因此我们致力于重新发明一切。自2012年以来我们改变了GPU的架构增加了张量核心发明了NV-Link推出了cuDNN、TensorRT、Nickel还收购了Mellanox推出了Triton推理服务器。
这些技术集成在一台全新的计算机上它超越了当时所有人的想象。没有人预料到没有人提出这样的需求甚至没有人理解它的全部潜力。事实上我自己也不确定是否会有人会想买它。
但在GTC大会上我们正式发布了这项技术。旧金山一家名叫OpenAI的初创公司迅速注意到了我们的成果并请求我们提供一台设备。我亲自为OpenAI送去了世界上首台人工智能超级计算机DGX。
2016年我们持续扩大研发规模。从单一的人工智能超级计算机单一的人工智能应用扩大到在2017年推出了更为庞大且强大的超级计算机。随着技术的不断进步世界见证了Transformer的崛起。这一模型的出现使我们能够处理海量的数据并识别和学习在长时间跨度内连续的模式。
如今我们有能力训练这些大语言模型以实现自然语言理解方面的重大突破。但我们并未止步于此我们继续前行构建了更大的模型。到了2022年11月在极为强大的人工智能超级计算机上我们使用数万颗英伟达GPU进行训练。
仅仅5天后OpenAI宣布ChatGPT已拥有100万用户。这一惊人的增长速度在短短两个月内攀升至1亿用户创造了应用历史上最快的增长记录。其原因十分简单——ChatGPT的使用体验便捷而神奇。
用户能够与计算机进行自然、流畅的互动仿佛与真人交流一般。无需繁琐的指令或明确的描述ChatGPT便能理解用户的意图和需求。
ChatGPT的出现标志着一个划时代的变革这张幻灯片恰恰捕捉到了这一关键转折。请允许我为大家展示下。
直至ChatGPT的问世它才真正向世界揭示了生成式人工智能的无限潜能。长久以来人工智能的焦点主要集中在感知领域如自然语言理解、计算机视觉和语音识别这些技术致力于模拟人类的感知能力。但ChatGPT带来了质的飞跃它不仅仅局限于感知而是首次展现了生成式人工智能的力量。
它会逐个生成Token这些Token可以是单词、图像、图表、表格甚至是歌曲、文字、语音和视频。Token可以代表任何具有明确意义的事物无论是化学物质、蛋白质、基因还是之前我们提到的天气模式。
这种生成式人工智能的崛起意味着我们可以学习并模拟物理现象让人工智能模型理解并生成物理世界的各种现象。我们不再局限于缩小范围进行过滤而是通过生成的方式探索无限可能。
如今我们几乎可以为任何有价值的事物生成Token无论是汽车的转向盘控制、机械臂的关节运动还是我们目前能够学习的任何知识。因此我们所处的已不仅仅是一个人工智能时代而是一个生成式人工智能引领的新纪元。
更重要的是这台最初作为超级计算机出现的设备如今已经演化为一个高效运转的人工智能数据中心。它不断地产出不仅生成Token更是一个创造价值的人工智能工厂。这个人工智能工厂正在生成、创造和生产具有巨大市场潜力的新商品。
正如19世纪末尼古拉·特斯拉Nikola Tesla发明了交流发电机为我们带来了源源不断的电子英伟达的人工智能生成器也正在源源不断地产生具有无限可能性的Token。这两者都有巨大的市场机会有望在每个行业掀起变革。这确实是一场新的工业革命
我们现在迎来了一个全新的工厂能够为各行各业生产出前所未有的、*价值的新商品。这一方法不仅*可扩展性而且完全可重复。请注意目前每天都在不断涌现出各种各样的人工智能模型尤其是生成式人工智能模型。如今每个行业都竞相参与其中这是前所未有的盛况。
价值3万亿美元的IT行业即将催生出能够直接服务于100万亿美元产业的创新成果。它不再仅仅是信息存储或数据处理的工具而是每个行业生成智能的引擎。这将成为一种新型的制造业但它并非传统的计算机制造业而是利用计算机进行制造的全新模式。这样的变革以前从未发生过这确实是一件令人瞩目的非凡之事。
生成式AI推动软件全栈重塑展示NIM云原生微服务
这开启了计算加速的新时代推动了人工智能的迅猛发展进而催生了生成式人工智能的兴起。而如今我们正在经历一场工业革命。关于其影响让我们深入探讨一下。
对于我们所在的行业而言这场变革的影响同样深远。正如我之前所言这是过去六十年来的首次计算的每一层都正在发生变革。从CPU的通用计算到GPU的加速计算每一次变革都标志着技术的飞跃。
过去计算机需要遵循指令执行操作而现在它们更多地是处理LLM大语言模型和人工智能模型。过去的计算模型主要基于检索几乎每次你使用手机时它都会为你检索预先存储的文本、图像或视频并根据推荐系统重新组合这些内容呈现给你。
但在未来你的计算机会尽可能多地生成内容只检索必要的信息因为生成数据在获取信息时消耗的能量更少。而且生成的数据具有更高的上下文相关性能更准确地反映你的需求。当你需要答案时不再需要明确指示计算机“给我获取那个信息”或“给我那个文件”只需简单地说“给我一个答案。”
此外计算机不再仅仅是我们使用的工具它开始生成技能。它执行任务而不再是一个生产软件的行业这在90年代初是一个颠覆性的观念。记得吗微软提出的软件打包理念彻底改变了PC行业。没有打包软件我们的PC将失去大部分功能。这一创新推动了整个行业的发展。
现在我们有了新工厂、新计算机而在这个基础上运行的是一种新型软件——我们称之为NimNVIDIA Inference Microservices。在这个新工厂中运行的Nim是一个预训练模型它是一个人工智能。
这个人工智能本身相当复杂但运行人工智能的计算堆栈更是复杂得令人难以置信。当你使用ChatGPT这样的模型时其背后是庞大的软件堆栈。这个堆栈复杂而庞大因为模型拥有数十亿到数万亿个参数且不仅在一台计算机上运行而是在多台计算机上协同工作。
为了*化效率系统需要将工作负载分配给多个GPU进行各种并行处理如张量并行、管道并行、数据并行和专家并行。这样的分配是为了确保工作能尽快完成因为在一个工厂中吞吐量直接关系到收入、服务质量和可服务的客户数量。如今我们身处一个数据中心吞吐量利用率至关重要的时代。
过去虽然吞吐量被认为重要但并非决定性的因素。然而现在从启动时间、运行时间、利用率、吞吐量到空闲时间等每一个参数都被精确测量因为数据中心已成为真正的“工厂”。在这个工厂中运作效率直接关联到公司的财务表现。
鉴于这种复杂性我们深知大多数公司在部署人工智能时面临的挑战。因此我们开发了一个集成化的人工智能容器解决方案将人工智能封装在易于部署和管理的盒子中。这个盒子包含了庞大的软件集合如CUDA、CUDACNN和TensorRT以及Triton推理服务。它支持云原生环境允许在Kubernetes基于容器技术的分布式架构解决方案环境中自动扩展并提供管理服务方便用户监控人工智能服务的运行状态。
更令人振奋的是这个人工智能容器提供通用的、标准的API接口使得用户可以直接与“盒子”进行交互。用户只需下载Nim并在支持CUDA的计算机上运行即可轻松部署和管理人工智能服务。如今CUDA已无处不在它支持各大云服务提供商几乎所有计算机制造商都提供CUDA支持甚至在数亿台PC中也能找到它的身影。
当你下载Nim时即刻拥有一个人工智能助手它能如与ChatGPT对话般流畅交流。现在所有的软件都已精简并整合在一个容器中原先繁琐的400个依赖项全部集中优化。我们对Nim进行了严格的测试每个预训练模型都在我们的云端基础设施上得到了全面测试包括Pascal、Ampere乃至最新的Hopper等不同版本的GPU。这些版本种类繁多几乎覆盖了所有需求。
Nim的发明无疑是一项壮举它是我最引以为傲的成就之一。如今我们有能力构建大语言模型和各种预训练模型这些模型涵盖了语言、视觉、图像等多个领域还有针对特定行业如医疗保健和数字生物学的定制版本。
想要了解更多或试用这些版本只需访问ai.nvidia.com。今天我们在Hugging Face上发布了完全优化的Llama 3 Nim你可以立即体验甚至免费带走它。无论你选择哪个云平台都能轻松运行它。当然你也可以将这个容器下载到你的数据中心自行托管并为你的客户提供服务。
我前面提到我们拥有覆盖不同领域的Nim版本包括物理学、语义检索、视觉语言等支持多种语言。这些微服务可以轻松集成到大型应用中其中*潜力的应用之一是客户服务代理。它几乎是每个行业的标配代表了价值数万亿美元的全球客户服务市场。
值得一提的是护士们作为客户服务的核心在零售、快餐、金融服务、保险等行业中发挥着重要作用。如今借助语言模型和人工智能技术数千万的客户服务人员得到了显著的增强。这些增强工具的核心正是你所看到的Nim。
有些被称为推理智能体Reasoning Agents它们被赋予任务后能够明确目标并制定计划。有的擅长检索信息有的精于搜索还有的可能会使用如Coop这样的工具或者需要学习在SAP上运行的特定语言如ABAP甚至执行SQL查询。这些所谓的专家现在被组成一个高效协作的团队。
应用层也因此发生了变革过去应用程序是由指令编写的而现在它们则是通过组装人工智能团队来构建。虽然编写程序需要专业技能但几乎每个人都知道如何分解问题并组建团队。因此我坚信未来的每家公司都会拥有一个庞大的Nim集合。你可以根据需要选择专家将它们连接成一个团队。
更神奇的是你甚至不需要弄清楚如何去连接它们。只需给代理分配一个任务Nim会智能地决定如何分解任务并分配给最适合的专家。它们就像应用程序或团队的中央*能够协调团队成员的工作最终将结果呈现给你。
整个过程就像人类团队协作一样高效、灵活。这不仅仅是未来的趋势而是即将在我们身边成为现实。这就是未来应用程序将要呈现的全新面貌。
PC将成为数字人主要载体
当我们谈论与大型人工智能服务的交互时目前我们已经可以通过文本和语音提示来实现。但展望未来我们更希望以更人性化的方式——即数字人来进行互动。英伟达在数字人技术领域已经取得了显著的进展。
数字人不仅具有成为出色交互式代理的潜力它们还更加吸引人并可能展现出更高的同理心。然而要跨越这个令人难以置信的鸿沟使数字人看起来和感觉更加自然我们仍需付出巨大的努力。这不仅是我们的愿景更是我们不懈追求的目标。
在我向大家展示我们目前的成果之前请允许我表达对中国台湾的热情问候。在深入探索夜市的魅力之前让我们先一同领略数字人技术的前沿动态。
这确实令人觉得不可思议。ACEAvatar Cloud Engine英伟达数字人技术不仅能在云端高效运行同时也兼容PC环境。我们前瞻性地将Tensor Core GPU集成到所有RTX系列中这标志着人工智能GPU的时代已经到来我们为此做好了充分准备。
背后的逻辑十分清晰要构建一个新的计算平台必须先奠定坚实的基础。有了坚实的基础应用程序自然会随之涌现。如果缺乏这样的基础那么应用程序便无从谈起。所以只有当我们构建了它应用程序的繁荣才有可能实现。
因此我们在每一款RTX GPU中都集成了Tensor Core处理单元目前全球已有1亿台GeForce RTX AI PC投入使用而且这个数字还在不断增长预计将达到2亿台。在最近的Computex展会上我们更是推出了四款全新的人工智能笔记本电脑。
这些设备都具备运行人工智能的能力。未来的笔记本电脑和PC将成为人工智能的载体它们将在后台默默地为你提供帮助和支持。同时这些PC还将运行由人工智能增强的应用程序无论你是进行照片编辑、写作还是使用其他工具都将享受到人工智能带来的便利和增强效果。
此外你的PC还将能够托管带有人工智能的数字人类应用程序让人工智能以更多样化的方式呈现并在PC上得到应用。显然PC将成为至关重要的人工智能平台。那么接下来我们将如何发展呢
之前我谈到了我们数据中心的扩展每次扩展都伴随着新的变革。当我们从DGX扩展到大型人工智能超级计算机时我们实现了Transformer在巨大数据集上的高效训练。这标志着一个重大的转变一开始数据需要人类的监督通过人类标记来训练人工智能。然而人类能够标记的数据量是有限的。现在随着Transformer的发展无监督学习成为可能。
如今Transformer能够自行探索海量的数据、视频和图像从中学习并发现隐藏的模式和关系。为了推动人工智能向更高层次发展下一代人工智能需要根植于物理定律的理解但大多数人工智能系统缺乏对物理世界的深刻认识。为了生成逼真的图像、视频、3D图形以及模拟复杂的物理现象我们急需开发基于物理的人工智能这要求它能够理解并应用物理定律。
在实现这一目标的过程中有两个主要方法。首先通过从视频中学习人工智能可以逐步积累对物理世界的认知。其次利用合成数据我们可以为人工智能系统提供丰富且可控的学习环境。此外模拟数据和计算机之间的互相学习也是一种有效的策略。这种方法类似于AlphaGo的自我对弈模式让两个相同能力的实体长时间相互学习从而不断提升智能水平。因此我们可以预见这种类型的人工智能将在未来逐渐崭露头角。
Blackwell全面投产八年间算力增长1000倍
当人工智能数据通过合成方式生成并结合强化学习技术时数据生成的速率将得到显著提升。随着数据生成的增长对计算能力的需求也将相应增加。我们即将迈入一个新时代在这个时代中人工智能将能够学习物理定律理解并基于物理世界的数据进行决策和行动。因此我们预计人工智能模型将继续扩大对GPU性能的要求也将越来越高。
为满足这一需求Blackwell应运而生。这款GPU专为支持新一代人工智能设计拥有几项关键技术。这种芯片尺寸之大在业界首屈一指。我们采用了两片尽可能大的芯片通过每秒10太字节的高速链接结合世界上*进的SerDes高性能接口或连接技术将它们紧密连接在一起。进一步地我们将两片这样的芯片放置在一个计算机节点上并通过Grace CPU进行高效协调。
Grace CPU的用途广泛不仅适用于训练场景还在推理和生成过程中发挥关键作用如快速检查点和重启。此外它还能存储上下文让人工智能系统拥有记忆并能理解用户对话的上下文这对于增强交互的连续性和流畅性至关重要。
我们推出的第二代Transformer引擎进一步提升了人工智能的计算效率。这款引擎能够根据计算层的精度和范围需求动态调整至较低的精度从而在保持性能的同时降低能耗。同时Blackwell GPU还具备安全人工智能功能确保用户能够要求服务提供商保护其免受盗窃或篡改。
在GPU的互联方面我们采用了第五代NV Link技术它允许我们轻松连接多个GPU。此外Blackwell GPU还配备了*代可靠性和可用性引擎Ras系统这一创新技术能够测试芯片上的每一个晶体管、触发器、内存以及片外内存确保我们在现场就能准确判断特定芯片是否达到了平均故障间隔时间MTBF的标准。
对于大型超级计算机来说可靠性尤为关键。拥有10,000个GPU的超级计算机的平均故障间隔时间可能以小时为单位但当GPU数量增加至100,000个时平均故障间隔时间将缩短至以分钟为单位。因此为了确保超级计算机能够长时间稳定运行以训练那些可能需要数个月时间的复杂模型我们必须通过技术创新来提高可靠性。而可靠性的提升不仅能够增加系统的正常运行时间还能有效降低成本。
最后我们还在Blackwell GPU中集成了先进的解压缩引擎。在数据处理方面解压缩速度至关重要。通过集成这一引擎我们可以从存储中拉取数据的速度比现有技术快20倍从而极大地提升了数据处理效率。
Blackwell GPU的上述功能特性使其成为一款令人瞩目的产品。在之前的GTC大会上我曾向大家展示了处于原型状态的Blackwell。而现在我们很高兴地宣布这款产品已经投入生产。
各位这就是Blackwell使用了令人难以置信的技术。这是我们的杰作是当今世界上最复杂、性能最高的计算机。其中我们特别要提到的是Grace CPU它承载了巨大的计算能力。请看这两个Blackwell芯片它们紧密相连。你注意到了吗这就是世界上*的芯片而我们使用每秒高达A10TB的链接将两片这样的芯片融为一体。
那么Blackwell究竟是什么呢它的性能之强大简直令人难以置信。请仔细观察这些数据。在短短八年内我们的计算能力、浮点运算以及人工智能浮点运算能力增长了1000倍。这速度几乎超越了摩尔定律在*时期的增长。
Blackwell计算能力的增长简直惊人。而更值得一提的是每当我们的计算能力提高时成本却在不断下降。让我给你们展示一下。我们通过提升计算能力用于训练GPT-4模型2万亿参数和8万亿Token的能量下降了350倍。
想象一下如果使用Pascal进行同样的训练它将消耗高达1000吉瓦时的能量。这意味着需要一个吉瓦数据中心来支持但世界上并不存在这样的数据中心。即便存在它也需要连续运行一个月的时间。而如果是一个100兆瓦的数据中心那么训练时间将长达一年。
显然没有人愿意或能够创造这样的数据中心。这就是为什么八年前像ChatGPT这样的大语言模型对我们来说还是遥不可及的梦想。但如今我们通过提升性能并降低能耗实现了这一目标。
我们利用Blackwell将原本需要高达1000吉瓦时的能量降低到仅需3吉瓦时这一成就无疑是令人震惊的突破。想象一下使用1000个GPU它们所消耗的能量竟然只相当于一杯咖啡的热量。而10,000个GPU更是只需短短10天左右的时间就能完成同等任务。八年间取得的这些进步简直令人难以置信。
Blackwell不仅适用于推理其在Token生成性能上的提升更是令人瞩目。在Pascal时代每个Token消耗的能量高达17,000焦耳这大约相当于两个灯泡运行两天的能量。而生成一个GPT-4的Token几乎需要两个200瓦特的灯泡持续运行两天。考虑到生成一个单词大约需要3个Token这确实是一个巨大的能量消耗。
然而现在的情况已经截然不同。Blackwell使得生成每个Token只需消耗0.4焦耳的能量以惊人的速度和极低的能耗进行Token生成。这无疑是一个巨大的飞跃。但即使如此我们仍不满足。为了更大的突破我们必须建造更强大的机器。
这就是我们的DGX系统Blackwell芯片将被嵌入其中。这款系统采用空气冷却技术内部配备了8个这样的GPU。看看这些GPU上的散热片它们的尺寸之大令人惊叹。整个系统功耗约为15千瓦完全通过空气冷却实现。这个版本兼容X86并已应用于我们已发货的服务器中。
然而如果你更倾向于液体冷却技术我们还有一个全新的系统——MGX。它基于这款主板设计我们称之为“模块化”系统。MGX系统的核心在于两块Blackwell芯片每个节点都集成了四个Blackwell芯片。它采用了液体冷却技术确保了高效稳定的运行。
整个系统中这样的节点共有九个共计72个GPU构成了一个庞大的计算集群。这些GPU通过全新的NV链接技术紧密相连形成了一个无缝的计算网络。NV链接交换机堪称技术奇迹。它是目前世界上*进的交换机数据传输速率令人咋舌。这些交换机使得每个Blackwell芯片高效连接形成了一个巨大的72 GPU集群。
这一集群的优势何在首先在GPU域中它现在表现得就像一个单一的、超大规模的GPU。这个“超级GPU”拥有72个GPU的核心能力相较于上一代的8个GPU性能提升了9倍。同时带宽增加了18倍AI FLOPS每秒浮点运算次数更是提升了45倍而功率仅增加了10倍。也就是说一个这样的系统能提供100千瓦的强劲动力而上一代仅为10千瓦。
当然你还可以将更多的这些系统连接在一起形成更庞大的计算网络。但真正的奇迹在于这个NV链接芯片随着大语言模型的日益庞大其重要性也日益凸显。因为这些大语言模型已经不适合单独放在一个GPU或节点上运行它们需要整个GPU机架的协同工作。就像我刚才提到的那个新DGX系统它能够容纳参数达到数十万亿的大语言模型。
NV链接交换机本身就是一个技术奇迹拥有500亿个晶体管74个端口每个端口的数据速率高达400 GB。但更重要的是交换机内部还集成了数学运算功能可以直接进行归约操作这在深度学习中具有极其重要的意义。这就是现在的DGX系统的全新面貌。
许多人对我们表示好奇。他们提出疑问对英伟达的业务范畴存在误解。人们疑惑英伟达怎么可能仅凭制造GPU就变得如此庞大。因此很多人形成了这样一种印象GPU就应该是某种特定的样子。
然而现在我要展示给你们的是这确实是一个GPU但它并非你们想象中的那种。这是世界上*进的GPU之一但它主要用于游戏领域。但我们都清楚GPU的真正力量远不止于此。
各位请看这个这才是GPU的真正形态。这是DGX GPU专为深度学习而设计。这个GPU的背面连接着NV链接主干这个主干由5000条线组成长达3公里。这些线就是NV链接主干它们连接了70个GPU形成一个强大的计算网络。这是一个电子机械奇迹其中的收发器让我们能够在铜线上驱动信号贯穿整个长度。
因此这个NV链接交换机通过NV链接主干在铜线上传输数据使我们能够在单个机架中节省20千瓦的电力而这20千瓦现在可以完全用于数据处理这的确是一项令人难以置信的成就。这就是NV链接主干的力量。
为生成式AI推以太网
但这还不足以满足需求特别是对于大型人工智能工厂来说更是如此那么我们还有另一种解决方案。我们必须使用高速网络将这些人工智能工厂连接起来。我们有两种网络选择InfiniBand和以太网。其中InfiniBand已经在全球各地的超级计算和人工智能工厂中广泛使用并且增长迅速。然而并非每个数据中心都能直接使用InfiniBand因为他们在以太网生态系统上进行了大量投资而且管理InfiniBand交换机和网络确实需要一定的专业知识和技术。
因此我们的解决方案是将InfiniBand的性能带到以太网架构中这并非易事。原因在于每个节点、每台计算机通常与互联网上的不同用户相连但大多数通信实际上发生在数据中心内部即数据中心与互联网另一端用户之间的数据传输。然而在人工智能工厂的深度学习场景下GPU并不是与互联网上的用户进行通信而是彼此之间进行频繁的、密集的数据交换。
它们相互通信是因为它们都在收集部分结果。然后它们必须将这些部分结果进行规约reduce并重新分配redistribute。这种通信模式的特点是高度突发性的流量。重要的不是平均吞吐量而是最后一个到达的数据因为如果你正在从所有人那里收集部分结果并且我试图接收你所有的部分结果如果最后一个数据包晚到了那么整个操作就会延迟。对于人工智能工厂而言延迟是一个至关重要的问题。
所以我们关注的焦点并非平均吞吐量而是确保最后一个数据包能够准时、无误地抵达。然而传统的以太网并未针对这种高度同步化、低延迟的需求进行优化。为了满足这一需求我们创造性地设计了一个端到端的架构使NIC网络接口卡和交换机能够通信。为了实现这一目标我们采用了四种关键技术
*英伟达拥有业界*的RDMA远程直接内存访问技术。现在我们有了以太网网络级别的RDMA它的表现非常出色。
第二我们引入了拥塞控制机制。交换机具备实时遥测功能能够迅速识别并响应网络中的拥塞情况。当GPU或NIC发送的数据量过大时交换机会立即发出信号告知它们减缓发送速率从而有效避免网络热点的产生。
第三我们采用了自适应路由技术。传统以太网按固定顺序传输数据但在我们的架构中我们能够根据实时网络状况进行灵活调整。当发现拥塞或某些端口空闲时我们可以将数据包发送到这些空闲端口再由另一端的Bluefield设备重新排序确保数据按正确顺序返回。这种自适应路由技术极大地提高了网络的灵活性和效率。
第四我们实施了噪声隔离技术。在数据中心中多个模型同时训练产生的噪声和流量可能会相互干扰并导致抖动。我们的噪声隔离技术能够有效地隔离这些噪声确保关键数据包的传输不受影响。
通过采用这些技术我们成功地为人工智能工厂提供了高性能、低延迟的网络解决方案。在价值高达数十亿美元的数据中心中如果网络利用率提升40%而训练时间缩短20%这实际上意味着价值50亿美元的数据中心在性能上等同于一个60亿美元的数据中心揭示了网络性能对整体成本效益的显著影响。
幸运的是带有Spectrum X的以太网技术正是我们实现这一目标的关键它大大提高了网络性能使得网络成本相对于整个数据中心而言几乎可以忽略不计。这无疑是我们在网络技术领域取得的一大成就。
我们拥有一系列强大的以太网产品线其中最引人注目的是Spectrum X800。这款设备以每秒51.2 TB的速度和256路径radix的支持能力为成千上万的GPU提供了高效的网络连接。接下来我们计划一年后推出X800 Ultra它将支持高达512路径的512 radix进一步提升了网络容量和性能。而X 1600则是为更大规模的数据中心设计的能够满足数百万个GPU的通信需求。
随着技术的不断进步数百万个GPU的数据中心时代已经指日可待。这一趋势的背后有着深刻的原因。一方面我们渴望训练更大、更复杂的模型但更重要的是未来的互联网和计算机交互将越来越多地依赖于云端的生成式人工智能。这些人工智能将与我们一起工作、互动生成视频、图像、文本甚至数字人。因此我们与计算机的每一次交互几乎都离不开生成式人工智能的参与。并且总是有一个生成式人工智能与之相连其中一些在本地运行一些在你的设备上运行很多可能在云端运行。
这些生成式人工智能不仅具备强大的推理能力还能对答案进行迭代优化以提高答案的质量。这意味着我们未来将产生海量的数据生成需求。今晚我们共同见证了这一技术革新的力量。
Blackwell作为NVIDIA平台的*代产品自推出以来便备受瞩目。如今全球范围内都迎来了生成式人工智能的时代这是一个全新的工业革命的开端每个角落都在意识到人工智能工厂的重要性。我们深感荣幸获得了来自各行各业的广泛支持包括每一家OEM原始设备制造商、电脑制造商、CSP云服务提供商、GPU云、主权云以及电信公司等。
Blackwell的成功、广泛的采用以及行业对其的热情都达到了前所未有的高度这让我们深感欣慰并在此向大家表示衷心的感谢。然而我们的脚步不会因此而停歇。在这个飞速发展的时代我们将继续努力提升产品性能降低培训和推理的成本同时不断扩展人工智能的能力使每一家企业都能从中受益。我们坚信随着性能的提升成本将进一步降低。而Hopper平台无疑可能是历史上最成功的数据中心处理器。
Blackwell Ultra将于明年发布下一代平台名为Rubin
这确实是一个震撼人心的成功故事。Blackwell平台的诞生正如大家所见并非单一组件的堆砌而是一个综合了CPU、GPU、NVLink、NICK特定技术组件以及NVLink交换机等多个元素的完整系统。我们致力于通过每代产品使用大型、超高速的交换机将所有GPU紧密连接形成一个庞大且高效的计算域。
我们将整个平台集成到人工智能工厂中但更为关键的是我们将这一平台以模块化的形式提供给全球客户。这样做的初衷在于我们期望每一位合作伙伴都能根据自身的需求创造出独特且富有创新性的配置以适应不同风格的数据中心、不同的客户群体和多样化的应用场景。从边缘计算到电信领域只要系统保持开放各种创新都将成为可能。
为了让你们能够自由创新我们设计了一个一体化的平台但同时又以分解的形式提供给你们使你们能够轻松构建模块化系统。现在Blackwell平台已经全面登场。
英伟达始终坚持每年一次的更新节奏。我们的核心理念非常明确1构建覆盖整个数据中心规模的解决方案2将这些解决方案分解为各个部件以每年一次的频率向全球客户推出3我们不遗余力地将所有技术推向极限无论是台积电的工艺技术、封装技术、内存技术还是光学技术等我们都追求*的性能表现。
在完成硬件的极限挑战后我们将全力以赴确保所有软件都能在这个完整的平台上顺畅运行。在计算机技术中软件惯性至关重要。当我们的计算机平台能够向后兼容且架构上与已有软件*契合时产品的上市速度将显著提升。因此当Blackwell平台问世时我们能够充分利用已构建的软件生态基础实现惊人的市场响应速度。明年我们将迎来Blackwell Ultra。
正如我们曾推出的H100和H200系列一样Blackwell Ultra也将引领新一代产品的热潮带来前所未有的创新体验。同时我们将继续挑战技术的极限推出下一代频谱交换机这是行业内的首次尝试。这一重大突破已经成功实现尽管我现在对于公开这个决定还心存些许犹豫。
在英伟达内部我们习惯于使用代码名并保持一定的保密性。很多时候连公司内部的大多数员工都不甚了解这些秘密。然而我们的下一代平台已被命名为Rubin。关于Rubin我不会在此过多赘述。我深知大家的好奇心但请允许我保持一些神秘感。你们或许已经迫不及待想要拍照留念或是仔细研究那些小字部分那就请随意吧。
我们不仅有Rubin平台一年后还将推出Rubin Ultra平台。在此展示的所有芯片都处于全面开发阶段确保每一个细节都经过精心打磨。我们的更新节奏依然是一年一次始终追求技术的*同时确保所有产品都保持100%的架构兼容性。
回顾过去的12年从Imagenet诞生的那一刻起我们就预见到计算领域的未来将会发生翻天覆地的变化。如今这一切都成为了现实与我们当初的设想不谋而合。从2012年之前的GeForce到如今的英伟达公司经历了巨大的转变。在此我要衷心感谢所有合作伙伴的一路支持与陪伴。
机器人时代已经到来
这就是英伟达的Blackwell平台接下来让我们谈谈人工智能与机器人相结合的未来。
物理人工智能正引领人工智能领域的新浪潮它们深谙物理定律并能自如地融入我们的日常生活。为此物理人工智能不仅需要构建一个精准的世界模型以理解如何解读和感知周围世界更需具备*的认知能力以深刻理解我们的需求并高效执行任务。
展望未来机器人技术将不再是一个遥不可及的概念而是日益融入我们的日常生活。当提及机器人技术时人们往往会联想到人形机器人但实际上它的应用远不止于此。机械化将成为常态工厂将全面实现自动化机器人将协同工作制造出一系列机械化产品。它们之间的互动将更加密切共同创造出一个高度自动化的生产环境。
为了实现这一目标我们需要克服一系列技术挑战。接下来我将通过视频展示这些前沿技术。
这不仅仅是对未来的展望它正逐步成为现实。
我们将通过多种方式服务市场。首先我们致力于为不同类型的机器人系统打造平台机器人工厂与仓库专用平台、物体操纵机器人平台、移动机器人平台以及人形机器人平台。这些机器人平台与我们其他众多业务一样依托于计算机加速库和预训练模型。
我们运用计算机加速库、预训练模型并在Omniverse中进行全方位的测试、训练和集成。正如视频所示Omniverse是机器人学习如何更好地适应现实世界的地方。当然机器人仓库的生态系统极为复杂需要众多公司、工具和技术来共同构建现代化的仓库。如今仓库正逐步迈向全面机械化终有一天将实现完全自动化。
在这样一个生态系统中我们为软件行业、边缘人工智能行业和公司提供了SDK和API接口同时也为PLC和机器人系统设计了专用系统以满足国防部等特定领域的需求。这些系统通过集成商整合最终为客户打造高效、智能的仓库。举个例子Ken Mac正在为Giant Giant集团构建一座机器人仓库。
接下来让我们聚焦工厂领域。工厂的生态系统截然不同。以富士康为例他们正在建设世界上一些*进的工厂。这些工厂的生态系统同样涵盖了边缘计算机、机器人软件用于设计工厂布局、优化工作流程、编程机器人以及用于协调数字工厂和人工智能工厂的PLC计算机。我们同样为这些生态系统中的每一个环节提供了SDK接口。
这样的变革正在全球范围内上演。富士康和Delta正为其工厂构建数字孪生设施实现现实与数字的*融合而Omniverse在其中扮演了至关重要的角色。同样值得一提的是和硕与Wistron也在紧随潮流为各自的机器人工厂建立数字孪生设施。
这确实令人兴奋。接下来请欣赏一段富士康新工厂的精彩视频。
机器人工厂由三个主要计算机系统组成在NVIDIA AI平台上训练人工智能模型我们确保机器人在本地系统上高效运行以编排工厂流程。同时我们利用Omniverse这一模拟协作平台对包括机械臂和AMR自主移动机器人在内的所有工厂元素进行模拟。值得一提的是这些模拟系统均共享同一个虚拟空间实现无缝的交互与协作。
当机械臂和AMR进入这个共享的虚拟空间时它们能够在Omniverse中模拟出真实的工厂环境确保在实际部署前进行充分的验证和优化。
为了进一步提升解决方案的集成度和应用范围我们提供了三款高性能计算机并配备了加速层和预训练人工智能模型。此外我们已成功将NVIDIA Manipulator和Omniverse与西门子的工业自动化软件和系统相结合。这种合作使得西门子在全球各地的工厂中都能够实现更高效的机器人操作和自动化。
除了西门子我们还与多家知名企业建立了合作关系。例如Symantec Pick AI已经集成了NVIDIA Isaac Manipulator而Somatic Pick AI则成功运行并操作了ABB、KUKA、Yaskawa Motoman等知名品牌的机器人。
机器人技术和物理人工智能的时代已经到来它们正在各地被广泛应用这并非科幻而是现实令人倍感振奋。展望未来工厂内的机器人将成为主流它们将制造所有的产品其中两个高产量机器人产品尤为引人注目。首先是自动驾驶汽车或具备高度自主能力的汽车英伟达再次凭借其全面的技术堆栈在这一领域发挥了核心作用。明年我们计划与梅赛德斯-奔驰车队携手随后在2026年与捷豹路虎JLR车队合作。我们提供完整的解决方案堆栈但客户可根据需求选择其中的任何部分或层级因为整个驱动堆栈都是开放和灵活的。
接下来另一个可能由机器人工厂高产量制造的产品是人形机器人。近年来在认知能力和世界理解能力方面取得了巨大突破这一领域的发展前景令人期待。我对人形机器人特别兴奋因为它们最有可能适应我们为人类所构建的世界。
与其他类型的机器人相比训练人形机器人需要大量的数据。由于我们拥有相似的体型通过演示和视频能力提供的大量训练数据将*价值。因此我们预计这一领域将取得显著的进步。
现在让我们欢迎一些特别的机器人朋友。机器人时代已经来临这是人工智能的下一波浪潮。中国台湾制造的计算机种类繁多既有配备键盘的传统机型也有小巧轻便、便于携带的移动设备以及为云端数据中心提供强大算力的专业设备。但展望未来我们将见证一个更为激动人心的时刻——制造会走路、四处滚动的计算机即智能机器人。
这些智能机器人与我们所熟知的计算机在技术上有着惊人的相似性它们都是基于先进的硬件和软件技术构建的。因此我们有理由相信这将是一段真正非凡的旅程