C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  一级通信军士

注册:2018-6-2420
发表于 2025-2-7 10:55:53 |显示全部楼层
1 月 7 日,英伟达 CEO 黄仁勋做客 Huge If True 访谈,与主持人 Cleo Abram 进行了深度对话。
Huge If True 是一档由 Cleo Abram 主持的访谈节目,旨在深入探讨科技、创新和社会变革等前沿话题。 Cleo Abram 曾在 Vox 工作,在之前的节目中采访过扎克伯格(Meta CEO)、Daniel Ek(Spotify 的 CEO)等科技领袖。
在一个小时的访谈中,黄仁勋回顾了大家是如何走到今天的,是什么洞见推动计算机领域发生了如此重大的突破;他畅谈了他对当下正在发生的一切事情的看法,并对人工智能的未来做了大胆的预测。

• 起点:缘起于游戏。90 年代电子游戏对 3D 图形的需求催生了 GPU,而GPU 的核心优势在于其并行处理能力,这与传统 CPU 的串行处理模式截然不同。
• 关键:CUDA 的推出使得研究人员能更便捷地利用 GPU 的算力,加速了人工智能的发展。
• 突破:AlexNet。2012 年 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提出的 AlexNet 深度卷积神经网络,在 ImageNet 竞赛中取得突破性胜利,开启人工智能革命的序幕。
• 现在:AI 应用时代。黄仁勋认为,过去十年是人工智能的科学研究阶段,而未来十年将是人工智能的应用科学时代,AI 将渗透到各行各业。
• 未来:黄仁勋预言,未来一切移动的设备都将是机器人,并且人类将成为“超人”。

以下为专访内容全文,由Tencent科技编译,为保证阅读体验,对口语化内容有所删减。本文无投资建议,仅供读者阅读和分享:
过去:大家是如何走到今天的

从游戏机到计算机,大家如今所处的计算领域,是如何走到这一步的?

主持人:为了讨论大家现在所处的这个人工智能的关键时刻,我认为有必要回溯 90 年代的电子游戏产业。当时,游戏开发者们希翼创造出更加逼真的图形,但硬件的能力无法满足所需。英伟达当时提出了一个解决方案,这个方案不仅改变了游戏行业,也改变了整个计算机运算领域。

您能否带领大家回到那个时代,说明一下当时的情况,以及是什么样的洞见促使您和英伟达团队创造了第一个现代 GPU?

黄仁勋:在 90 年代初,当大家刚开始创建企业时,大家观察到,在App程序内部,只有少数几行代码,可能只占 10% 的代码,却完成了 99% 的处理任务。而且这 99% 的处理任务是可以并行完成的。然而剩下的 90% 的代码则必须按顺序实行。事实证明,真正完美的计算机是可以同时进行顺序处理和并行处理的计算机,而不是只能进行其中一种处理的计算机。

这是大家当时最重要的发现,基于此,大家开始创建一家企业,致力于解决普通计算机无法解决的计算难题。

这便是英伟达的真正开端。


1、缘起于电子游戏

主持人:为什么首先选择游戏?

黄仁勋:电子游戏需要并行处理来渲染 3D 图形。大家选择电子游戏的原因有两点:

第一,大家热爱这个应用,它本质上是对虚拟世界的模拟,而谁又不想进入虚拟世界呢?

第二,大家敏锐地观察到,电子游戏有潜力成为有史以来最大的娱乐市场。

事实证明,大家的判断是正确的。拥有一个庞大的市场至关重要,因为这项技术非常复杂。如果市场足够大,大家的研发预算就可以相应增加,从而能够创造出更多新技术。技术、市场和更强大的技术之间形成的良性循环,真正推动了英伟达成为世界上最重要的科技企业之一。

这一切的起点,都源于电子游戏。

主持人: 我听说你曾说过 GPU 就像一台时间机器?

黄仁勋:是的。

主持人:你能说明下这么说的原因吗?

黄仁勋:GPU 就像一台时间机器,因为它能让你更早地看到未来。

一位量子化学科学家曾对我说过一句令我印象非常深刻的话。他说:“因为英伟达的工作,我可以在有生之年完成毕生研究。” 这就是时间旅行。他能够在有生之年完成原本超越他生命长度的工作,这是因为大家让应用程序的运行速度大幅提升,使你能够看到未来。

所以,当你进行天气预报时,你实际上是在预测未来;当你在虚拟城市中通过仿真测试自动驾驶汽车时,实际上是在进行时间旅行,模拟未来的驾驶场景。

主持人:因此,并行处理技术在游戏领域取得了巨大成功,它使大家能够在计算机中创造出过去无法想象的世界。游戏是并行处理技术最初的绝佳应用案例,它释放了巨大的算力。

正如您所说,后来人们开始在许多不同的行业中运用这项技术。以量子学研究人员为例,他在 NVIDIA GPU 上并行运行分子模拟的速度,甚至比以前在超级计算机上使用 CPU 运行的速度还要快得多。

这项技术也在彻底改变着其他行业,在 2000 年初,它开始改变大家对计算机潜力的认知,您看到了这一点,并意识到这样做实际上有些困难,因为当时研究人员必须“欺骗” GPU,让 GPU 认为他们的问题是图形问题。

黄仁勋: 完全正确,你做了一些研究。

2、CUDA是什么?

主持人:所以你创造了一种让这一切变得容易得多的方法。

黄仁勋:没错。

主持人:具体来说,这是一个名为 CUDA 的平台,它让程序员可以使用他们已经熟悉的编程语言来指示 GPU 实行操作。

这非常重要,因为它使得更多人能够更容易地利用这些强大的计算能力。你能说明一下,是什么样的愿景促使你创建了 CUDA ?

黄仁勋:CUDA 的诞生,一部分源于研究人员的发现,一部分源于内部的灵感,还有一部分是为了解决实际问题。你知道,许多有趣的想法都是在这样的复杂背景下产生的。有些想法是出于渴望和灵感,而另一些则纯粹是出于解决问题的紧迫感。

在 CUDA 的案例中,情况也是如此。最早将大家的 GPU 用于并行处理的外部想法,可能源于医学成像领域的一些研究。当时,麻省总医院的一些研究人员正在尝试使用大家的图形处理器进行 CT 重建。他们的工作给了大家很大的启发。

与此同时,大家在企业内部也面临着一个挑战:当你想为电子游戏创造逼真的虚拟世界时,你不仅希翼它看起来很漂亮,还希翼它能够动态地变化。例如,水应该像真实的水一样流动,爆炸应该有真实的爆炸效果。

这意味着你需要进行粒子物理模拟和流体动力学模拟。但如果你的计算流程只能处理计算机图形,那么这些模拟就很难实现。因此,大家有很强的内在动力,希翼在自己服务的市场中解决这个问题。

此外,一些研究人员也在尝试将大家的 GPU 用于通用计算加速。所有这些因素汇集在一起,最终促使大家决定采取行动,正式开发了 CUDA。

从根本上说,我坚信 CUDA 会取得成功,并且大家为此投入了整个企业的资源,因为大家知道,大家的 GPU 将会成为世界上产量最高的并行处理器,而庞大的电子游戏市场保证了这一点。因此,这种架构有很大的潜力惠及更多人。

主持人:在我看来,创建 CUDA 像是一个难以置信的那种“如果成真就太好了”的事情,你在说,如果大家创造一种让更多人使用更多计算能力的方式,它们可能会创造出令人难以置信的东西。然后,它变成了现实。
3、为什么 AlexNet 如此重要?

主持人:2012年,一个由三名研究人员(分别是Ilya Sutskever、Alex Krizhevsky 和 Geoff Hinton,如今他们已成为AI领域大名鼎鼎的人物了 )组成的小组,提交了名为 AlexNet 的参赛作品,参加了著名的 ImageNet 竞赛。

该竞赛旨在创建能够识别图像并进行分类标记的计算机系统。他们的作品直接击败了所有竞争对手,以极低的误差率震惊了所有人,它被称为 AlexNet,是一个卷积神经网络。

它之所以如此出色,是因为他们使用了海量的数据进行系统训练,并且这项工作是在 NVIDIA GPU 上完成的。

突然之间,GPU 不再仅仅是使计算机运行更快、效率更高的工具,而是成为了全新计算模式的引擎。大家正在从使用逐步指令引导计算机,转变为通过展示大量示例来训练计算机学习。

2012 年的这个时刻,是否真正开启了大家现在所看到的人工智能的巨大变革?您能否从您的角度,来描述一下那一刻的情景,以及您认为它对大家所有人的未来意味着什么?

黄仁勋:当你创造像 CUDA 这样的新事物时,即使你建造了它,他们也可能不会来,这是悲观者的观点;但乐观主义者的观点会说,但如果你不建造它,它们就不能来。这通常是大家看待世界的方式,大家必须凭直觉来推断为什么这会非常有用。

事实上,在2012年,多伦多大学的 Ilya Sutskever、Alex Krizhevsky 和 Geoff Hinton 在他们所在的实验室开始使用 GeForce GTX 580,因为他们了解到 CUDA,并认为 CUDA 可以作为训练 AlexNet 的并行处理器,所以大家的灵感是 GeForce 可以成为将这种并行架构带入世界的载体。

与此同时,大家正在企业内部努力解决计算机视觉问题,并且努力使 CUDA 成为一个好的计算机视觉处理器,大家对内部计算机视觉的早期开发进度感到沮丧,并且 CUDA 无法提供更多的帮助。

突然之间,大家看到了 AlexNet,这是一种与以前的计算机视觉算法完全不同的新算法,它在计算机视觉的能力方面取得了巨大的飞跃。

当大家看到这一点时,一部分是出于兴趣,另一部分是因为大家自己也在因工作推进不顺利而挣扎。所以当看到 AlexNet 时,大家受到了启发。

但我要说,最大的突破是当大家看到 AlexNet 时,大家问自己,AlexNet 能走多远?如果它能用计算机视觉做到这一点,它能走多远?如果它能达到大家认为它能达到的极限,那对计算机行业意味着什么?那对计算机架构意味着什么?

大家有理由推断,如果机器学习、深度学习架构可以扩展,那么绝大多数机器学习问题都可以用深度神经网络来覆盖。

大家可以用机器学习解决的问题类型如此之多,以至于它有可能彻底重塑整个计算机行业,这促使大家重新设计了整个计算堆栈,这就是 DGX 的由来,而这个小小的 DGX 就坐在这里,这一切都来自于大家逐层重新设计整个计算堆栈的观察。

你知道,自 IBM System 360 推出现代通用计算 65 年以来,大家已经彻底重塑了大家所知的计算方式。

主持人:把这看作一个完整的故事,所以并行处理重新塑造了现代游戏,并彻底改变了一个完整的行业,然后那种并行处理的计算方式开始在不同的行业中使用。

你通过构建 CUDA 来投资它,然后 CUDA 和 GPU 的使用使得神经网络和机器学习飞速的发展,并开始了一场大家现在看到的计算革命。


现在:世界正在发生什么?

人工智能和深度学习具备了一项革命性能力:它可以学习并转化几乎任何形式的数据

1、英伟达的核心信念

黄仁勋: 计算机视觉、语音识别、语言理解——这些曾经被认为无解的人工智能难题,在短短几年间相继被攻克。一个接一个地被突破,令人惊叹不已。

主持人: 是的,大家看到你很早以前就为此做出风险很高的赌注。我作为一个外行人,认为这需要很长的时间才能实现,你坚持了多久?

黄仁勋:10 年。

主持人:这 10 年你感觉怎样?

黄仁勋:这是个好问题。首先你必须有核心信念。

大家应当深入理解行业和科学,但最根本的是要始终遵循第一性原理思维。

在探索的过程中,有时大家能找到证据证明方向正确;但更多时候,走了很长的路却找不到任何验证,这时就需要适时调整航向。

为什么大家能够长期坚持?答案很简单:因为大家对这个方向深信不疑,所以没有理由不继续前行。

我对英伟达的信念已经持续了 30 多年。我坚信大家在革新计算领域所做的一切,不仅在今天依然有效,而且比过去任何时候都更具价值。

当然,前进的道路上难免会遇到重重挑战。但你必须对未来有信念,持续投资自己。正是这份坚定的信念,驱使大家投入数百亿美金,最终实现了目标。那确实是漫长的 10 年历程,但整个过程充满快乐。

主持人: 你如何总结这 10 年的核心信念?计算机究竟应该如何为人类工作?对未来几十年,你又有哪些判断?

黄仁勋:第一个核心信念聚焦于加速计算,特别是并行计算与通用计算的结合。通过将多个处理器结合在一起,大家能够实现计算加速。这个理念我至今依然坚信不疑。

第二个核心信念源于对深度神经网络(DNN)潜力的洞察。自 2012 年问世以来,这些深度神经网络展现出了强大的能力,能够从各类数据中提取模式和关联。更重要的是,这些网络具有优秀的可扩展性——通过扩大规模,它们能够学习更为精细的特征;通过增加深度或宽度,它们的性能也能相应提升。这种架构上的可扩展性已经在实践中得到了充分验证。

经验表明,模型和数据规模的增长与常识获取量呈正相关。那么,这种增长是否存在上限?除非大家遇到物理、架构或数学层面的根本限制,否则这种扩展似乎可以持续下去。

这就引出了一个关键问题:大家究竟能从数据中学到什么?从经验中获取什么?实际上,数据就是人类经验的数字化呈现。大家已经看到,机器可以通过图像学习物体识别,通过声波掌握语音辨识,甚至仅仅通过研究海量的文字符号就能理解语言、词汇和语法规则。

如今,大家已经证实人工智能和深度学习具备了一项革命性能力,它可以学习并转化几乎任何形式的数据。

这种能力意味着什么?让大家来看看这些令人振奋的可能性:

在文本领域,AI可以实现文本间的转化,比如文章摘要和语言翻译;在视觉领域,它能将文本转化为图像(图像生成),或将图像转化为文本(图像描述);在生物领域,它甚至能够将氨基酸序列转换为精确的蛋白质结构。

展望未来,大家还将实现从蛋白质到自然语言的转换,使大家能够提出诸如"这种蛋白质的功能是什么"或"请举例说明具有特定特性的蛋白质"这样的问题。

既然AI已经可以将文字转化为视频,那么将文字转化为机器人的动作指令又有何不同?从计算机的底层逻辑来看,这些转换本质上是相通的。这打开了一扇通向充满机遇与挑战的大门,正是这些无限可能让大家对未来充满期待。

2、为什么此时此刻如此与众不同?

主持人:我感觉大家正站在一场巨大变革的风口浪尖上。回顾过去十年,大家确实经历了翻天覆地的变化。但展望未来十年,我发现自己已经无法准确预测,大家将如何运用当下正在开发的这些技术。

黄仁勋:你的感受非常准确。这种难以预测的感觉源于一个重要的转折点:过去十年主要聚焦于人工智能的基础科学研究。而接下来的十年,虽然人工智能的科学突破仍将持续,但更具标志性的是大家即将进入人工智能的应用科学时代。

这是一个从基础研究到实践应用的重要转变。现在的核心问题已经转向了具体应用:如何将人工智能应用于数字生物学?如何将人工智能用于气候技术研究?如何让人工智能服务于农业、渔业、机器人技术?如何通过人工智能优化运输和物流系统?如何利用人工智能改革教育教学?如何将人工智能融入播客等媒体形式?

3、机器人的未来是什么样子的?

主持人:让大家聚焦其中几个具体例子,来帮助大家更好地理解大家所讨论的这场计算革命将如何实质性地改变人们的生活体验,以及人们将如何实际运用这些新兴技术。

在大家刚才讨论的诸多领域中,物理人工智能特别引起了我的兴趣。这里的物理人工智能不仅包括人形机器人,还包括自动驾驶汽车、智能建筑、自主仓库、智能割草机等各类实体智能系统。根据我的了解,这些机器人的能力可能即将迎来一个重大突破,这源于大家在训练方法上的革新。

在过去,机器人的训练面临两个主要限制:

一是必须在现实环境中进行训练,这可能导致设备损坏和磨损。

二是只能从有限的数据来源获取训练数据,比如穿着动作捕捉服的人类。这些限制导致机器人无法获得足够多的学习样本,从而影响了它们的学习效率和速度。

但现在,大家开创了在数字世界中训练机器人的新纪元。这种突破性的改变带来了几个关键优势:机器人可以进行更多次数的训练重复、适应更多样化的条件,并且大幅提升学习效率。这让大家很可能正站在机器人技术大爆发的前夜,而英伟达正在开发强大的工具来推动这场革命。

具体来说,你们开发的 Omniverse 平台提供了一个完整的 3D 虚拟世界,使机器人系统能够在不依赖物理环境的情况下进行训练。更令人振奋的是,你们最新发布的 Cosmos 技术进一步提升了这个 3D 宇宙的真实度。

举个例子,如果大家要在这张桌子上训练机器人,Cosmos 可以模拟:各种不同的光照条件、一天中不同时段的环境变化、丰富多样的场景体验等,这些进步使得机器人能够从 Omniverse 中获得远超以往的学习经验。

在我的童年时代,我深深着迷于《星际迷航》中描绘的机器人世界。从现在大家已经实现的机器人技术出发,您认为通往这个充满未来感的机器人世界,大家还需要哪些重要突破?

黄仁勋:让我以 ChatGPT 这个语言模型为例,来帮助理解 Omniverse 和 Cosmos 的发展逻辑。ChatGPT 最初版本虽然在文本生成方面表现出色,但在处理长文本或不熟悉的主题时,常常会产生"幻觉"——即生成看似合理但缺乏事实依据的内容。

为应对这一问题,新一代模型引入了上下文学习能力,通过接入 PDF 文档和搜索引擎作为事实基础,从而能够基于可靠信息进行推理和回答。在此基础上,它可以推理出如何生成你所要求的答案。

因此,第一部分是生成式人工智能,第二部分是基本事实。现在让大家将视角转向物理世界。要让机器人真正理解物理环境,大家需要构建一个类似于 ChatGPT 核心模型的世界模型。

这个模型必须准确理解:基础物理定律(重力、摩擦力、惯性)、空间几何认知、物体永久性(物体在视线之外依然存在的概念)、因果关系(如物体倾斜导致倒下的关系)这些物理常识必须被编码到一个世界基础模型中,这正是大家通过 Cosmos 实现的目标——创建一个"世界语言模型",就像 ChatGPT 是文本语言模型一样。

接下来,大家必须像处理 PDF 和上下文那样,用真实数据对其进行基础化处理。这就是为什么大家用物理模拟来增强 Cosmos。Omniverse 采用基于牛顿物理学原理的求解器,将大家长期以来理解的基本物理定律编码其中,使其成为一个精确的模拟器。

通过使用这个模拟器调节 Cosmos ,大家能够生成无数符合物理规律的场景预测。Omniverse 加上 Cosmos 的组合,就像是将搜索能力赋予 ChatGPT 一样,让大家能够在物理世界中产生无限可能的、基于真实物理法则的互动场景。

主持人: 让我用一个具体的工厂场景来说明这项技术的革命性:假设大家需要训练一个工业机器人学习所有可能的运动路线。传统方法需要在实体工厂中进行反复训练,这不仅耗时数天,还会导致机器人硬件的严重损耗。

而现在,借助数字模拟技术,大家可以在极短时间内完成全部路线的训练。更重要的是,大家能够模拟机器人在各种复杂环境下的表现——比如光线不足、视线受阻等多种工况。这种突破性的训练方法加快了机器人的学习速度。

从这个角度来看,未来的机器人技术将会与当下有着质的不同。



举报本楼

本帖有 6 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-2-23 18:08 , Processed in 0.563290 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图