李飞飞：我不知道 AGI 是什么，我们应该尊重人类的能动性

我们如何利用人工智能（AI）放大人类潜能，创造更美好的未来？AI 为何要'以人为本'？通用人工智能（AGI）究竟意味着什么？未来 15 年可能会发生什么？

近日，'AI 教母'、斯坦福大学首位红杉讲席教授李飞飞做客由美国知名风险投资家、LinkedIn 联合创始人 Reid Hoffman 主持的播客频道 Possible，逐一回答了上述问题，并分享了她从 2009 年创建 ImageNet（AI 行业第一个大型图像识别数据库），到目前担任空间智能初创公司 World Labs 联合创始人兼首席执行官的历程。

在采访中，李飞飞还解释了为什么空间智能对 AI 的发展如此重要，以及它如何能在医学、气候和教育等领域带来突破，进而导致现实与数字之间的界限将开始变得模糊。

对于 AI 将会为人类带来怎样的未来这一议题，李飞飞从 AI 治理、政策制定与 AI 应用层面给出了具有建设性的观点。从宏观层面来说，她认为 AI 不只属于部分技术精英，而应该属于所有人，这也是她创立非营利性组织 AI4ALL 的出发点，即通过教育培养下一代 AI 技术专家、思想家和领军人物，并提高 AI 领域多样性和包容性。

在李飞飞看来，AI 的发展应该以提升人的能动性（agency）为目标，通过人与 AI 的合作赋能人类，为所有人打造一个积极的、以人为本的 AI 未来：

'人类能够创造近似'上帝一样'的技术，从而改进我们所处的'中世纪'式制度，并超越、或引导我们那'旧石器时代'的情感，让它们变成创造力、生产力和善意。'

Reid：很高兴见到你。欢迎来到 Possible。

李飞飞：我也是。很高兴见到你和 Aria。

Reid：是什么让你有了开发 ImageNet 的想法？比如说，'啊，我们需要这么做。'

李飞飞：我很难给出一个非常明确的时刻，但差不多是在 2006 年，当时我正在深入研究如何使用机器学习算法来理解物体和图像。无论我把目光投向哪里，我都无法回避这样一个事实，即机器学习模型存在一个数学概念，叫做'过拟合'。这是指模型的复杂性与模型所使用的数据并不完全匹配，尤其是当数据–不仅仅是数据量，而是数据的复杂性和数据量–并不能真正有效地驱动模型时。当然，并不是所有模型都是一样的。我们现在知道，神经网络模型具有更高的容量和表征能力。抛开这些术语不谈，数据与模型之间肯定存在相互作用，而我（当时）看到，在每个地方，人们都不关注数据。

我们（那时）只关注模型。就在那一刻，我突然意识到：'我认为我们不应该只关注模型，或者说，我们关注的方式是错误的。我们需要关注数据，用数据来驱动模型'。当然，就在那时，我转到了普林斯顿大学任教。我接触到了一项名为 WordNet 的工作。WordNet 与计算机视觉毫无关系但它是组织世界上各种概念的绝妙方法。而且，我也喜欢这个名字。然后顺理成章，ImageNet 也问世了。我非常强烈地相信大数据和视觉世界多元化表征的需求。

Reid：我是在你 AI 职业生涯的中点，从令人惊叹的 ImageNet 开始聊的，现在我们来谈谈 World Labs，从 ImageNet 转到 World Labs 上。World Labs 的理念是什么？你们正在构建的东西有什么是我们的未来方向、以及理解 World Labs 本身和 AI 趋势的关键部分？

李飞飞：是的，Reid，我们谈论过这个，对吧？我们最喜欢的话题——技术发展的方向。老实说，在我的职业生涯中，尤其是在 ImageNet 之后，我一直痴迷地思考一件事，那就是什么是智能，以及我们如何在机器上实现智能。在我看来，如果从人类智能的角度来看，这其实可以归结为两件简单的事情。

一是我们会说话。我们使用语言交流作为工具来交谈，组织起我们的知识并传递信息。另一个是——也是对我们意义深远的那一半智能是——我们会做事。比如，我们做蛋饼，我们徒步，我们和朋友玩乐，享受彼此的存在，这远远超出了我们所说的任何一句话，而这只需要我们能舒适地坐在对方面前。

还有，拿着一个啤酒罐，所有这些事情，这是智能的一部分，而这部分智能的真正基础，在于我们能够理解我们所生活的三维世界，感知它，并将它转化为一整套理解、推理和预测，这样我们就能在这个世界中做事。在我看来，这种能力被称为'空间智能'，是人类等智慧动物所具备的最基本的天赋能力，也就是处理三维空间的能力。

所以，ImageNet 的出现是因为我一直在探索如何给二维图像中的像素贴标签，而对人类来说，二维图像是三维世界的投影。因此你可以看到，这就是一个婴儿朝着理解我们生活的更完整世界–视觉世界迈出的第一步。而这个婴儿迈出的一小步至关重要，因为无论是对于人类、动物还是机器来说，理解这些物体和图像，给它们贴上标签都是关键的第一步。

但现在，天哪，14 年、15 年过去了，我认为我们已经准备好进行一场更大的探索，几乎是一场全垒打探索，以解开智能最重要的另一半——也就是空间智能问题。空间智能之所以有趣，是因为它实际上包含两个方面：一个是物理三维世界，另一个是数字三维世界。我们从未真正能生活在这两者之间。但现在，空间智能可以成为一种统一的技术，让三维接地世界和数字三维世界都变得有意义。

Aria：所以，当我思考空间智能的前景时，你知道，如果你回到 1880 年——马车、未铺设的道路——你会觉得，这是一个完全不同的世界。但如果你回到 1980 年–好吧，就像人们开不同的车，但他们仍然住在同样的建筑里，仍然开着车。某种程度上来说，这个现实世界的机制是基本一样的。你认为在未来几十年里，你说的另一半智能会改变这一切吗？我们是否会看到现实世界的巨大转变，就像过去几年我们在数字世界看到的那样？

李飞飞：我认为会的，我认为现实与数字之间的界限将开始变得模糊。举个例子，我在高速公路上开车，如果车胎爆了，尽管我是个技术专家，我有种预感，这会给我带来很大的麻烦。但如果我能戴着一副眼镜，或者把我的手机对准汽车，对于爆胎这个问题，我只需要与装在里面的应用合作，引导我进行换胎，无论是通过视觉引导，还是通过对话或混合方式。

我认为这是一个非常普通的日常生活例子，它真正打破了物理三维世界和数字三维世界的界限。无论是更换爆胎还是做心脏手术，这样的技术都能为人们赋能，这对我来说是一个非常令人兴奋的想象。

Aria：所以你说，用大语言模型（LLM）来教自己一些东西，这个我一直认为是非常鼓舞人心的。就像我的孩子们总是说，'哦，我不学了，我数学很好，不需要再学了。'而我可以说，'不，不，李飞飞都在用 LLM 学习。我觉得你还需要继续学'。但是，当你谈论大世界模型（LWM）与 LLM 时，你是怎么看待这两者的？你如何向人们解释他们的差异，以及你认为未来会如何发展？

李飞飞：我不知道 AGI 是什么，我们应该尊重人类的能动性

更多推荐文章

相关免费在线工具

李飞飞：我不知道 AGI 是什么，我们应该尊重人类的能动性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具