我们如何利用人工智能(AI)放大人类潜能,创造更美好的未来?AI 为何要'以人为本'?通用人工智能(AGI)究竟意味着什么?未来 15 年可能会发生什么?
近日,'AI 教母'、斯坦福大学首位红杉讲席教授李飞飞做客由美国知名风险投资家、LinkedIn 联合创始人 Reid Hoffman 主持的播客频道 Possible,逐一回答了上述问题,并分享了她从 2009 年创建 ImageNet(AI 行业第一个大型图像识别数据库),到目前担任空间智能初创公司 World Labs 联合创始人兼首席执行官的历程。
在采访中,李飞飞还解释了为什么空间智能对 AI 的发展如此重要,以及它如何能在医学、气候和教育等领域带来突破,进而导致现实与数字之间的界限将开始变得模糊。
对于 AI 将会为人类带来怎样的未来这一议题,李飞飞从 AI 治理、政策制定与 AI 应用层面给出了具有建设性的观点。从宏观层面来说,她认为 AI 不只属于部分技术精英,而应该属于所有人,这也是她创立非营利性组织 AI4ALL 的出发点,即通过教育培养下一代 AI 技术专家、思想家和领军人物,并提高 AI 领域多样性和包容性。
在李飞飞看来,AI 的发展应该以提升人的能动性(agency)为目标,通过人与 AI 的合作赋能人类,为所有人打造一个积极的、以人为本的 AI 未来:
'人类能够创造近似'上帝一样'的技术,从而改进我们所处的'中世纪'式制度,并超越、或引导我们那'旧石器时代'的情感,让它们变成创造力、生产力和善意。'
Reid:很高兴见到你。欢迎来到 Possible。
李飞飞:我也是。很高兴见到你和 Aria。
Reid:是什么让你有了开发 ImageNet 的想法?比如说,'啊,我们需要这么做。'
李飞飞:我很难给出一个非常明确的时刻,但差不多是在 2006 年,当时我正在深入研究如何使用机器学习算法来理解物体和图像。无论我把目光投向哪里,我都无法回避这样一个事实,即机器学习模型存在一个数学概念,叫做'过拟合'。这是指模型的复杂性与模型所使用的数据并不完全匹配,尤其是当数据–不仅仅是数据量,而是数据的复杂性和数据量–并不能真正有效地驱动模型时。当然,并不是所有模型都是一样的。我们现在知道,神经网络模型具有更高的容量和表征能力。抛开这些术语不谈,数据与模型之间肯定存在相互作用,而我(当时)看到,在每个地方,人们都不关注数据。
我们(那时)只关注模型。就在那一刻,我突然意识到:'我认为我们不应该只关注模型,或者说,我们关注的方式是错误的。我们需要关注数据,用数据来驱动模型'。当然,就在那时,我转到了普林斯顿大学任教。我接触到了一项名为 WordNet 的工作。WordNet 与计算机视觉毫无关系 但它是组织世界上各种概念的绝妙方法。而且,我也喜欢这个名字。然后顺理成章,ImageNet 也问世了。我非常强烈地相信大数据和视觉世界多元化表征的需求。
Reid:我是在你 AI 职业生涯的中点,从令人惊叹的 ImageNet 开始聊的,现在我们来谈谈 World Labs,从 ImageNet 转到 World Labs 上。World Labs 的理念是什么?你们正在构建的东西有什么是我们的未来方向、以及理解 World Labs 本身和 AI 趋势的关键部分?
李飞飞:是的,Reid,我们谈论过这个,对吧?我们最喜欢的话题——技术发展的方向。老实说,在我的职业生涯中,尤其是在 ImageNet 之后,我一直痴迷地思考一件事,那就是什么是智能,以及我们如何在机器上实现智能。在我看来,如果从人类智能的角度来看,这其实可以归结为两件简单的事情。
一是我们会说话。我们使用语言交流作为工具来交谈,组织起我们的知识并传递信息。另一个是——也是对我们意义深远的那一半智能是——我们会做事。比如,我们做蛋饼,我们徒步,我们和朋友玩乐,享受彼此的存在,这远远超出了我们所说的任何一句话,而这只需要我们能舒适地坐在对方面前。
还有,拿着一个啤酒罐,所有这些事情,这是智能的一部分,而这部分智能的真正基础,在于我们能够理解我们所生活的三维世界,感知它,并将它转化为一整套理解、推理和预测,这样我们就能在这个世界中做事。在我看来,这种能力被称为'空间智能',是人类等智慧动物所具备的最基本的天赋能力,也就是处理三维空间的能力。
所以,ImageNet 的出现是因为我一直在探索如何给二维图像中的像素贴标签,而对人类来说,二维图像是三维世界的投影。因此你可以看到,这就是一个婴儿朝着理解我们生活的更完整世界–视觉世界迈出的第一步。而这个婴儿迈出的一小步至关重要,因为无论是对于人类、动物还是机器来说,理解这些物体和图像,给它们贴上标签都是关键的第一步。
但现在,天哪,14 年、15 年过去了,我认为我们已经准备好进行一场更大的探索,几乎是一场全垒打探索,以解开智能最重要的另一半——也就是空间智能问题。空间智能之所以有趣,是因为它实际上包含两个方面:一个是物理三维世界,另一个是数字三维世界。我们从未真正能生活在这两者之间。但现在,空间智能可以成为一种统一的技术,让三维接地世界和数字三维世界都变得有意义。
Aria:所以,当我思考空间智能的前景时,你知道,如果你回到 1880 年——马车、未铺设的道路——你会觉得,这是一个完全不同的世界。但如果你回到 1980 年–好吧,就像人们开不同的车,但他们仍然住在同样的建筑里,仍然开着车。某种程度上来说,这个现实世界的机制是基本一样的。你认为在未来几十年里,你说的另一半智能会改变这一切吗?我们是否会看到现实世界的巨大转变,就像过去几年我们在数字世界看到的那样?
李飞飞:我认为会的,我认为现实与数字之间的界限将开始变得模糊。举个例子,我在高速公路上开车,如果车胎爆了,尽管我是个技术专家,我有种预感,这会给我带来很大的麻烦。但如果我能戴着一副眼镜,或者把我的手机对准汽车,对于爆胎这个问题,我只需要与装在里面的应用合作,引导我进行换胎,无论是通过视觉引导,还是通过对话或混合方式。
我认为这是一个非常普通的日常生活例子,它真正打破了物理三维世界和数字三维世界的界限。无论是更换爆胎还是做心脏手术,这样的技术都能为人们赋能,这对我来说是一个非常令人兴奋的想象。
Aria:所以你说,用大语言模型(LLM)来教自己一些东西,这个我一直认为是非常鼓舞人心的。就像我的孩子们总是说,'哦,我不学了,我数学很好,不需要再学了。'而我可以说,'不,不,李飞飞都在用 LLM 学习。我觉得你还需要继续学'。但是,当你谈论大世界模型(LWM)与 LLM 时,你是怎么看待这两者的?你如何向人们解释他们的差异,以及你认为未来会如何发展?


