编译 | 陈骏达
编辑 | Panken
智东西6月4日消息,今年4月,著名计算机科学家、斯坦福教授,有“AI教母”之称的李飞飞在温哥华举行的2024年TED大会上,发表了以《有了空间智能,AI将会理解现实世界》为题的15分钟演讲,分享了她关于空间智能及其改变世界的力量的看法。
值得一提的是,李飞飞在斯坦福大学的个人资料显示,她从2024年初到2025年底处于部分休假状态。据路透社报道,目前她正在创办一家初创公司,创业的方向正是空间智能。
李飞飞在演讲中提到,随着神经网络算法的出现、GPU能力的提升,加上大数据的助力,计算机视觉领域实现了快速的发展。
目前,研究者们已经不满足于仅仅让计算机看见世界,而是追求让计算机理解世界,在观察世界这个三维空间的过程中学习知识并做出行动。这便是所谓的“空间智能”(Spatial Intelligence)。
李飞飞指出,行动的冲动是所有具有空间智能的生物的天性。如果想让目前的AI实现能力上的突破,完全发挥出当下这场数字寒武纪大爆发的潜力,空间智能是必不可少的。
同时,她也提醒道,要实现空间智能并不容易。开发者需要深思熟虑,确保AI技术始终以人为本。但如果我们真的能开发出造福人类的空间智能计算机与机器人,我们定能创造出一个更为美好的世界。
以下是李飞飞四月份TED演讲的完整编译:
一、看见世界理解世界,是智能的催化剂
我要向大家展示一些东西。确切地说,我要展示的是一片虚无。这就是5.4亿年前的世界:纯粹的、无尽的黑暗。世界一片漆黑并不是因为缺乏光线,而是因为缺乏能看见这个世界的眼睛。
在这个世界里,阳光能穿透到一公里深的海底,海底热液喷口也正散发着光芒,生命在这里蓬勃发展。但在这些古老的水域中,却没有一只眼睛能够看到这些景象。没有视网膜,没有角膜,没有晶状体。所有这些光芒,所有这些生命都无人见证。
在过去,“看”这一概念并不存在,没有生物真的看到过世界。直到这个时刻的到来。
三叶虫出现了,这是地球上第一种能够感知光的生物。它们出现的原因我们目前也才略知一二。但它们是我们现在习以为常的生活环境中的第一批栖息者,也是第一批发现除了自己外还有其他事物存在的生物。它们意识到,世界是由许多其它“自我”组成的。
视觉被认为是寒武纪生命大爆发背后的推手。这是一个动物物种大量进入化石记录的时期。最初,这些动物只是被动地接受光线,逐渐演变成更为主动的行为。神经系统开始进化。视力转化为洞察力,理解转化为行动,这一切催生了智能。
二、三股力量推动AI时代到来,不可能已成为可能
现在,我们不再满足于仅仅依靠自然赋予我们的视觉智能。好奇心驱使我们创造出和我们一样甚至更聪明的机器。
九年前,在这个舞台上,我汇报了计算机视觉这一AI分支领域的早期进展。当时,有三股强大的力量首次汇聚在一起:第一股力量是一种被称为神经网络的算法家族;第二股力量是快速的专用计算硬件,也就是GPU;第三股力量是大数据,比如我的实验室当时花了数年时间构建出来的ImageNet图片数据库。这三股力量一同推动了AI时代的到来。
我们现在已经有了长足进步。当时,单单是给图片打上标签就是一个重大的突破。但这些算法的速度和准确度迅速提高。由我的实验室主导的年度ImageNet挑战赛评估了这一进展。在这个图表上,你可以看到每年的改进和具有里程碑意义的模型。
我们更进一步,创建了能够分割对象或预测它们之间动态关系的算法,这一算法是我的学生和合作者们的工作成果。
不仅如此,还记得上次我展示的第一个能用自然语言描述照片的计算机视觉算法吗?那是我和我杰出的学生Andrej Karpathy合作的成果。当时,我碰运气般地问他:“Andrej,我们能让计算机做相反的操作吗?”Andrej笑着说:“哈哈,那是不可能的。”
但正如这篇推文中所说的,不久前,不可能的事情变成了可能。
这要归功于一系列扩散模型,它们推动了如今生成式AI算法的发展。这些算法可以根据人类提示的句子生成全新的照片和视频。许多人已经看到了OpenAI的Sora最近令人印象深刻的成果。
但即便没有大量的GPU,我的学生和我们的合作者也开发出了一个叫做Walt的生成视频模型。我们模型的发布时间领先Sora数月。你现在看到的是其中一些生成结果。
这些结果还有改进的空间。看看那只猫的眼睛,还有猫虽然在水下但却没有打湿自己。这真是一场灾难(cat-astrophe)。
三、看见世界远远不够,空间智能让看见变为行动
过去仅仅是序章,我们将从这些错误中学习,创造我们想象中的未来。在这个未来中,我们希望AI能帮我们完成一切事情,或者拥有帮助我们完成一切事情的能力。
数年来我一直在强调,拍下一张照片并不等于看见和理解所拍的内容。而今天我还想补充一点,仅仅是看见还远远不够。
看是为了做和学。
当我们在三维空间和时间中对这个世界采取行动时,我们也在学习。我们在学习如何更好地看和做。自然创造了这个由“空间智能”(Spatial Intelligence)驱动的良性循环。为了展示“空间智能”有什么用处,我要向大家展示这张图片。如果你看到它之后,有想要做点什么事情的冲动,请举手。
在刚才短短的一秒钟里,你的大脑看到了这个玻璃的几何形状,看到了它在三维空间中的位置,与桌子、猫等一切事物的关系。你可以预测接下来会发生什么。
行动的冲动是所有具有空间智能的生物的天性,它将感知与行动联系在一起。如果我们想要推动AI超越当前的能力水平,我们需要的不仅是能看和说的AI。我们需要能做出行动的AI。
四、空间智能已取得初步进展,机器人可以给你做饭了
实际上,我们正在取得令人兴奋的进展。最近在空间智能方面的里程碑时间是教会计算机观察、学习、做出行动以及更好地学习和做出行动。这并不容易。
自然界花费了数百万年时间才进化出了空间智能。这种智能需要依靠眼睛接收光线,将二维图像投射到视网膜上,然后让大脑将这些数据转换为三维信息。
直到最近,谷歌的一组研究人员才开发出一种算法,可以将一组照片转化为三维空间(如下图所示)。
我的学生和我们的合作者更进一步,创建了一种算法,可以将一张输入图像转换为三维形状(如下图所示)。
还记得我们谈过的能够将人类的语句转换为视频的计算机程序吗?密歇根大学的一组研究人员找到了将这句话转换为三维房间布局的方法(如下图所示)。
而我在斯坦福的同事和他们的学生们开发出了一种算法,可以从一张图片生成无限可能的空间供观众探索(如下图所示)。
这些都是未来种种可能性的萌芽。一个可以将我们整个世界转化为数字形式,并通过建模展现出这个世界的丰富与参差的未来。
自然在我们各自的心智中隐秘地完成了这些事情。而空间智能技术有望能为我们的集体意识实现这点。随着空间智能的进展加速,一个新的良性循环正在我们眼前展开。
这种相互作用正在催化机器人学习。这是任何需要理解和与三维世界互动的具身智能系统的关键组成部分。
十年前,我的实验室的ImageNet数据库帮助训练计算机,让它们有了看的能力。现在,我们正在用行为和动作来训练计算机和机器人,让它们具备在三维世界里行动的能力。
但我们并不收集静态图像,而是开发了由三维空间模型驱动的模拟环境,使计算机能够在无限多样的可能性中学习行动。你现在看到的是一个由我的实验室领导的Behavior项目中的机器人学习示例。
我们还在机器人的语言智能方面取得了令人兴奋的进展。我的学生和合作者们是第一批在这方面取得进展的团队。利用基于大型语言模型的输入,他们研发的机械臂现在能够根据口头指令执行各种任务。
例如,打开抽屉或拔出充电的手机,或者用面包、生菜、西红柿做个三明治,甚至为用户放上餐巾纸。通常,我会想要在三明治里多放点料,但这是个好的开始。
五、空间智能未来可期,能在医疗等领域发挥重要作用
在远古时代,在那片原始的海洋中,看见和感知环境的能力开启了寒武纪大爆发的序幕,不同的生命形式开始互动。如今,那束光芒正在触及数字大脑。
空间智能不仅让机器能够与其它机器互动,还能让它们与人类以及真实或虚拟的三维世界互动。随着这种未来逐渐变为现实,它将对许多人的生活产生深远的影响。
让我们以医疗为例。在过去的十年里,我的实验室一直在应用AI,解决患者预后效果不佳和医务人员过劳的问题。
我们与斯坦福医学院和合作医院的工作人员展开合作,正在试点使用智能传感器。这些传感器可以检测医务人员进入病房时是否正确洗手,还能跟踪手术器械,或者在患者处于危险(如跌倒)时提醒护理团队。
我们将这些技术视为一种环境智能,就像一双额外的眼睛。它们确实能起到一些作用。但我希望对我们的患者、医务人员和护理人员提供更多互动式的帮助,他们正迫切地需要一个能真正做点事情的帮手。
想象一下,如果有了能运送医疗用品的自主机器人,护理人员就只需专注于患者。利用增强现实技术,我们也能引导外科医生进行更安全、更快和创伤更小的手术。
想象一下,严重瘫痪的患者通过脑电波控制机器人,完成我们司空见惯的日常任务。是的,通过脑电波就可以。大家可以在我实验室最近的一项试点研究中,看到这一未来的雏形。
在这个例子中,机械臂的控制是通过非侵入性的脑电帽收集的脑电波信号实现的。这个机械臂现在正在烹饪一顿寿喜烧。
六、数字生命寒武纪大爆发即将到来,但必须确保技术始终以人为本
五亿年前,视觉的出现彻底颠覆了原本那一片漆黑的世界。它开启了一场影响最深远的进化过程:动物世界中智能的发展。
过去十年中,AI的惊人进步同样令人震撼。但我相信,如果我们想要完全发挥这场数字寒武纪大爆发的潜力,我们就必须为计算机和机器人提供空间智能。这也正是自然界为我们提供的东西。
这是一个激动人心的时刻,我们可以教我们的数字伙伴学会推理,教会他们与我们称之为家园的三维空间互动,并创造更多我们可以探索的新世界。
实现这一未来并不容易。我们需要大家在采取行动时深思熟虑,开发始终以人为本的技术。
但如果我们能以正确的方式推进技术的发展,这些具备空间智能的计算机和机器人将不仅仅只是实用的工具,还将成为可信赖的伙伴,提升和增强我们的生产力,促进人类社会的发展。它们也将尊重人类个体的尊严,促进人类的共同繁荣。
最令我兴奋的,是这样的一个未来:AI将拥有更强的理解能力、洞察能力和空间感知能力,并与我们一起不断努力,以更好的方式创造出一个更美好的世界。谢谢。
结语:空间智能开启AI发展新篇章,或成下一代AI的“原爆点”
在九年前的TED演讲中,李飞飞介绍了ImageNet这一深度学习爆发的起点,这也为当代AI奠定了基础。如今,她再次站在TED的舞台上,阐释了“空间智能”这一全新概念,指引AI朝着更高境界迈进。
李飞飞本人曾在多个场合指出,AI学术界能获得的资源实在是太有限了。她呼吁政府能为学术界提供必要的支持,以促进AI研究的发展。现在,李飞飞已暂离象牙塔,下场创业,并拿到了硅谷知名风投公司a16z的投资。我们也期待她能在学界之外,给AI领域带来新的惊喜。