AI即将拥有自我意识Facebook推

来源：FacebookAI

编辑：小咸鱼好困

今年11月，Facebook将开源让AI拥有以第一人称视角与世界进行交互的能力的Ego4D（Egocentric4DPerception）计划。其中包含超过小时的第一人称视频，包括来自73个城市的多名参与者的日常生活。

你有想象过，有一天，戴上头盔，眼前立刻悬浮出科幻场景般的炫丽世界吗？

在钢铁侠电影中，每当托尼斯塔克穿上机械盔甲，头盔合上的那一刻，超级人工智能管家贾维斯就会在他眼前出现，帮助他分析眼前的情况。

钢铁侠头盔里的贾维斯，其实是以第一人称视角来理解世界的，所以会带来电影里那样的沉浸式体验。

在未来，增强现实(AR)眼镜和虚拟现实(VR)耳机等设备在日常生活中，将会变得像智能手机一样普遍。

想象一下，你的增强现实设备准确地显示了如何在鼓课上握住木棒，指导你完成一个食谱，帮助你找到丢失的钥匙，或者像全息图一样浮现出你的记忆。

为了实现这些新技术，人工智能需要像我们一样，从第一人称的角度理解世界并与它互动，这在研究界，通常被称为以第一人称为中心的视觉感知。

然而，今天的计算机视觉（CV）系统从数以百万计的照片和视频中学习，尽管发展飞速，有了喜人的研究进展，可这些照片和视频都是以第三人称视角拍摄的，相机的视角只是一个行动的旁观者视角。

嗯。。。钢铁侠系列的电影都结束了，现实生活中什么时候才能见到像贾维斯那样，以第一视角理解世界的AI，出现在增强现实设备里呢？

别着急，有眉目了！

「Ego4D」计划

年，FacebookAI正在宣布开展「Ego4D」（Egocentric4DPerception）计划，这是一个雄心勃勃的长期项目，为的就是解决以第一人称视觉为中心的感知领域的研究挑战。

「Ego4D」（Egocentric4DPerception）是一个大规模的以第一人称视觉为中心的数据集，具有前所未有的多样性。它由来自全球9个不同国家74个地点的名独特参与者收集的小时视频组成。

该项目汇集了88名研究人员，将这一数据集的规模大幅增加了一个数量级，比任何其他项目都大20多倍，并且即将在11月底开放下载。

让AI也体验「第一人称视角」

就拿过山车来说吧，你在上面体验着肾上腺素飙升的快感。而下面的人则是看得一脸懵比。

人工智能，就更懵了……如果把CV系统绑在过山车上，它估计完全不知道自己该看些什么。即便在地面上从旁观者的角度看了几十万张过山车的图片或视频，也是如此。

AI在第一人称视角把自行车上的部件识别为「红绿灯」

Facebook首席研究科学家KristenGrauman表示：「为了使人工智能系统能够像我们一样与世界互动，人工智能领域需要发展到一种全新的第一人称感知范式。这意味着教人工智能在实时运动、互动和多感官观察的背景下，通过人类的眼睛理解日常生活活动。」

于是，FacebookAI在「Ego4D」中开放了五个以第一人称视觉体验为中心的基准挑战。

哎，你看到我的手机了吗？我又找不着我的手机了！

很熟悉，对吧？

Ego4D希望解决的第一个问题是情景记忆（Episodicmemory）。

以第一人称视觉为中心的视频记录了相机佩戴者的日常生活，如果用这些视频去训练AI，AI就能学会通过检索过去以第一人称视觉为中心的视频中的关键时刻来扩展你的个人记忆。

你可能会问人工智能各种自由形式的问题，比如：视觉查询「我把我孩子最喜欢的泰迪熊放在哪里了？」、文本查询「我加了多少杯糖」，以及事件查询「我什么时候和狗玩的」。

为此，模型必须能响应你的提问，并在过去的视频帧中定位，进一步提供记忆中的三维空间方向，时间，事件细节等信息。

坏了，接下来我要做什么来着？

Ego4D要解决的第二个问题便是预测（Forecasting）：下一步我要做什么？

人工智能可以理解佩戴者的行为会如何影响这个人未来的状态，比如这个人可能会移动到哪里，他们可能会触摸什么物体，或者他们接下来可能会从事什么活动。

预测行动不仅需要认识到已经发生的事情，还需要展望未来，预测下一步行动。这样AI系统就可以在当下提供有用的指导。

比方说，就在你准备端着锅里的汤就走的时候，你的人工智能助手会赶紧通知你，「等等，你没加盐咋吃啊？」

我在做什么，该怎么做？

手-物之间的互动（Handandobjectmanipulation）也是难点之一，因为AI需要理解我在做什么，该怎么做？

学习手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称的人-物交互，识别抓取，并检测物体状态变化。这时，AI机器人可以总结视频中观察到的人类经验，获得自己的经验。

因此，当你在烹饪一份食谱时，人工智能助手可以指导你需要哪些配料，需要先做什么，了解你已经做了什么，指导你度过每一个「大脑宕机」的时刻。

刚刚他说了什么，他什么时候说的？

人类可以用声音来理解世界，未来的人工智能也要学会这种视听记录（Audio-visualdiarization）。

如果你正在上一堂重要的课，但因为爸妈给你发短信而分了心，你可以问AI：「教授把我们的试卷收上去之后，说明天要讲什么」？

我正在与谁互动，如何互动？

社会互动（Socialinteraction）是Ego4D所盼望的最后一个方向。

除了识别视觉和声音提示，理解社交互动是智能人工智能助手的核心。一个社交智能人工智能会理解谁在和谁说话，谁在