麻省理工:一只企鹅引发的AI革命性进展

文摘   科技   2024-07-11 06:30   广东  

麻省理工学院(MIT)开发的DenseAV算法可以仅通过观看人们说话的视频来解析和理解语言的含义,具有在多媒体搜索、语言学习和机器人领域的潜在应用。


麻省理工学院电气工程与计算机科学博士生、麻省理工学院计算机科学与人工智能实验室(CSAIL)附属研究员马克·汉密尔顿(Mark Hamilton)希望利用机器来理解动物如何交流。为此,他首先着手创建一个能够“从零”学习人类语言的系统。
“有趣的是,灵感的关键时刻来自于电影《帝企鹅日记》的一幕。场景中,一只企鹅在过冰面时摔倒,并在爬起来时发出了一声沉重的呻吟。当你看到这一幕时,几乎可以确定这声呻吟代替了一个四字单词。这让我们想到,也许我们需要使用音频和视频来学习语言,”。“是否有一种方法可以让算法整天看电视,并从中找出我们在说什么?”

“模型‘DenseAV’旨在通过预测看到的内容来学习语言。例如,如果你听到有人说‘用350度烤蛋糕’,很可能你会看到一个蛋糕或一个烤箱。要在数百万个视频中成功完成这种音视频匹配游戏,模型必须学习人们在谈论什么
研究者观察到了模型在听到声音时关注的像素。例如,当有人说“狗”时,算法会立即开始在视频流中寻找狗。通过观察算法选择的像素,可以发现算法认为一个词的意思是什么。
有趣的是,当DenseAV听到狗叫时,也会进行类似的搜索:在视频流中寻找狗。这引起了我们的兴趣。我们想看看算法是否知道“狗”这个词和狗叫声的区别,”汉密尔顿说。团队通过给DenseAV一个“双侧大脑”来探索这一点。有趣的是,他们发现DenseAV的一侧大脑自然地专注于语言,比如“狗”这个词,另一侧则专注于声音,比如狗叫声。这表明DenseAV不仅学会了词的意思和声音的位置,还学会了区分这些类型的跨模态连接,完全没有人工干预或任何书面语言知识。
一个应用分支是从每天发布到互联网上的大量视频中学习:“我们希望系统能够从大量视频内容中学习,例如教学视频,”汉密尔顿说。“另一个令人兴奋的应用是理解新的语言,如没有书面形式的海豚或鲸鱼的交流。我们希望DenseAV可以帮助我们理解这些自始以来就难以翻译的人类语言。最后,我们希望这种方法可以用于发现其他信号对之间的模式,例如地球发出的地震声和其地质情况。”
团队面临的一个巨大挑战是没有任何文本输入的语言学习。他们的目标是从一张白纸上重新发现语言的含义,避免使用预训练的语言模型。这种方法的灵感来自于儿童通过观察和倾听环境来理解语言的方式。
为了实现这一目标,DenseAV使用了两个主要组件分别处理音频和视觉数据。这种分离使得算法无法作弊,即让视觉部分查看音频,反之亦然。它迫使算法识别对象,并为音频和视觉信号创建详细和有意义的特征。DenseAV通过比较音频和视觉信号的对来学习,找出匹配和不匹配的信号。这种方法称为对比学习,不需要标记示例,使DenseAV能够找出语言本身的重要预测模式。
DenseAV和以前的算法之间的一个主要区别是以前的工作集中在声音和图像之间的单一相似性概念上。例如,将某人说“狗坐在草地上”的整个音频片段与一张有狗的完整图像匹配起来。这不允许以前的方法发现细粒度的细节,例如“草”这个词与狗下面的草之间的连接。团队的算法搜索并聚合音频片段和图像像素之间的所有可能匹配。这不仅提高了性能,还使团队能够以以前的算法无法实现的方式精确定位声音。“传统方法使用单一类标记,但我们的方法比较每个像素和每一秒的声音。细粒度的方法使DenseAV能够做出更详细的连接,从而更好地定位”汉密尔顿说。
研究人员在AudioSet上训练了DenseAV,该数据集包括200万个YouTube视频。他们还创建了新的数据集来测试模型链接声音和图像的能力。在这些测试中,DenseAV在识别对象及其名称和声音等任务中表现优于其他顶级模型,证明了其有效性。“以前的数据集只支持粗略评估,所以我们使用语义分割数据集创建了一个数据集。这有助于像素级注释,以精确评估我们模型的性能。我们可以用特定的声音或图像提示算法,并获得这些详细的定位,”汉密尔顿说。
由于涉及的数据量巨大,该项目花费了一年时间完成。团队表示,转向大型变压器架构提出了挑战,因为这些模型很容易忽略细粒度细节。鼓励模型关注这些细节是一个重大障碍。
展望未来,团队旨在创建可以从大量视频或仅音频数据中学习的系统。这对于新的领域非常重要,这些领域中可能有大量的单一模态数据,但没有两者结合。他们还计划通过使用更大的骨干网络来扩大规模,并可能整合语言模型的知识以提高性能。
识别和分割图像中的视觉对象,以及音频记录中的环境声音和口语词汇,这些本身都是困难的问题。历史上,研究人员依赖昂贵的人工注释来训练机器学习模型完成这些任务。DenseAV在开发能够通过视觉和声音观察世界来同时学习解决这些任务的方法方面取得了重大进展——基于我们看到和互动的事物通常会发出声音的见解,我们也使用口语化方式来和它们交流。该模型对所讲语言没有任何假设,因此原则上可以从任何语言的数据中学习。如果将DenseAV扩展到跨多种语言的数千或数百万小时的视频数据,这将会非常令人兴奋。
关注SDI,后台发送 “ 002 ” 获取本文中文版研究论文


  <SDI原创,欢迎转载、投稿联系>  
往期精彩推荐:





麻省理工:教你如何成为AI工程师


AI工程师--下一个重大技术角色!


麻省理工预测:2024年十大突破性技术揭晓


麻省理工:如何用生成式AI来培养学生?


麻省理工:大型语言模型帮助机器人导航


AI结合游戏NPC会发生什么?


看更多精彩内容记得点击关注哟!

SDI数字创新
专注AI、XR、元宇宙前沿洞察和商业服务
 最新文章