动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

科技   2025-01-03 10:52   北京  



  新智元报道  

编辑:alan
【新智元导读】海豚的口哨声、大象的隆隆声、鸟鸣声的颤音,都具有该物种用于传递信息的模式和结构。对于人类来说,这些微妙之处可能难以识别和理解,但寻找模式正是AI所擅长的领域。

每一种动物都有其独特的历史。

来自加拿大Carleton University的鲸鱼生物学家Shane Gero,花了20年时间试图了解鲸鱼是如何交流的。

比如,同一个家族的鲸鱼会发出特定的声音,而不同区域的抹香鲸(Physeter macrocephalus)有自己的「方言」。

海豚的口哨声、大象的隆隆声、鸟鸣的颤音都有特定的模式和结构。

对于人类来说,这些微妙之处可能难以识别和理解,但寻找模式正是AI所擅长的领域。

在过去的一年里,AI不断帮助研究者们「解码」自然界中的这些声音。

密码破译者

鲸鱼以氏族的形式聚集在一起,每个氏族都有独特的饮食、社会行为和栖息地。一个氏族可以包含数千头鲸鱼,每个家庭以雌性鲸鱼为首。

鲸鱼们大部分时间都在海洋深处寻找食物,最远可达海面以下2公里处。阳光照不到那里,它们通过回声定位寻找猎物。

而在不需要回声定位的水面上,它们还会使用称为尾音(codas)的一系列咔嗒声来与其他鲸鱼保持联系,每次持续3到40下。

不同氏族的鲸鱼使用尾音的节奏和停顿不同,这些「方言」标志着氏族之间的「文化界限」。

在加勒比海域,Gero和他的同事们花了几千小时,收集了居住在附近的30多个鲸鱼家庭的数据。

为了了解尾音的节奏和速度,团队手动创建了鲸鱼声音记录频谱图,将音量和频率等特征可视化。

Gero表示,这项任务非常耗时,交给机器学习算法之后大大加快了工作速度,同时还有助于区分哪种声音来自哪种动物。

另外,人工智能也让研究走得更远。

手动操作基本上只能对单个单词进行分类,但AI可以处理相当于句子甚至整个对话的尾声。「机器学习非常擅长发现标准统计方法难以捕捉的模式」。

研究人员收集了8,719个尾声的数据集,在AI的帮助下发现了「抹香鲸音标」,作为鲸鱼之间共享复杂信息的基础。

Call me by my name

香鲸并不是唯一使用特定发声来识别自己的生物。曾在科罗拉多州立大学工作的行为生态学家Mickey Pardo,通过AI发现了野生非洲象有自己的名字。

大象们使用低沉的隆隆声彼此交流,在不同的情况(远距离、面对面、或者亲子互动)下,声音会有差别。

Pardo和他的同事们发现,大象会对某些叫声做出反应,而忽略其他叫声。

研究人员训练了AI模型来学习这些「呼叫」的声学特征,并根据新呼叫的特征来预测接收者。

最终,模型以27.5%的准确率匹配了呼叫者——尽管看起来分数不高,但人家大象也不是每次呼叫都「直呼其名」。

另一种被AI发现了「真名」的动物是下面这哥们:狨猴(Callithrix jacchus)。

除了预测名字之外,Pardo还尝试利用AI解码其他的「大象词汇」,比如位置术语。

当大象招呼同伴向特定地点移动时,会发出特别的叫声。模型识别这些叫声的含义,研究人员播放叫声并验证大象们的去向。

在关于大象的另一项研究中,Pardo发现肯尼亚两个种群中大象的叫声存在明显差异。

所以,进行濒危物种保护时,不能简单将个体与其他同类放到一起,因为「新人」可能面临语言不通的麻烦。

另外,大象的叫声还包含了性别、年龄、生理状况等信息,科学家们可以通过梳理这些信息,使用被动声学监测来了解特定大象的情况。

加州大学的动物行为生态学家Caroline Casey,在博士论文中证明了象海豹(Mirounga spp)也会给给自己起名字。

Casey认为,使用基于AI的分类器来解释动物的叫声,可以减少研究中的人为偏见,但与此同时,人类直觉的价值也不应该被忽视。

「人类的大脑能够整合我们对自己世界的理解和运作方式,并利用它来帮助解释动物的行为」。

泛化到乌鸦

机器学习专家Olivier Pietquin是地球物种项目(Earth Species Project)的AI研究主管,项目团队目前正在使用AI解码动物物种的交流。

Pietquin希望利用神经网络从一个数据集泛化到另一个数据集的能力,在训练模型时,不仅能够使用来自不同动物的大量声音,还可以使用其他声学数据(包括人类语音和音乐)。

「计算机可以在建立理解以专门识别动物发声特征之前,需要先推导出声音的一些基本特征。这与在人脸图片上训练的图像识别算法学习像素的一些基本特征的方式相同。」

像素首先描述椭圆,然后描述眼睛。所以,即使使用人脸作为大部分训练数据,AI模型依然可以利用这些基础知识识别猫的面部。

「我们可以想象使用人类语音数据,并希望它能转移到任何其他具有声带的动物身上。」

以这种方式训练的模型有助于识别哪些声音传达了信息,哪些只是噪声。当然,要弄清楚这些叫声的具体指向,仍然需要人类观察动物的行为,为计算机识别出的内容添加标签。

地球物种项目的研究人员已经创建了一个名为Voxaboxen的神经网络,他们正在将其应用于乌鸦交流的研究。

与欧洲其他地方的同类不同,西班牙北部的腐肉乌鸦种群(Corvus corone)共同承担着照顾幼崽的责任。一群乌鸦将轮流守卫巢穴、清洁巢穴和照顾雏鸟,它们必须通过语音沟通协调才能完成这些任务。

研究人员将标签贴在乌鸦的尾羽上,其中包含一个微型麦克风,一个加速度计和磁力计,用于测量鸟类的运动和叫声。标签能够收集大约六天的数据,然后掉到地上并发出一个信号,方便工作人员检索和研究这些数据。

尽管有抹香鲸、非洲大草原象、狨猴、海象、乌鸦这些例子,但是用AI打造「动物版的谷歌翻译」还为时尚早。

动物是否能够进行超过基本水平的交流——即有无语言的构成,还没有公认的定义。

Pardo表示,他的主要目标不是能够与野生动物和宠物交谈,而是了解它们的思想以及它们如何看待自己和世界。

例如,一些动物似乎有名字的事实意味着,它们能够将其他个体视为实体并提出标签,这表明它们具有复杂的抽象思维水平。

If he could talk to the elephants, he would want to ask them how they feel about the way that humans treat them.

「If it were possible for humans to hear from other animals in their own words, ‘Hey, stop fucking killing us’, maybe people would actually do that.」


参考资料:
https://www.nature.com/immersive/d41586-024-04050-5/index.html




新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
 最新文章