【山东科协每日科普】音乐的指纹:“听歌识曲”是怎么识别音乐的?

学术   2024-11-07 06:30   山东  

在数字音乐盛行的今天,你有没有过这样的时刻:在商场、咖啡厅里听到一首歌很上头,急切想知道歌名?或是听到一段熟悉的旋律,但就是想不起歌曲的名字?时,“听歌识曲”功能便成为了我们的得力助手,只需几秒钟,就能快速准确地识别出正在播放的歌曲甚至是歌手。

“听歌识曲”技术,本质上是一种音频信息检索技术,其核心在于音频指纹的提取与匹配。那么,音频指纹是如何进行提取与匹配的呢?


一、声音采样:音频数字化



音乐识别的第一步就是“听”声音。但机器是怎么“听”到歌的呢?声音本质上是一种振动,在空气或水等介质中传播。被人耳接收后,人耳会把这种振动通过耳膜等组织传导为大脑能识别的信号。机器听歌的原理也类似,它把声音的振动转化为电信号,再把电信号转变成计算机可处理的数字信号。

这个把连续的声音波形转化为离散数字信号过程就叫做采样。采样率决定了信号的捕捉效果。采样率越高,点越密集,原始声音被保留得越完整。


通过采样获得了声音信号,但这只是“听歌识曲”的第一步。我们还需要提取这些声音中的特征,转换为能被识别的模式。



二、音频指纹:提取频率特征

转换后的数字化信号接下来会被送到音频处理模块,这里会进行声音的特征提取。这包括从时域转换到频域,特别是通过傅里叶变换(FFT),将连续的音频信号分解为不同频率的分量。

在频域分析之后,app会提取音频中的关键频率特征,这些特征被用来生成音频的“指纹”。音频指纹是一种独特的标识符,每个音频文件都有其独特的指纹。这些指纹是通过分析音频的频率、振幅和相位生成的,通常使用离散傅里叶变换(DFT)来实现。


三、音频指纹生成

频谱图是一种特殊的频域图,它呈现了音频信号的时间、频率和强度三维信息。

频谱图记录了歌曲每一秒的频率和振幅,很直观地向我们展示了信号中哪些频率在什么时候出现,它们的强弱关系如何。

就像人的指纹是独一无二的,每首歌也有自己独特的音频指纹。提取音频指纹的过程大致如下:音频被拆分成若干小块,进而提取音频中的显著频率峰值,每个片段的峰值组合就形成了整首歌的音频指纹。


通常情况下,不同的频率范围会被分别处理,这样能够确保对低音、中音和高音的均衡分析,避免混淆或漏掉某些音乐元素。

每首歌都会被转换为一个独特的音频指纹,所以就算是同一首歌的不同版本也会因为频率、振幅和时间上的差异而生成不同的指纹,以确保后续最精准的匹配。


四、在数据库中寻找匹配:哈希表与高效匹配


现在我们有了这首歌的“指纹”,接下来要在已有的歌曲数据库中找到与它匹配的指纹,来识别出具体的歌曲。“听歌识曲”技术将每段音频指纹转换成哈希值(一种编码),这样可以加速在数据库中查找匹配(因为比较哈希值比起去比较整段音频要快得多)。软件会将用户录音的指纹与数据库中的指纹哈希值比对,找到指纹匹配的歌曲。


如今,音乐识别技术的应用场景已经非常丰富,除用来识别歌曲,还可以用于版权监控保护,检测音乐中的采样和相似度,甚至可以用于找出某些流派的起源和灵感来源。

这种特征提取和匹配技术也为个性化音乐推荐提供了基础。推荐系统通过深度学习分析音乐的情感、风格判断歌曲的情绪(如欢快、悲伤、激动)、根据音乐的旋律、节奏、情感等特征来挖掘用户的喜好,不仅提高推荐的准确性,而且能为用户发现更多与其品味相符的音乐。


来源:人民网
编辑:白欣雨
审校:高淑青

山东省科协
弘扬科学精神,普及科学知识,传播科学思想,倡导科学方法
 最新文章