德式搓脚练习（一）：超音效应

文摘 2024-08-20 18:47 意大利

我们手上这一版电影 akira 原声 CD 附带的小册子第七页是一张很丑的红底白字的像是科学家搞学术汇报的 ppt 里才会出现的页面，标题为《告 akira 交响组曲 CD 听众书》（notes for listeners of the cd symphonic suite akira）。然而仔细一看你会发现，真的是科学家搞的，署名为大桥力，aka.山城祥二。整张原声也正是由他发起的、由科学家、学生、商人、工程师、医生、记者等来自各行各业的从业者组成的神秘音乐集合——艺能山城组，的作品。

这本小册子一共就八页，这一页就占了一整页，可见其重要性。在这一页里，科学家兼音乐家大桥/山城桑除了列举出一些自己关于「超音效应」(hypersonic effect)的研究成果以外，主要是想向 CD 听众介绍一个残酷的事实，就是你买的这张 CD 不仅没有办法完全呈现原始录音，如果听的方式不正确，还会有损身体健康，同时 FYI，想无损健康，甚至有益健康，还得听由 milan records 发行的无损版本或者黑胶唱片，不信请看参考文献：（两篇他自己的学术论文）。

那么应该从何讲起呢？

1. 音频、音符、音高、音色……音乐

为了纪念证明了电磁波存在的德国科学家海因里希·赫兹，人们用赫兹/Hertz/Hz这个单位来描述每秒周期性事件的发生次数。声音的频率，即空气分子作周期性振动的频率，自然也用赫兹来度量。振动越快，即每秒振动次数越多，频率就越高，我们听到的声音的音高也就越……高。比如吉他下面的弦比上面的弦音更高，因为弦更细，用同样的力气拨一下能振更多次，同理，钢琴右边的琴键按下去比左边琴键音更高，因为右边琴键连着的小锤子锤到的那根弦更短。琴弦的粗细、长短、松紧都可以用来调节音高，这么一来就有无数个音高，那么一个音符，或者说一个琴键按下去对应的音高到底是多高又是如何确定的呢？

1939年，在伦敦举行的一个国际会议上，人们把钢琴琴键中央C上方的A（钢琴上从左往右数的第四个A，又名A4）定为440Hz，也就是今天西方音乐中的「标准音高」。在此之前则是各有各的标准，比如中世纪某管风琴的A是576Hz，1511年另一台管风琴的A变成了377Hz；再比如同样生活在十八世纪的韩德尔和莫扎特，韩德尔的A是423Hz，莫扎特的A是422Hz。有了标准音高之后，就是同一个世界，同一个A了。

相隔一个「八度」的A之间刚好是两倍的关系，A4是440Hz，A4左边的A3就是220Hz，将二者之间的频率十二等分，就有了钢琴上两个相邻八度琴键之间的十二个键，即我们今天听到的大部分歌曲所使用的「十二平均律」，每个等分称为一个「半音」。

也就是说，我们所听到的大部分音乐，尤其是A440标准化后的音乐，可以说是非常有限的一些固定音高的排列组合，而这些大部分音乐中的大部分音乐，往往根本用不到十二个音，比如大家都熟悉的音阶「哆来咪发唆拉提」，就七个音。那么为什么即使只有一把吉他，也还是可以演奏出听上去很复杂，很悦耳的音乐呢？因为在真实世界中，用吉他或者钢琴弹A4这个音时，琴弦并不只以440Hz的频率振动，而是以440Hz加上以440Hz为基础带来的一系列更高频率的声音——所谓「泛音」——的叠加振动。基音和泛音的能量比例变化带来了「音色」，比如你能听出吉他和钢琴的A都是A，同时又能听出两个A一个是吉他发出来的，另一个是钢琴发出来的。

同一乐器有不同音高，不同乐器有不同音色，再加上不同音高音色同时发声时的「和声」、不同音高音色间次发声时的「旋律」和「节奏」、非周期性振动产生的「噪音」、以及声音在不同环境中反复碰撞带来的「混响」等等等等这些全部加起来，才是我们最终听到的「音乐」。

可是有人会问，那些既不是钢琴又不是吉他的音色呢？那些既不是A也不是C的音符呢？如果把一个八度不是十二等分，而是二十等分呢？如果我们按下的不是一个个音符，而是直接控制声音振动的频率呢？如果我想要创造一段比世界上手最快的钢琴手弹得还快的旋律呢？

20世纪60年代，合成器的出现不仅拓宽了音乐的可能性，也拓展了人们对音乐的认知。合成器通过电压控制石英振荡来发声，再以各种其他电子手段像做雕塑一样直接塑造声波的波形，从而可以在理论意义上模仿一切已经存在的声音，以及在实际意义上创造出从来不曾存在的声音。如果合成器可以合成的声音仍然有限，那么也是机器本身带来的限制，但从创作者和听众的意识层面，人们已经可以听到不止是哆来咪的、不止是钢琴和吉他的、从音域和音色上而言都更加复杂的音乐。换句话说，「音乐」和「声音」二者之间的距离，在合成器的普及之后被大大缩短了。

2. 数字信号与采样率

以上说的，无论是琴弦还是石英振动发出来的声音信号，人们称之为「模拟信号」（analog signal）。而随着电脑技术的发展，我们还可以用数字0和1在电脑上组合出来的代码来生成声音信号，人们称之为「数字信号」（digital signal）。数字信号需要通过一个叫做数字-模拟转换器（digital-analog converter）的东西转换为模拟信号，才能被我们听见。反之，模拟信号也可以通过模拟-数字转换器（analog-ditital converter）变成代码储存起来或者进行编辑。

与生成模拟信号相比，由于用到的电子元件更少，生成数字信号有两个很大的优势，一是更加稳定，二是更加便宜。而由于更加稳定和更加便宜，我们又再一次扩大了塑造声音的可能性。以1983年发布的雅马哈DX7为代表的 FM（frequency modulation/调频）合成器很快占据了主流市场，把像是 moog 这样的模拟合成器大牌逼上了绝路。moog 不得不去靠生产地铁门开关和麦加方向定位器这样的东西来维持生计，最终于1987年倒闭（嗯后面又复活了）。

模拟/数字信号二者之间还有一个更加显而易见的区别，就是一个是真的有东西在振动，另一个是假装有东西在振动。既然是假装，就有装得更像的，和装得没那么像的。装得更像的，人们称之为「分辨率更高」，或者「高清」。装得听不出来是真的还是假的了，人们称之为「无损」。

决定装得到底有多像的一个重要参数，叫做「采样率」。

模拟信号是真实世界的一部分，因此是无限的和连续的。数字信号是虚拟世界的一部分，因此是有限的和不连续的。用有限的、不连续的点来还原无限的、连续的时空的过程，人们称之为「采样」。就像小时候玩的连线游戏，把有限的点用直线连起来，就可以假装成一条曲线，点越多，越像曲线。

顾名思义，采样率，就是指在一条真实世界声波上每秒取的点的数量，同样用赫兹/Hz来表示，但与表示声音频率的Hz有所不同：要还原频率为nHz的真实世界的声音，数字世界的采样率至少需要达到2nHz。比如要还原一个440Hz的声音，采样率至少需要达到880Hz。反过来说就是，如果采样率只有880Hz，那么我们最多能还原440Hz以下频率的声音，高于440Hz的信号就会被往回折叠（aliasing），导致这部分声音的「失真」。

3. 听力区间

讲到这里，我们真的已经在慢慢接近大桥桑的《告听众书》了。

我们今天普遍认为，人耳的听力区间为 20Hz-20kHz，即 20-20000Hz，意思是当我们听到低于20Hz的声音和高于20kHz的声音，我们会说：我什么都没听到。但你如果去做一个网上到处可以找到的「我能听到多少Hz的声音」的测试，就会发现你大概率听不到20kHz，比如 tao，最多就 15-16kHz。那是因为20-20kHz是个统计数据，意思是根据（有限的）统计结果，人类中能听到最高频声音的那个人类，听到的最高频大概是20kHz。而这个人多半是个小孩，因为又是根据统计结果，随着年龄的增长，人的听力上限也会越来越低。

CD 是一种用来储存数字信号的媒介，它的采样率是44.1kHz，为什么是这个数字呢？因为44.1k除以 2，是22.05k，刚好处在人耳的听力上限，多抛出来的4.1k用来消化20kHz以上信号的折叠失真。也就是说，CD 的采样率是以人耳的听力区间为参考制定的。更高的采样率不仅会增加生产成本，多出来的那些高频信号还会被人说：我听不出区别。

但拿一张音乐专辑打比方，CD 只是一份压缩后的数字拷贝，原始文件则是以模拟信号被录制在被称之为「母带」的非数字媒体，比如磁带，或者以远高于44.1kHz采样率的数字信号被录制于电脑中。因为在真实世界，包括在录音时，存在大量高于22.05kHz的音频信号，虽然我们听不见，但我们都希望尽可能完整地捕捉下来，再根据制作成本与商业考量进行不同程度的……阉割。

我们的前声音工程师朋友 dario 就不止一次地仰天长叹：永远不要用低采样率做数字录音，否则那些没录进去的东西就永远地消失在这个世界上了。

也就是说，我们日常生活中听到的绝大部分以数字信号作为载体输出的声音，比如 CD、mp3、流媒体、视频里的声音，都不是来自真实世界的「完整的声音」，而是「被认为人类的耳朵可以听到的声音」。

4. 超音效应

我们听不见的20kHz以上的声音，虽然猫听得到，马听得到，刺猬听得到，鼠海豚更是听得到，但从我们的角度，它们叫「超声波」；我们听不见的低于20Hz的声音，虽然牛听得到，大象听得到，貂听得到，但从我们的角度，它们叫「次声波」。

然而随着科学技术的发展，人们嘴里说出来的话也越来越不能算数了。就像在很多其他时候一样，科学家会问：你说是说你听不到，但你到底听没听到？

这个时候我们终于可以回到文章最开头说的事情。大桥力博士通过实验证明，嘴里说听不见超声波的人，他们的大脑其实是听见了的。

博士做这个实验的动因有三个：一，前面说的人的听力区间，好像根本就没有很坚实的实验基础，是靠填问卷得出来的结论；二，有实验证明暴露在次声波下也许会对人体带来不利影响，意思是我们的耳朵听不到，不代表我们的整个身体没有反应（我们不是耳朵）；三，我们祖先生活的环境，比如热带雨林里，有巨量100kHz以上的超声波，根据人类起源学说，我们不太可能对这些声音一点反应都没有。

博士的实验是这么做的：把一段以富含高于22kHz声音著称的甘美蓝音乐（数字录音采样率为1.92mHz）拆分为低于22kHz的部分（Low Frequency Component，LFC）和所有人都会说自己听不到的、高于22kHz的部分（High Frequency Component，HFC），然后制作四段音频：全频（LFC+HFC）、LFC、HFC、Baseline（不播放音频，只有实验室的环境音），依次放给每位实验对象听，同时探测实验对象的大脑活动。

为了保证实验的准确性，大桥博士还自己设计了一套功放设备，为什么呢？因为市面上的功放设备也都是按照20-20kHz来设计的，HFC就算录进去了，也会在播放的时候被音响切掉……

实验结果是，人脑对未经切割的全频音，即「听不见的声音」与「听得见的声音」同时出现时的反应，要明显高于其他三组声音，具体表现为大脑中对维持生命至关重要的中脑和脑干、以及用于感受美与愉悦的前额叶皮层中的血流量显著增多。

大桥博士将这个实验结果称为「超音效应」（hypersonic effect）。

博士的这篇论文发布后，音频行业纷纷推出含有「听不见的声音」的高采样率/高清/无损音频，比如 SACD 和蓝光光盘。但由于「超音效应」仅仅被证明存在但并没有关于高频声音与大脑活动如何相关的系统性研究，再加上各种必然存在的商业考量，数字录音与数字音频文件格式呈现出一片混乱的局面（反正大家也听不出来）。另外，根据常识，当我们听到很多听得见的高频的声音时，并不会觉得悦耳，甚至反而会感到不适，这似乎与实验结论有矛盾。

于是时隔多年之后，博士又做了一个实验，是将16kHz以上的高频声音再次细分为很多个频段分别放给实验对象听，并观察他们的大脑活动。这个实验的结果是，如果音频只包含了16-32kHz频段的高频声音，人们大脑活动不升反降，只有当32kHz以上的高频声也同时存在时，才有大脑活动的显著提升。大桥博士据此把超音效应分成了「正超音效应」与「负超音效应」。

因此，最高能包含22.05kHz高频声的 CD，并不会带来有益身心健康的「正超音效应」，反而会带来有害身心健康的「负超音效应」。

又因此，博士建议，在听您买到的这张 CD 时，为了您的身心健康，最好不要用耳机听，而是要用音箱放出来，与充满真实世界的全频段自然之声一起听。∎

建筑大王

再想想！