J. S. 巴赫音乐中音符转换的信息含量（一）

文摘 2024-08-26 08:30 上海

J. S. 巴赫音乐中音符转换的信息含量（一）

音乐具有一种复杂的结构，能够表达情感和传递信息。人类通过不完美的认知工具来处理这些信息，这些工具会产生一种被认知“简化”过后的现实。我们如何量化一首音乐中包含的信息？此外，人类推断出的信息是什么？这与一首音乐的真实结构有何关系（以及有何不同）？为了定量地研究这些问题，我们提出了一个框架，通过构建和分析由音符（节点）及其转换（边）形成的网络来研究音乐作品中传递的信息。利用这个框架，我们从网络科学、信息论和统计物理学的角度分析了 J. S. 巴赫创作的音乐。巴赫作为西方音乐传统中最伟大的作曲家之一，他的作品在数学结构上高度严谨，涵盖了从赋格曲到合唱曲等多种作曲形式。我们将每首作品看作一个音符转换网络，量化每首作品中包含的信息，并发现可以根据信息含量和网络结构将不同类型的作品归类在一起。此外，我们利用一个模拟人类如何推断信息网络的模型，发现音乐网络在传递大量信息的同时，还能保持推断网络与真实网络之间的偏差很小，这表明它们的结构是为了高效地传递信息。我们进一步探究了实现这种高效信息传递的网络结构，即高度异质性和强聚类性。总而言之，我们的研究揭示了巴赫作品的信息和网络特性。更广泛地说，我们提出的简单框架可以作为进一步探索音乐复杂性、创造力和相关问题的基础。

一、引言

从西藏的呼麦，到苏格兰的风笛，再到现代的嘻哈音乐，音乐是人类文化的一个普遍方面，受到世界各地各个年龄段的人们的喜爱。甚至有人认为，音乐是人类存在的基本组成部分 [1]。尽管不同文化和历史时期的音乐风格、声音和乐器差异很大，但不可否认的是，音乐对人类和社会的发展产生了深远的影响 [2,3]。我们可以通过音乐讲述故事 [4]，传递信息 [5]，以及表达最强烈的情感 [6–8]。听到一首小调的慢歌后感到忧郁或沮丧，或者听到一首大调的欢快歌曲后感到无忧无虑或精力充沛，这是一种常见的人类体验。但是，像音乐这样抽象的东西是如何传递如此多信息的？过去的文献从期望和惊喜的角度讨论了音乐 [9–13]。为了在进化上取得成功，我们的大脑善于根据先前的事件形成期望。当这些期望与经历相矛盾时，我们就会感到惊讶。惊喜会伴随着一系列其他的情绪：当我们预期的不和谐音实际上是和谐音时，我们可能会感到欣慰；而当我们预期的音乐解决方案没有出现时，我们可能会感到沮丧 [12–16]。但是，我们如何量化这些期望和惊喜呢？我们如何将一首音乐所传达的信息进行数学形式化和度量？从根本上说，音乐是由转瞬即逝的声音组成的，因此可能难以衡量。

在这里，我们试图通过网络科学的视角来审视音乐，从而从音乐的复杂性中提取秩序。网络由节点和边组成，分别代表实体和它们之间的连接。将每个音符概念化为一个节点，将两个音符之间的每次转换概念化为一条边，我们可以为任何一首音乐构建一个网络 [17–21]。这种表示方法使我们能够使用基于物理的方法来定量分析一首音乐的各个方面。利用音乐网络，我们构建了一个框架来研究一首音乐所传达的信息，并应用该框架对巴赫的作品进行了全面的分析。巴赫是一位多产的作曲家，他的作品广受赞誉，并对同时代和后来的作曲家产生了影响，因此，他对我们来说是一个自然的研究案例。他为各种音乐家（从歌手到管弦乐队成员）创作的多种多样作品（从合唱曲到赋格曲）通常都具有重复的——几乎是数学化的——音乐主题和动机的基本底层结构。巴赫作品的这些特点使得使用数学框架来研究它们变得特别有趣。

当我们聆听音乐时，我们会形成预期 [9,11,12,15]。听到一个特定的音符后，我们会根据过去的转换来预测接下来可能会出现哪些音符。结果越不可能出现，我们在听到它时就会越感到惊讶。这种“惊奇感”可以用香农信息熵来量化 [22]。信息论的思想已经在很多领域带来了启发性的见解，包括语言 [23,24]、社交网络 [25,26]、交通模式 [27] 和音乐 [28,29]。我们利用这些思想来量化音乐网络中存在的信息。先前已有研究尝试量化识别不同类型音乐中的模式和特征 [19,30–32]，然而，理解人类如何感知这些模式比简单地评估音乐结构更加微妙和复杂，因为人类并非完美的学习者。研究一致表明，人类通过不完美的感知系统吸收信息模式，导致对转换结构的表征略有不准确 [33–36]。这一观察结果引发了关于人类感知到的信息的有趣问题，特别是：推断出的结构与音乐作品的真实结构有何关系和区别？此外，是否存在一些音乐模式能够特别清晰地体现在人类感知的复杂过程中？如果存在，这些模式在不同类型的音乐中是如何变化的？这些问题非常微妙，并且可能受到多种因素的影响，例如训练水平 [37–40]、音乐文化背景 [38,41–44]，甚至语言 [45–48]。尽管如此，近年来关于人类如何学习信息网络的研究取得了进展，为解决这些问题提供了一个有价值的框架 [34,35,49–51]。

在这里，我们借鉴网络科学、信息论和认知科学的思想，构建了一个框架来研究音乐所传达的信息。然后，我们使用这个框架对巴赫创作的音乐进行系统分析。在第二部分中，我们将讨论如何将音乐表示为网络，并详细介绍我们工作中分析的音乐作品。接下来，在第三部分中，我们将研究网络中存在的信息。我们发现，巴赫的音乐网络比典型的（或随机的）转换结构包含更多信息。令人惊讶的是，我们还发现某些音乐形式根据其信息内容聚集在一起。我们研究了网络结构如何影响信息内容，并表明这些音乐网络中更高的信息以及在每种音乐形式中观察到的不同音乐作品之间的差异可以通过节点度的异质性（或跟随给定音符的不同音调的数量）来解释。接下来，在第五部分中，我们使用了一个关于人类如何学习信息网络的计算模型来检验一个作品的推断转换结构与真实网络结构的匹配程度。我们假设音乐网络在推断网络和真实网络之间保持较低的偏差，并且这种特性是由网络中的紧密聚类驱动的。此外，我们发现某些音乐形式可以根据原始网络和推断网络之间的差异来区分。总而言之，我们的框架为音乐引入了一个全新的视角，并揭示了巴赫音乐的特性。通过系统地研究像音乐这样的复杂系统中的信息是如何被人类构建和感知的，我们的论文为人类创造力和人类如何体验周围的世界提供了见解。我们的研究也为进一步的探索开辟了许多有趣的方向，我们将在第七部分中概述这些方向。此外，我们也强调了我们分析的局限性，并在第七部分讨论了未来的工作如何改进本文以纳入更多现实因素。

II. 将音乐表示为音符转换网络

先前已有研究尝试构建和分析不同的音乐网络表示方法 [17-21]。本文重点研究音乐中音符转换所传达的信息，并从其基本表示方法入手。我们研究了巴赫的多种作品，包括前奏曲、赋格曲、创意曲、康塔塔、英国组曲、法国组曲、众赞歌、勃兰登堡协奏曲、托卡塔和协奏曲。我们收集了这些作品的音频文件，并以 MIDI 格式读取，从中提取音符序列（详见方法部分 A 1，其中包含每种作品类型和来源的更多信息）。一首作品中的每个音符都被表示为网络中的一个节点，不同八度的音符表示为不同的节点。不同乐器的音符转换分别计算。如果音符 i 到音符 j 之间存在转换，则从节点 i 到节点 j 绘制一条有向边（见图 1）。对于和弦，即多个音符同时出现的情况，在第一个和弦中的所有音符和第二个和弦中的所有音符之间绘制边。为简化分析，我们删除了网络中的所有自循环，从而将分析范围限制在理解到作品中下一个不同音符的转换结构。我们首先研究未加权的音符转换网络，以关注网络结构本身如何影响音乐作品的信息内容和感知。在理解了转换的框架之后，我们根据各种转换发生的频率为边添加权重。此过程可以帮助我们区分网络结构（包括可能的音符转换集）和边权重（包括音符转换概率）的影响。图 2 展示了使用我们简化表示方法构建的音符转换网络示例。虽然我们着重于构建音乐作品中存在的音符转换的基本表示方法，但重要的是要强调，这种表示方法具有扩展的潜力，可以捕捉音乐的其他基本方面（例如音色、节奏、音符的持续时间，以及对位法等技术）。我们将在第七节中详细讨论未来如何将更多音乐现实主义和复杂性纳入研究。

(a) 众赞歌 BWV 437，(b) 赋格曲 11 BWV 856（选自《平均律钢琴曲集》第一册），(c) 前奏曲 9 BWV 878（选自《平均律钢琴曲集》第二册），以及 (d) 托卡塔 BWV 916。图中展示的是每个网络的最大连通分量。节点大小和颜色基于其入度和出度之和：度数越高，节点尺寸越大，颜色越浅；度数越低，节点尺寸越小，颜色越深。边的粗细表示转换的相对频率。

图3. 使用随机游走的信息生成模型。(a) 蓝色虚线显示了音符转换网络上随机游走的一个例子。在每个节点上，游走者选择一条出边进行遍历，每条边被选择的概率相等。这种游走会生成如下所示的音符序列。(b) 与遍历度低的节点相比，当遍历度高的节点时，游走者对选择哪条边有更多选择，因此，这种转换会产生更多信息。因此，度数较高的节点（右）比度数较低的节点（左）具有更高的熵。(c) 为了计算整个网络的熵，需要根据游走者占据每个节点的概率对每个节点的贡献进行加权。对于平均度数相同的网络，度数范围较宽的网络（右）比度数范围较窄的网络（左）具有更高的熵。

III. 量化网络中的信息

图4. 使用音符转换网络上随机游走的熵来量化巴赫音乐的信息。(a) 巴赫音乐网络的熵 () 与相同规模的随机网络的熵 () 的比较。我们报告了相应的随机网络在 100 次独立实现后的平均熵。的误差条表示样本的标准误差。(b) 巴赫音乐网络的熵 () 与度数不变随机网络的熵 () 的比较。我们报告了相应的度数不变随机网络在 100 次独立实现后的平均熵。的误差条表示样本的标准误差。(c) 合唱的熵作为平均入度异质性（上）和出度异质性（下）的函数。在 (a) 和 (b) 中，每个数据点代表一个片段。颜色和标记表示片段的类型，如图例所示。虚线表示直线。在 (c) 中，虚线表示最佳线性拟合，报告的值是 Spearman 相关系数，值是通过执行排列检验获得的。

我们试图测量一系列音符产生的信息量。尽管音符序列可以具有长期的时间依赖性 [52,53] 和高阶结构 [54,55]，但作为第一步分析，我们关注马尔可夫转换结构。也就是说，我们研究单个音符转换中包含的信息。这些信息通过网络上随机游走的香农熵（香农熵是一种量化信息量的方法）来量化 [22,56] (图3；另见方法部分A2的更多细节)。给定一个转换网络，第个节点对熵的贡献可以用转换概率矩阵的条目表示为

在有向无权网络的情况下，（其中是节点 i 的出度），这里，对数的底数是 2。因此，对于无权网络，节点级熵为，仅由节点的出度决定。

为了计算整个网络的熵，我们需要用节点的稳态分布对其贡献进行加权，稳态分布指的是游走者在无限时间后最终停留在节点的概率，我们将其表示为 [56]. 那么网络的熵可以表示为：

对于无向无权网络，稳态分布有一个简单的解析形式：，其中是节点的度数，是边的总数。那么网络熵为：

相反，对于有向网络，稳态分布取决于网络的详细结构，无法用闭式表达式表示。因此，对于我们的有向音乐网络，我们通过数值方法计算稳态分布，并使用公式 (2) 来计算每首曲子的熵。

为了探究这些音乐网络所蕴含的信息量，我们将它们与相同规模的随机网络（也称为“零模型”）进行比较；也就是说，这些网络具有相同节点数和边数（有关生成零模型的详细信息，请参阅方法部分 A5）。这有助于我们直观地理解，相同规模的网络通常包含多少信息。如果音乐网络中的音符转换的确具备某些独特属性，使其能够传递大量信息，那么我们预计巴赫的网络将比零模型网络包含更多信息。我们为每首曲子生成 100 个随机网络并取平均值，结果发现，真实网络的熵普遍高于对应的随机网络，这意味着它们包含着更多信息 [图 4(a)]。此外，通过比较不同作品的熵，我们发现同类作品会聚集在一起。众赞歌通常用于宗教仪式，由团体演唱，其篇幅较短，结构也较为简单，采用的是自然音阶，它们的熵值明显低于其他类型的作品。与之形成对比的是，托卡塔曲的特点是更为复杂的半音结构，其旋律跨度更广，因此熵值也更高。这可能是因为，众赞歌的功能在于引导冥想、表达崇拜和祈求，其可预测性和较低的熵值能够更好地服务于这些功能；而托卡塔曲和前奏曲的功能在于娱乐，因此需要更高的不可预测性和熵值。更多关于其他信息源的比较结果，请参见补充材料 [57]。

我们知道，节点的熵值仅由其出度决定。因此，将真实网络与那些保持了真实度分布、从而固定了节点熵值的网络进行比较，就显得尤为重要。为此，我们将真实网络的熵与另一组零模型进行比较：这类随机网络保留了每个节点的入度和出度（有关生成这些网络的详细信息，请参阅方法部分 A 5）。我们观察到，这些网络的熵值大致保持不变 [见图 4(b)]。对于无向网络（其熵值仅由度分布决定），熵值的保持是预料之中的；但在有向网络中（不同的稳态分布也会影响熵值），熵值并不一定保持不变。因此，我们认为，音乐网络的熵值主要取决于其度分布，而非稳态分布。

音符转换的熵如何取决于网络结构：直观理解

为了直观理解音符转换的熵如何取决于网络结构，让我们考虑无权重无向网络的情况。如公式 (3) 所示，网络熵采用了一种特别简单的形式。对公式 (3) 在网络平均度附近进行泰勒展开（参见方法部分 A 2），我们可以得到

其中是网络的平均度，Var(k) 是度的方差。一阶上，我们看到熵随着网络平均度的增加呈对数增长。二阶上，熵随着度的方差或异质性而增加，因此具有异质（或更广泛）度分布的网络将产生更多信息。我们将度异质性定义为

我们在日常生活中遇到的许多网络的特点是度分布不均匀，通常只有少数高度数的“枢纽”节点和许多低度数的节点 [58-60]。相比之下，度数均匀的正则图产生的随机游走的熵最小 [参见图 3(c)]。

那么，巴赫的音乐在这一谱系中处于什么位置呢？我们在图 4(a) 中发现，所分析的音乐网络的熵始终高于具有相同节点数和边数的空网络（换句话说，具有相同平均度的随机网络）。在补充材料 [57] 中，我们表明，巴赫音乐网络的这种更高的信息含量是由于其入度和出度分布的更高异质性造成的；也就是说，与同等规模的转换结构相比，音乐网络的度数更加异质，这使得它们能够在结构中包含更多信息。由于我们的分析集中在音符之间的一阶顺序关系上，而这种关系在不同类型的音乐中很可能很常见，因此我们预计这一结果也适用于其他类型的音乐。

在图 4(a) 中，我们还观察到，属于某些作曲形式的各种作品在其熵值上聚集在一起。与之相符，我们发现熵值相近的作品往往具有非常相似的度数（参见补充材料 [57]）。例子包括英国组曲、法国组曲和众赞歌。相比之下，赋格曲在熵值上的聚集程度不如其他类型的作品，并且表现出不同的平均度数。对于那些在熵值上聚集在一起的作品，我们发现，作品之间观察到的差异可以用其度异质性来解释（参见补充材料 [57]）。例如，我们可以在众赞歌中看到这种关系，其中入度和出度异质性较高的作品往往具有较高的熵，尽管它们的度数相似 [图 4(c)]。为了定量验证这种关系，我们在图 4(c) 中计算了网络熵与入度和出度异质性之间的 Spearman 系数。该系数评估两个数据集之间的单调性，范围从 -1 到 1，其中 0 表示不相关。如图所示，正相关关系表明熵值往往随着入度和出度异质性的增加而增加。有关此相关性和 p 值计算的更多细节，请参阅方法部分 A 7。最后，我们注意到，即使在我们有向网络的数据集中，熵和度异质性之间也存在这种正单调关系，这可能是因为入度和出度往往是相关的。

IV. 人类如何感知信息网络

人类交流的关键在于接收和理解相互关联的信息。这些信息多种多样，包括语言文学中的词语序列、乐曲中的旋律音符，甚至抽象概念。如图 5(a) 所示，人类吸收这些信息，并在脑海中构建出信息之间潜在关系的结构表示。如前所述，人类利用并不完美的认知工具构建这些内部网络模型，因此会略微扭曲真实的信息结构。因此，人类感知到的信息包含两部分：系统中真实存在的信息，以及由不完美的认知过程带来的偏差 [21]。在上一节中，我们重点关注量化系统中存在的实际信息（见图 3）。接下来，我们将着重讨论第二部分内容，即由不完美的认知过程带来的偏差（见图 5）。

为了理解人类如何学习和表示转换结构，研究人员进行了一系列实验，并提出多种模型来描述人类如何在内部构建转换网络 [35,36,49,61–63]。这些研究和模型都强调了一个共同原则：人类倾向于整合不同时间跨度上的转换概率，将相邻的信息以及间隔较远的信息联系起来，间隔越远，这种联系就越弱 [21,36,62,64]。我们可以用数学公式来表示这种时间整合，将推断的转换结构表示为真实转换结构的函数：

图 5. 人类如何处理信息网络。(a) 人类交流的一个关键方面是对信息网络的两种视角：接收和理解以相互关联的刺激形式出现的信息。人类通过不完善的感知系统吸收呈现给他们的信息模式，这会导致对底层转换结构的内部模型略有不准确。(b) 在形成世界的内部网络模型时，人类会在准确性和复杂性之间取得平衡。参数量化了准确性和成本之间的这种权衡。在图 (i) 中，我们看到了示例网络，我们知道）我们在最大化准确性 () 时，形成了对现实的完美表示。然而，构建这个网络需要完美的记忆力，而且计算成本很高。在图 (iii) 中，我们看到了仅在最小化计算成本 () 时构建的网络，其中所有节点都连接到所有其他节点，这与原始网络不同。构建这个网络不需要很大的成本，但它在表示原始信息方面没有提供任何准确性。人类倾向于显示 [21] 的中间值，从而构建保留了 *一些* 但不是所有真实转换结构的网络，如图 (ii) 所示。该图经许可改编自参考文献 [51]。

其中，是的递减函数，这意味着距离越远，对个人网络表示的贡献越小。这种模糊的时间整合降低了计算成本，并能更好地概括新信息，但代价是牺牲了一定的准确性。我们重点关注其中一种模型 [21,35]，它能够捕捉这种时间整合和感知的不准确性。该模型假设，人类在构建信息的内部网络表示时，会力求在最大限度提高表示准确性的同时，最小化构建成本 [21,35,51,65]。由此，学习到的转换概率 () 可以用真实的转换概率 () 表示为：

其中，表示表示中的错误。该表达式的详细推导见方法部分 A 3。

为了更好地理解这个模型，咱们可以先看看在两种极端情况下的表现。当时，推断出的网络与真实网络完全相同（）。这种情况指的是网络学习过程中没有任何错误，形成了对音符转换的精确表示[图5(b)(i)]。但是呢，要做到完全精确地学习网络，计算量会非常大，因为这需要超强的记忆力。相反，当时，推断出的网络将每个节点连接到其他所有节点，所有的结构都丢失了[图5(b)(iii)]。这种表示学习起来很有效，但完全忽略了准确性。实际上，大多数人都是处于这两种极端情况之间，他们对音符转换序列的记忆时准时不准，所以最终对整个网络的感知是模糊的[图5(b)(ii)]。形式上，计算复杂性和准确性之间的竞争可以用人们内部表征的自由能理论来捕捉[35]，用公式(7)就能根据真实网络来表示模型推断出的网络。值得一提的是，很多不同的认知理论中都有类似的形式[34,49,50]。通过把推断出的转换结构和真实网络结构联系起来，这个框架可以帮助我们探索人类如何从网络中感知信息。由于我们对音乐领域这类问题很感兴趣，我们用这个模型计算了每首曲子的推断网络。我们强调，一些关于音乐期望的实验研究强调，统计学习和其他因素一起，在音乐期望和知识获取中扮演着至关重要的角色[12,66–70]。

接下来，我们说的“推断网络”都是指用前面提到的感知模型计算出来的网络。之前的研究发现，一般来说，人们在大型在线实验中值大概是 0.80 [21]。给定一个音符转换网络，它的转换概率是(P)，我们用这个值和公式 (7) 就能算出推断网络 ()。在音乐中，我们需要知道，推断出的结构自然会有所不同，这可能跟个人的训练水平或者文化背景有关[41–44]。不过，这个框架还是提供了一些很有意思的思路，让我们了解到什么样的结构能够更准确地传递信息，同时也考虑到了人类感知系统的局限性。在第七节中，我们会讨论未来的研究如何拓展我们的研究，以及如何改进对音乐中信息感知的研究。

-往期「音乐探索」-

音色为核心的创作理念，多元视角及其在Rebecca Saunders音乐创作中的模糊性

寂静之声可有一观？探讨 Rebecca Saunders 的作品中的声音空间与声音剧情布局