点击上方“音乐探索”可关注我们!
基金项目:
2022 年北京市教育委员会科技计划一般项目“辅助机器学习技术在交互式电子音乐创作中的应用研究”
(KM202210046001)。
马仕骅(1989— ),男,博士,中国音乐学院作曲系讲师。
摘 要:交互式电子音乐是艺术与科技相结合的产物,演出方式富有灵活性,是21世纪电子音乐发展的主要方向之一。目前,其对于跨学科实践经验的较高需求以及创作、展演过程中体现出的问题都亟待解决。通过使用机器学习技术,形成人机共创系统,可能为其提供有效的解决方案。分析三部使用机器学习技术的交互式电子音乐作品,解析其中的机器学习技术的运用方式以及技术与作品表现之间的关系,总结机器学习技术在交互式电子音乐中的三方面应用价值:其一,提升参数映射步骤的工作效率;其二,改变当前艺术创作活动中的代理关系;其三,增强艺术作品的包容性与公共性。
关键词:交互;电子音乐;机器学习
文章刊登于《音乐探索》2023年第3期,第122~135页。
一、交互式电子音乐的背景
交互式电子音乐的发展受到技术革新的驱动,至今仍有新的表现形式产生,因此对于这一处于变化中的音乐体裁,学术研究领域还未产生在世界范围内得到公认的、权威的定义。顾名思义,交互式电子音乐融合了电子音乐与交互行为,电子音乐的诞生与繁荣是其存在的先决条件。20世纪上半叶,电子音乐诞生初期,磁带与电子合成器是艺术实践的主要工具,作品以录制在唱片或磁带上的固定形式存在,将创作的结果通过扬声器扩声系统进行回放是早期电子音乐的主要演出形式。虽然回放式的演出能够较为精确地还原作曲家的设计意图,在世界范围内也被众多作曲家广泛接纳,但是在多次回放演出后,其缺乏灵活性的弊端也随之显现。20世纪后半叶,伴随着电子音乐相关的科学技术、创作理念的高速发展,一些实时控制手段开始出现在电子音乐表演当中,为电子音乐的现场效果带来了更多的灵活性。
在以计算机技术为代表的数字技术成为电子音乐创作的主要工具后,借助各类控制界面来与计算机软件程序互动,影响由其播放、生成或调制的声音,逐渐成为创作交互式电子音乐的普遍方式,并沿用至今。对于交互式电子音乐较为典型的表现特征,美国布朗大学教授托德· 温克勒(Todd Winkler)曾在其1998年出版的著作《创作互动音乐:使用Max的技巧与理念》(Composing Interactive Music:Techniques and Ideas Using Max)中进行了总结:“交互式音乐在这里被定义为一种音乐创作或即兴表演,其中的软件用于解读现场表演,以影响由计算机生成或调制的音乐。通常情况下,这涉及一个表演者和一件乐器,而计算机创造出的音乐某种程度上是由表演塑造形成的音乐。”[1]
以上总结适用于大部分产生于21世纪之前的交互式电子音乐,至今仍可被视为是对该类艺术实践的一个广义的定义。如今,随着新技术的不断加入,与计算机音乐程序进行互动的对象不仅局限于表演者或乐器,任何可以产生数据的对象,都能加入演出当中。例如通过网络实时收集数据的程序或设备,甚至加入了人工智能技术、能够自主做出选择程序等,这些对象的加入为交互式电子音乐带来了新的样态。四川音乐学院陆敏捷教授在其2021年出版的著作《交互式电子音乐概论》中,将现阶段的交互式电子音乐定义为:“(交互式电子音乐是)以计算机和数字技术为核心的新媒介系统,在现场表演/作品呈现的过程中实时生成或配置新的声音材料,使新媒介系统的输人行为与输出音乐(声音)内容之间表现出‘交互’特征的新媒介艺术形态。”[2]笔者认为这种以“新媒介系统”定义交互式电子音乐的方式,能够最大限度地兼容现阶段该类艺术实践的各类表现形式,且准确提炼了不同形式之间的共性,具有很强的学术参考价值。笔者后文中所提及的所有交互式电子音乐作品,也处于该定义制定的范畴之内。
本文的研究目的在于提炼机器学习在当前的交互式电子音乐创作中的应用价值。这一技术目前主要作用于表演者的手势与程序产生的内容之间的联结,因此,人与程序的互联是研究的重点。根据此原则,本文的研究所针对的交互式电子音乐作品,应包含以下特点:
第一,以各类传感器、控制器硬件作为数据采集工具;
第二,将表演者的手势、肢体动作等姿态变化要素转换为数据,用于声音的实时调制和组织。
此类交互式电子音乐作品,大都配有专门为其设计的交互系统,这些系统就像不同形制的乐器,有着不同的音色与各异的表演方式,由表演者操控,以“人机互动”的形式进行呈现。
1.较多的跨学科实践经验需求
交互式电子音乐的创作需要跨学科知识体系的加持。对于音乐创作者而言,专业的计算机编程绝非易事,因此,早在20世纪70年代,以皮埃尔·布列兹为首的法国声音与音乐研究中心(IRCAM)就制定了作曲家与计算机工程师合作的模式。同时,IRCAM也长期致力于开发更适合作曲家使用的编程环境,其中较为典型的有Open Music与Max,这两款图形化编程环境一定程度上降低了计算机音乐编程难度,为作曲家独立创作计算机音乐创造了条件。近40年来,随着众多作曲家的实践验证和计算机音乐编程教育的产生,交互式电子音乐创作得到了一定的推广,但该类创作实践的难度还是有目共睹的,对其进一步的普及造成了阻碍。音乐创作与计算机编程分别属于不同的学科,从具体内容到思维方式都存在巨大差异,由于两种技能都需要耗费数年去进行系统学习方能掌握,因此极少有人能够全面驾驭和融合这两个领域的知识。在接下来的发展道路上,进一步降低创作工具的使用门槛是交互式电子音乐亟待解决的问题。
2.烦琐的参数映射工作
计算机程序不似演奏家一般能够对乐谱进行自主解读与呈现,它的一举一动都需要人类的设定,稍有不符合编程语法的情况出现,计算机程序便会报错。因此,在交互界面程序设计中,程序一切反馈与行动模式,都需要作曲家需要在编写程序时预先进行设计。不仅如此,对于外部输入数据与受控参数之间的关系,作曲家都需要使用数据映射(mapping)的方式来进行管理,以保证电子声音的即兴表现能够在可控范围内进行。映射是设计交互系统时需要投入人工较多的工序。假设作曲家在设计一首作品时想用手部的空间位置坐标去控制声音合成器的控制参数,那么基于音乐的结构,手部空间位置在音乐的每一段中所选取对应的合成器控制参数是可以不同的(图1),由此才能够形成段落间的声音对比。类似功能的实现需要进行一系列的参数对接,对接的过程即是映射。作品中包含的受控对象越多,映射工作就越加烦琐。这种依靠人工编程的工作方式,使得创作此类作品的效率难以得到提升。
图1 手部空间位置坐标与
声音合成器控制参数映射示意
3.“人机互动”的单向实质
从当代艺术分类的宏观视角来看,交互式电子音乐是交互艺术中的一个分支。交互艺术中的交互行为可被描述为“通常以使用计算机、各类接口和传感器为特征,以对运动、热量、气象变化或其他类型的输入做出反应,这些输入是创作者编写的”[3]。大多数此类艺术作品中的交互仅建立在受控对象对控制对象的行为反馈上,受控对象不会视情况进行自主行动,只会在接受控制信号后做出预先编写的反馈。从词义上看,“交互”应建立在主体之间的双向反馈之上,而在目前常见的交互系统设计中,计算机程序显然不具备成为主体的能力,距离真正意义的交互有一定差距。
英国人类学家阿尔弗雷德·盖尔(Alfred Gell)曾在其著作《艺术与代理》(Art and Agency)[4]中将艺术视为一种行动的系统,并将代理权归于能够“改变事物状态”的人和物。对盖尔来说,代理权在本质上是社会性的,行动只能在社会方面进行概念化。他区分了主要代理(即有意图的人)和次级代理(物体、艺术作品等)。然而,这样的区分并不意味着物质代理的重要性低于意向性代理。由于人类需要借助物质来表达意图,因此,在行使代理权的过程中,物质和意图同样重要。盖尔的理论肯定了作为工具的物质在艺术活动中的地位,对于交互艺术中的工具开发产生了启示:如果计算机具备了产生意图的能力,将从本质上改变传统的艺术活动形态,实现真正意义上的人机交互。
二、机器学习
与交互式电子音乐创作
机器学习(Machine Learning)是一个致力于构建“让机器懂得学习的方法”的技术领域,换言之,该技术旨在利用数据来提升计算机在执行某些任务时的效率[5]。机器学习算法基于使用样本数据(也被称为训练数据)建立的模型,以便在没有明确编程的情况下做出预测或决策。机器学习算法已被运用到各类实际应用场景当中,例如电子邮件过滤、语音识别、计算机视觉识别等。机器学习与计算统计学密切相关。计算统计学侧重于使用计算机进行预测,但并非所有机器学习都是统计学习,例如,数据挖掘技术是机器学习的一个分支领域,侧重于通过无监督学习进行探索性数据分析,另一个分支领域——神经网络技术,则是利用机器学习实现一种模仿生物大脑工作的方式。
在艺术领域,机器学习的应用研究目标多为自动化和自主创造系统的开发,关注的是对人类艺术创造力的模拟,目的是产生可与人类艺术作品相媲美的生成制品。在音乐创作领域,机器学习技术从20世纪80年代开始运用,目的在于创造基于音乐风格模仿的自动作曲系统。早期的音乐风格模仿多采用结构化学习方式,采用MIDI缩减乐谱或其他抽象描述符作为数据集对程序进行训练,对于结构和写作技法非常规整的作品,该方法能够生成与作曲家风格高度近似的结果,对于结构和技法较为自由的近现代作品则较难取得令人满意的效果。目前,深度学习技术已允许在音乐风格模仿使用结构化数据,即通过音频文件作为数据集进行训练,但直面声音数据的训练方式,使其在音乐风格的适应性上更为广泛,例如在管弦乐创作上,该方法对于对频谱主义等偏向挖掘声音潜力的风格有着较好的适应性。以上两种方法都是为了“替代人工”的目的而开发的,在实际应用中,尤其是需要批量生产音乐产品的场景中具有很强的应用潜力。但是,由于依赖于现存的数据集,此类方法适合在已有音乐风格与技法的基础上进行生成,缺乏创新潜力。此外,由于其学习与生成过程是封闭的,用户无法对其施加影响,所以该类方法几乎将人为要素从音乐创作中消除了,音乐家无法借助此方法来形成个人的艺术表达。
交互式电子音乐是追求创新、力求拓展艺术边界的实践形式,类似风格模仿的封闭式机器学习显然是不适用于它的。但是,在创作过程的部分环节中使用机器学习技术,在人类主导创作的前提下加入程序自主的辅助行为,对于艺术表现的拓展与创作效率的提升,都将是有益的尝试。例如,笔者在本文第3部分中所分析的3部作品,与同类作品相比都带来了新的艺术呈现效果,其设计理念也均有不寻常之处。其中,11 Degrees of Dependence没有设置独立的交互手势,它的交互动作基于演奏器乐时的演员姿势变化与手指运动带来的肌肉状态变化;Corpus Nil演员的身体几乎静止,使用非常细微的动作幅度来控制视听内容的变化;Delearning则采用了完全现场即兴的创作方式,呈现内容源自表演者与计算机程序之间的相互理解。如果完全使用传统编程方式来实现这些作品的设计,不仅难度极高,工作量也十分庞大,而机器学习技术的加入恰好解决了作品的创意需求,并提升了创作效率。
参数映射是交互式电子音乐设计时需要耗费人工较多的环节,对此情况,机器学习可提供改良方案。多元线性回归是此类情景下较为适用的算法,它可以在手势特征和声音合成参数之间定义复杂、连续的映射函数。当前,使用该类算法的较为典型的工具是Wekinator,它是专用于交互艺术的机器学习软件平台,能够通过开发式声音控制协议(OSC)与其他编程环境。如图2所示,独立的手势识别程序Handpose OSC可与Wekinator建立通信,共同服务于交互系统的搭建。
图2 Handpose OSC与Wekinator协同实现声音与手势映射
图3 用于手势与声音参数映射的人工神经网络训练流程示意
图4 11 Degrees of Dependence演出现场[6]
类似Wekinator的机器学习平台的优势在于采用了通用化的通信协议,适用性强,用户可以将其与自己使用的编程环境结合起来使用。在创作应用当中,使用该类平台进行声音与动作映射的步骤可被归纳3个。
1.训练集形成
在进行该步骤前,创作者应完成声音合成与调制程序的搭建,并将作为控制数据输入的传感器或控制器数据引入到程序当中,完成交互系统的输出与输出端搭建,并将所有需要参与映射的参数进行梳理。之后,由程序代理,将各参数整合到数据集当中。此时,训练集中的各个参数被整合到线性回归算法当中,其中的控制参数作为自变量,被控制参数作为因变量,程序内的人工神经网络(ANN)将运用这些数据建立一个统计模型,为训练工作做好准备。
2.演奏实验
在该步骤当中,创作者需要模拟表演时的情景,使用手势对程序发出的声音进行控制。在此过程中,神经网络会在不同的自变量与因变量间自动创建配对,之后由作者进行演奏实验,测试手势运行轨迹、速度、幅度与声音表现之间的关系。虽然在神经网络的支持下,参数映射是自动形成的,但是由于音乐进行过程中,各个段落要使用的发声模块(采样器、效果器、合成器等)组合不同,且模块组合仍需要作者指定,因此,在这个实验过程中,作者仍可以对程序进行人工干预,以保证音乐的结构设计符合作者的意愿。
3.评估与保存
当映射形成后,作者需要对其结果进行评估(可用或不可用),其中被采用的结果将被作为“用户偏好”选项反馈给神经网络,为程序在接下来的映射搭建中提供参考。同时,对于可用选项,用户可以将其存储在程序中,使这些适用的映射结果在作品的实际演出中可以被调用。对于不可用选项,程序会将其删除,并为用户提供新的映射方案,也就是回到先前的演奏实验步骤,再由用户进行评估。
此类方法属于典型的有监督学习,保证了创作者的决策权,同时也实现了映射工序的半自动化。即使用户不具备专业的计算机编程与机器学习相关知识,也能够使用该类工具完成交互系统的设计。
使用机器学习技术接管参数映射工作的前提,是通过人工神经网络,将声音与动作参数整合成为一个由数据构成的空间。用户通过回归算法在空间内进行探索的同时,也在探索声音表现上的可能性。每位创作者都存在既定思维模式,如果以人工方式进行映射,某些组合很可能会被认为是不适用的,创作者在听到声音前就会提前否认这些组合,构成了参数空间中的死角。而机器学习的介入,则能够全面地探索空间中的所有区域,有可能为创作者带来意外的结果,创造新的艺术表现。除了打破创作习惯外,创作者与程序的共同探索也可以成为反思艺术实践和审美立场的工具。
机器学习参与创作,不仅能够将创作者从低效率的人工操作中解放出来,同时也让交互艺术创作过程中的代理权分布发生了局部变化:计算机不仅是人类用于实现意图表达的工具,机器学习赋予的微量主观能动性,使其成为拓展人类艺术实践能力的助手。因此,机器学习的加持,使得如今的交互系统设计从人机互动状态进化到了人机共创新局面。近年来,已有一些交互式电子音乐作品在创作过程中使用了机器学习技术,人机共创的形式在这些作品中均得到了不同程度的体现。
三、基于人机共创系统
的作品案例分析
1.作品设计概览
这是一首为萨克斯管(中音)、电吉他与可穿戴传感器创作的作品,作者是费德里科·格里·维希(Federico Ghelli Visi)[7]。该作品探讨了表演者和他们的乐器之间的关系,关注点是乐器演奏的惯用姿态对身体运动的限制,旨在挖掘演奏者在演奏动作之外能产生的姿态与其表现潜力。为了完成这个设计,作者特意安排两位演奏者在表演乐器的同时,运用肢体去完成对电子声音的触发和控制。
作者使用了MYO腕带(图5)作为传感器,该设备通过侦测手臂活动时肌肉产生的生物电信号变化来实现对手势的捕捉。相比于基于空间位置侦测的传感器,基于生理感应的设备能够捕捉到更加细微的动作变化。另外,它所提供的参数维度也更多,在与控制参数较多的合成器进行映射控制时,能够组成维度更广的参数空间,供作曲家选择。
图5 MYO腕带
2.机器学习技术运用分析
在这首作品当中,作者利用机器学习技术将演奏者的动作与基于物理建模技术的合成声音进行连续映射。萨克斯管乐手和吉他手各自戴两个MYO腕带,其中萨克斯管乐手的腕带用于控制物理建模合成器程序(用于合成长笛音色),吉他乐手的腕带则用于控制放置在吉他柄上的电声共鸣器。由于演奏者的双手都要用来控制乐器,作者转而采用演奏者的身体姿态来控制合成器。就萨克斯管乐手而言,其主要控制姿态为以下4 种:
(1)默认的演奏姿势(命名为“休息”),双臂舒适地放在胸侧;
(2)轻轻向后靠,抬起萨克斯管,肘部微微张开(名为“开放”);
(3)向左倾斜,右肘略微向外(名为“左”);
(4)向右倾斜,左手肘略微向外(名为 “右”)。
以上几种姿态也被记写在乐谱当中。如图6所示,乐谱采用了传统的记谱法和一些自定义符号(每行乐谱下方),用于记述姿态变化。图形符号用于表示在对应时间点上应该达到的姿态,红线显示了不同姿势之间的过渡。这些线条类似于传统音乐符号中常见的其他线条,两个符号之间的直线意味着表演者从第一个符号所代表的姿态开始,逐渐向第二个符号所代表的姿态移动。姿态之间的过渡所产生的动作应该在与第二个符号对应的地方结束。
图6 乐谱中的姿态标记示意
图7 用于MYO 信号读取与动作映射Max程序界面
由于这些动作需要全身的多处关节与肌肉配合,因此,采用手动作业显然会将映射过程变得极为烦琐,因此,参数映射是通过监督学习完成的。内置在腕带中的磁强计的横向(音高)和纵向(滚动)轴的数据被用来作为训练机器学习模型的输入。在训练阶段,每个姿势都与一组物理建模的合成参数相配合,用于生成不同类型的长笛音色。其中,“休息”姿态与具有清晰基频的单音吹奏声相匹配的,“开放”姿态与呼吸噪声对应,“左”姿态将触发泛音,“右”姿势则触发弹吐音。该建模合成器所产生的参数是连续的,因此各个动作触发的声音也是连续变化的,在实际演出时可与萨克斯的声音相融合,产生不同寻常的混合音色。长笛模型演奏的音高是C1,这也是该作品的调性。输入物理模型的模拟吹奏力度是由识别肌肉表面电压变化生成的肌电图(EMG)控制的,该数值对应演奏者前臂肌肉运动的状态,当萨克斯演奏者的手指按动不同组合的按键时,手指牵动的前臂肌肉动态将触发不同力度的长笛声。电吉他与电声共鸣器之间的关系也基于同理。通过此方式,真实乐器与合成器的发声节奏、力度能够被联系起来。
3.机器学习技术对作品表现的影响
作者所设定的立意使得“记录表演者姿态”在这首作品中成为必须要使用的元素。在同类作品中,手势是用于控制电子合成器的常用选项,无论是基于空间坐标还是角度,手势能够产生足够的运动幅度与明确的轨迹来为计算机程序提供数据。而身体姿态的情况更为复杂,它涉及多处肌肉的状态,不具有明确变化轨迹,因此,使用机器学习技术,通过训练来让程序识别各个姿态,并将其与对应的声音进行映射,是更为可行的方案,保障了创意的实施。
此外,作品中包含有真实乐器与电子合成器,两种声音的结合方式需要合理的设计。在这部作品中,作者把基于物理建模合成的长笛音色与萨克斯管的声音集合,并为电吉他施加额外的电子效果,将电子声设计成了真实乐器的延伸,以混合音色的状态表现。这需要乐器声与电声能够以相同的频谱与幅度进行演奏,才能保证二者完美贴合。设计为演奏增加的半自动的映射,比如将萨克斯管的按键动作与物理建模合成器中的吹奏力度结合起来,使真实的声音和电子声能够更加紧密地结合在一起,这是机器学习为这部作品带来的另一层助力。
1.作品设计概览
这是一部将舞蹈与现场音乐相结合的剧场作品,由马可·多纳鲁马(Marco Donnarumma)[8]创作并亲自表演(图8)。在时长20 分钟的表演过程中,作者在电子声音、人的身体之间构建激烈的、仪式性的互动。作品中的舞蹈元素十分反传统,表演者几乎是以静态的方式匍匐在舞台上进行表演的,通过控制身体各部分的肌肉做微弱的变形形成动作,这些变形会通过传感器的捕捉,在声音的维度里得到扩大。结合线性回归算法的分析和学习,软件中的声音合成算法能够对演奏者的动作作出敏锐的反应。声音的表现又为表演者提供了反馈,指导表演者调整动作与编排方式,从而与乐器建立一种连续的、适应性的对话关系。这部作品因此抛弃了表演者对乐器的完全控制,转而采用两者之间不稳定的肉体接触。结合作品中的声光变化,表演者的身体与“乐器”似乎在概念上都发生异化,塑造出一个全新的生命形态。
图8 Corpus Nil演出现场[9]
2.机器学习技术运用分析
作者在表演时佩戴了两种生物信号传感器,其中,接触式麦克风负责捕捉来自肌肉和内部器官的声音,肌电图传感器(EMG)则负责将肌肉因形变产生的电压变化转换成数据,传输到基于机器学习技术的定制软件中。该软件是作者与来自法国IRCAM、英国伦敦大学金匠学院(Goldsmith)的专家合作开发的,由一组算法相互连接,形成一个递归网络。这些算法有不同的任务,如生物信号分析、运动细微差别的学习(通过线性回归和统计算法)和声音再合成。其中,每一组算法会从表演者的身体中提取一组代表运动特征的数据,这些数据不代表运动本身,因为它不表示运动的轨迹和形状,它表示肌肉的力量、收缩的突然性和肌肉的阻尼等运动时身体产生的特征性变化。这些特征说明了动作的运行特点,以及动作之间的衔接方式。
在数据的处理和运用方面,设计者采用了基于机器学习的算法——姿态变化跟随(GVF),适用于实时跟踪连续运动变化。为了让不同的艺术家能够使用该系统,设计者为这套系统添加了快速校准功能。软件会在表演过程中,生成对表演者身体产生的所有声音的振幅和频率的描述(区间为1Hz~40Hz),以及这些数据随时间变化的曲线,用于控制声音程序。软件的声音程序主要由一套包含20个数字振荡器的信号合成网络构成。由于舞蹈演出动作本身也是对程序的训练,现场编排动作时就需要控制身体,做出缓慢、细腻且重复的身体动作,产生的声音也是缓慢、带有递进变化的。在作品进行到高潮段落时,因程序已经过了较长时间的学习,身体动作与声音的变化已达成了深度的、全面的映射关系,此时表演者可使用较大幅度和较高变化频率的动作,带动声音发生激烈的变化,配合由声音驱动的舞台灯光,形成极具张力的演出效果。
3.机器学习技术对作品表现的影响
(1)“人机装置”的形成
作者马可·多纳鲁马具有舞蹈和电子音乐的跨领域创作经验,他在个人创作实践中一直致力于将人体与电子媒介相结合。作者曾在他的论文中表示:“通过这些方法和工具,表演者身体的物理和生理特性与电子乐器的材料交错在一起,产生不同程度的互相影响。这样的作品被其命名为‘人机装置’:音乐表达产生于人体、程序化的音乐理念、声音之间的紧密协调,而且协调的过程与结果经常是不可完全预测的。”[10]Corpus Nil的产生即是源于此理念。这部作品中并未使用传统意义上的舞蹈动作,而是采用了小幅度的人体姿态变化,这样的控制行为缺乏明显的运动轨迹特征,很难用人工的方式去和声音程序映射。如果使用机器学习的方式去做自动化映射,程序就能够深度提取人体状态变化的特征,为其动作与声音创造紧密的结合。因此,机器学习技术是促成“人机装置”设计理念落地成型的关键。
(2)对身体包容性
在创作这部作品之前,作者在舞蹈与音乐结合的领域已有多年的创作经验。在此过程中,他逐渐意识到了该类艺术存在的生理条件壁垒。他表示:“我清楚地意识到,在姿态音乐的表演中所表现出来的那种身体,大多数时候是一个严重标准化的身体,是一个符合特定标准的正常身体。这促使我研究如何利用姿态音乐表演和人机交互的元素——与运动和美学研究相结合。结合运动和审美的研究,创造一种不同的表演实践,一种将人体作为一个不断变化的、具有多种潜能和不同体现形式的流动实体的实践,而不是像我们的社会制度所确立的那样,是一个静态的、受控的和控制的主体。”[11]由此可见,Corpus Nil也是作者对于艺术实践公平化追求的体验,作品中所使用的反传统的舞蹈动作,正是对身体障碍群体参与舞台演出,形成艺术表达的一种探索。机器学习技术所包含的神经网络与回归算法,赋予这套系统很强的包容性,它不仅可以允许作者以外的艺术家使用,还可以为不具有舞蹈表演经验或身体存在障碍的用户带来体会舞台艺术表演的机会。
Delearning 是由田中能[12]创作的一首交互式电子音乐作品。这部作品的材料来自于作者为室内管弦乐队创作的作品DSCP所制作的,用于机器学习程序训练的人声语料库,通过神经网络与回归算法映射手势的输入,实现灵活的现场交互效果。
1.作品设计概览
作品Delearning是典型的使用手势表演的交互式电子音乐,采用数字合成器作为声源,由多个手势参数控制合成器完成现场演出。
作者在交互音乐设计方面具有资深经验,在设计这首作品时,他引入机器学习技术,将计算机变转为共同创作的成员。为了突出机器学习所带来的“智能”,他将这首作品设定为现场创作的即兴式电子音乐。作者对程序的一部分训练是在演出现场进行的,由当前段落状态决定下一段落的走向,通过持续积累完成整首作品。基于这种特性,这首作品在每次演出时都会呈现不同的声音,展现了机器学习技术介入所产生的灵活性。
2.机器学习技术运用分析
MYO腕带所能够提供的参数主要来自其通过生物电检测形成的肌电图(EMG)与检测手臂运动的惯性测量单元(IMU)。手势参数维度共计19个,全部取自右前臂,包括IMU四元数(4个维度)、角速度(4个维度),经过贝叶斯滤波处理的前臂周长(8个通道),水平和垂直方向上的肌肉张力(2个维度)。
这首作品采用了声音粒子合成技术,将一段室内管弦乐队的录音(取自作者本人的作品DSCP)作为源音频文件。作者选用这部作品是因为它包含了多种多样的音色和动态,同时在时间上是连贯的。在演出之前,作者会使用程序对音频文件进行分析,以生成音频描述符,并通过瞬态发作检测将其分割成粒子。在实际操作过程中,这段18分钟的音频文件被分割成21000段合成粒子,平均每个粒子的长度为50毫秒、从作者提供的参数列表(图9)可以看到19个维度的参数,这些参数具体包含有粒子持续时间(Duration,1个维度),频率平均值(Frequency,2个维度)、标准差的频率能量(Energy,2个维度);周期性(Periodicity,2个维度);自相关系数(AC1,2个维度)、响度(Loudness,2个维度);频谱中心点(Centroid,2个维度)、扩散(Spread,2个维度)、倾斜(Skewness,2个维度)、峰度(Kurtosis,2个维度)。
图9 粒子合成程序参数列表
图10 使用Max编写的程序界面
图11 Delearning演出现场[13]
在参数提取步骤完成后,手势输入参数空间通过神经网络被映射到目标音频的参数空间。该神经网络创建了一个回归算法模型,将手势的执行和声音的合成输出联系起来。表演者右臂上的EMG和IMU传感器为神经网络提供19个维度的手势参数,而左臂的EMG传感器则负责调节合成器的整体振幅,IMU的四元数在创作的不同点上调制粒子构成、滤波器参数和空间化效果。
这首作品的机器学习训练是在演出现场进行的。在初始状态,回归算法模型中不包含任何内容,程序会播放一个声音粒子,演奏者需要在听到后编排一个与之相符合的手势,并将其作为训练数据记录到神经网络中。神经网络在经过训练,会进入测试模式,表演者需要通过流畅、动态的手势探索参数空间,回归算法模型通过比对训练数据,向合成器报告一组音频描述符。此时,合成器程序会应用近邻算法,在粒子库选取符合要求的音频片段,将其播放出来。此时,表演者需要再次根据该声音做出适合的手势,神经网络也将被重置回到训练模式,重复之前进行过的步骤。整首作品在五次迭代的基础上形成,在此过程中,回归算法模型被不断拓展,创造出音乐的结构,手势与手音乐参数之间的映射逐渐变得更加丰富和密集,与此同时发展的是愈加丰富的声音层次。
3.机器学习技术对作品表现的影响
(1)控制手势的意义革新
Delearning包含了由19个输入维度、19个输出维度构成的庞大参数空间,现场进行的程序训练就像在空间中进行探索,每次演出都有可能走出不同的路线,演奏出不同的声音。作品的交互手势,不再是单纯的指挥信号,而是成为了表演者与计算机一同商讨作品下一步发展方向的交流手段。革新了手势在交互式电子音乐中的意义,实现了真正的人机共同创作。
(2)基于天性的即兴创作
在Delearning的现场训练过程中,程序会先为表演者播放声音,表演者基于自己对该声音的理解提供手势,成为训练集的输入数据,塑造之后连续进行的音乐内容。这样的互动形式,基于表演者对声音的个人体验,而其后产生的声音内容,也将带有表演者的个人色彩。在传统的电子音乐表演活动中,只有经过长时间学习与实践的专业创作者,才能在现场创作出具有个人特色的音乐作品。而Delearning所呈现的即兴创作形式,有潜力为更多受众提供个人化的声音创作的体验,它仅需要表演者供自己对声音自发的、基于天性的理解,并用手势在演示与控制步骤中表达出来,以此简单方式,便能呈现出个性化的声音。因此,这部作品所提供的运用机器学习的形式,有可能为未来的电子音乐创作提供一个更加具有包容性的方向。
四、机器学习技术
在交互式电子音乐创作中的
应用价值总结
在上一章中,本文对三部较为典型地运用了机器学习技术的交互式电子音乐作品进行了分析。从三部作品在整体构思、创作、舞台表现三个环节中对机器学习技术的应用,可以看到该技术对于作品的深入影响,并发现其应用价值。本章将结合前文的分析结果,将机器学习技术在交互式电子音乐作品中的应用价值进行总结。
三部作品的表现形式虽然有所不同,但“姿态与电子声的映射”都得到了明确的体现。在11 Degrees of Dependence与Corpus Nil当中,作者没有采用明确的手势作为控制动作,使用的都是相对小幅度的全身动作,产生的参数维度数量会比传统的手势参数要多得多,如果以手动方式将其与声音参数进行映射,工作量会非常巨大,其复杂程度会导致项目几乎无法完成。但是在机器学习技术的帮助下,两部作品的作者都通过训练的方式,实现了姿态与声音的半自动映射。
机器学习技术对映射效率的提升,是其应用价值最为直观的体现,不仅节省了手动映射的时间,同时也让传统技术环境下无法实现的多维度参数映射能够得以实施。
本文第一章曾论述过交互艺术中“人机互动”的单向实质。从代理权的角度来看,人类是主要代理,作为工具的计算机是次级代理,次级代理对象只单纯地响应主要代理发出的指令,没有自发行动能力。而随着机器学习技术的加入,如今的计算机能够让艺术生产中的代理关系发生局部的改变:工具有着突破次级代理地位的可能性。
具有学习能力的计算机,具备了自主改变艺术生产状态的能力。它们不仅可以协助创作任务,还能够拓展创作可能性的空间,打破创作者的固有实践路线,影响其艺术思维,成为创作者的合作对象。
交互式电子音乐的创作和演出是具有高度专业性的活动,其中包含的繁杂的控制细节,只有创作者本人才能熟记并顺利操作,因此,由创作者亲自演出其作品对于此类艺术而言是常见的形式。作者与作品演出的绑定虽然能够保证作品的精准呈现,但是对于作品的传播与再演绎会形成阻碍。
基于前文分析可见,配备了机器学习技术计算机程序会学习和理解表演者的动作,并将其与声音部分做相对合理化的映射。因此,该类程序具有较高的容错率,表演者可以根据自己的意愿去和计算机进行互动。在此基础上,交互式电子音乐也可采用传统器乐曲的演出方式:程序就像是乐谱,是音乐进行的抽象化记述,同一首作品可以被不同的演奏者演绎并加入自己的理解与演绎。这样的特性,增强了这种艺术作为音乐的包容性,对于其艺术潜力的进一步发掘是有积极意义的。
公共性是互动艺术的标志之一,观众能够参与并体验,对于该类艺术而言非常重要,但大多数交互式电子音乐并不具备此特性。在Corpus Nil与Delearning当中,创作者都使用了现场训练的方式来创造姿态与声音的映射,这使得不具备专业经验的人士也可以通过自己对声音的理解来训练程序,并形成自己的声音演出。这种特性为交互式电子音乐增加了公共性,有助于其体验的推广。
结 语
加入机器学习技术的交互式电子音乐,能够在保留人的控制权的前提下,让计算机参与局部的创作任务,形成“人机共创”的实践系统。在现场演出中,其灵活的反馈行为也能强化其包容性的公共性,为参与者带来更多样的体验,在未来的艺术创作中,有着一定的应用和推广价值。从本文分析的三部作品的发表时间来看,机器学习技术在作品的构思与创作环节的介入深度在随时间逐渐递增,这个趋势也反映了,机器学习与交互式电子音乐创作的结合在未来仍会继续发展,并创造出新的艺术语言。
参考文献:
[1] F.Visi.Methods and Technologies for the Analysis and Interactive Use of Body Movements in Instrumental Music Performance[D].Plymouth,UK:University of Plymouth, 2017.
[2] C.Pau.Digital Art[M].New York,USA: Thames& Hudson Inc,2003.
注释:
[1] W.Todd, Composing Interactive Music Techniques and Ideas Using Max( MIT Press, 1998), p.6.文中外文文献均为笔者自行翻译。
[2] 陆敏捷:《交互式电子音乐概论》,西南大学出版社,2021,第35页。
[3] L.Muller, E.Edmonds, M.Connel, "Living laboratories for interactive art," in CoDesign, 2(4),p.3.“Interactive art installations are generally computer-based and frequently rely on sensors, which gauge things such as temperature, motion, proximity, and other meteorological phenomena that the maker has programmed in order to elicit responses based on participant action.”
[4] Alfred Gell, Art and Agency:An Anthropological Theory(Oxford:Clarendon Press,1998).
[5] Tom Mitchell, Machine Learning (New York: McGraw Hil, 1997).“Machine learning (ML) is a field devoted to understanding and building methods that let machines "learn" - that is, methods that leverage data to improve computer performance on some set of tasks.”
[6] 本场演出电吉他演奏为作者费德里科·格里·维希本人,萨克斯演奏为安娜·加西亚·卡拉巴罗斯(Ana Garcia Caraballos)。
[7] 费德里科·格里·维希,瑞典吕勒奥科技大学皮特奥音乐学院(School of Music in Pitea, Lulea University of Technology, Sweden)讲师。
[8] 马可·多纳鲁马(Marco Donnarumma)是现居德国柏林的新媒体艺术家、表演者、舞台导演和学者。
[9] 表演者为作者本人。
[10] C.Baptiste ,D.Marco , “Artificial Intelligence in Music and Performance:A Subjective Art-Research Inquiry,”in M.Eduardo ,Handbook of Artificial Intelligence for Music (Cham, Switzerland:Springer, 2020),p.82.“Through this method, which I term human—machine configuration, musical expression arises from an intimate and, often, not fully predictable negotiation of human bodies, instruments, and programmatic musical ideas.”
[11] C.Baptiste ,D.Marco , “Artificial Intelligence in Music and Performance:A Subjective Art-Research Inquiry,” in M.Eduardo , Handbook of Artificial Intelligence for Music(Cham, Switzerland:Springer, 2020),p.79.“This triggered me to investigate how elements of gestural music performance and HCI could be exploited—in combination with research on movement and aesthetic—to create a different kind of performance practice; a practice that would account for the human body as an everchanging, fluid entity with multiple potentials and varying forms of embodiment,instead of a static, controlled and controlling subject as established by our societal regime.”
[12] 田中能,伦敦大学金匠学院(Goldsmiths, University of London)教授,研究领域集中于在交互式电子音乐中运用生理感应技术,特别是肌电图信号中的肌肉张力,以及对这种复杂的有机数据进行机器学习分析。
[13] 表演者为作者本人。