Z科技|让普通人也能当“作曲家”,浙大研究人员探索音乐艺术创作和心理治疗新方法

学术   2024-10-20 20:25   浙江  

藕舫天使Ofound  专注服务、投资浙大系创业者
  浙大人物



王子豪  浙江大学计算机科学与技术学院2021级博士生,竺可桢学院ITP创新与创业管理强化班2020级学员
现就读于浙大张克俊教授指导的NEXT Lab实验室, 研究兴趣领域为人工智能音乐生成、语音合成、音频理解、音乐治疗等. 目前第一作者发表顶会&顶刊论文3篇, 均为人工智能音乐相关, 包括实时伴奏生成SongDriver(发表于CCF-A类会议ACM MM 2022 oral )、实时情感可控歌曲改编REMAST(录用于IEEE Transaction on Affective Computing, 情感计算领域顶刊, 影响因子11.2)、音频理解中文评测基准MuChin(发表于CCF-A类会议IJCAI 2024 oral ). 第一作者在投论文2篇,共同一作/共同作者论文4篇. 第一作者申请发明专利2项,获批软著3项、商标1项、设计专利1项。曾任爱歌科技创始人&CEO, 获得“互联网+”创新创业大赛国赛银奖&省赛金奖、iCAN创新创业大赛国赛二等奖&省赛一等奖、“挑战杯”创业计划竞赛国家铜奖。曾任对牛弹琴科技联合创始人&技术总裁,担任安全负责人的算法模型通过了国家深度合成算法备案, 参与了北京市政府主办的全球数字经济大会开幕式项目歌曲制作。


AI,让音乐创作更加民主化?这是浙大博四学生王子豪的梦想。

他目前是浙江大学计算机科学与技术学院 NEXT Lab 的一名博士生,在过去五年中专注于研究 AI 音乐。

同时,自 2019 年以来王子豪一边读书一边实践,曾担任爱歌科技创始人兼 CEO、对牛弹琴科技联合创始人兼技术总裁。

在今年夏天的 2024 年全球数字经济大会上,由对牛弹琴科技的深度合成算法所创作的主题曲《数字北京欢迎您》在现场展出,展示了公司产品的落地愿景。

王子豪的创业历程开始于本科阶段。作为较早进入这一领域的开发者之一,王子豪最初在爱歌科技带队研发的初创产品叫做“爱写歌,它能将用户的清唱转化为带有编曲伴奏与混音的完整歌曲作品。

完成这一款面向专业音乐人的小众项目之后,他希望推进音乐创作的民主化,即让一个人无论是否具备音乐灵感或歌唱才能,都能用 AI 来生成音乐的方式表达心中所感。

用 AI 赋能音乐艺术创作和心理治疗

2023 年,在导师张克俊教授的指导下,王子豪与创业公司的同事、NEXT Lab 成员们提出一款名为 MuSiT 的与普通人日常用语对齐的 AI 音乐生成机制。

该机制除了用于自身模型生成外, 还可以广泛用于业界通用模型上,增强其对通俗口语描述的理解能力。

图 | 浙江大学计算机科学与技术学院博士生王子豪(来源:资料图)

MuSiT 能够显著增强 AI 对于通俗日常表达的解析能力,从而能够有效弥合用专业音乐术语训练的 AI 系统 与业余普通人在表达和认知上的鸿沟。

在个性化音乐创作领域:

这套机制可以让用户能以日常口语的形式来传达个人情感、生活体验或定制需求,进而使用 AI 创作独一无二的原创音乐。

比如,在驾车途中用户心有所感时,只需简单的表达就能让 AI 创作出符合语境的精准歌曲。

再比如,当视频创作者或游戏制作者给视频或游戏配乐时,也可以通过非专业的表达来生成匹配氛围的音乐。

而在音乐治疗和心理咨询领域:

通过理解患者的口语化通俗描述,AI 能够生成有助于情感表达和心理疏导的歌曲。

比如,患者通过描述自己的情绪状态,能让 AI 生成对应的音乐,从而帮助他们更好地表达和理解自己,进而辅助于心理治疗和情绪调节等。

总的来说,本次技术不仅在音乐艺术层面开辟了个性化创作的新路径,也在心理健康等跨学科领域展现了潜在价值。

打造能听懂业余人士心声的 AI 音乐创作模型


事实上,根据给定数据自动创作音乐的 AI 音乐模型并非新鲜事。但是,在此之前这些软件距离人们的期待还有一定的落差。

要想理解这种落差首先得从“AI 对齐说起。它指的是让 AI 理解并适应人类价值观,从而让其在执行任务时更加符合人类的期望。

比如,对于 AI 自动歌曲创作来说,人们的主要期待有:能否充分理解人类指示?能否生成满足人类听觉需求、以及符合预期结构的歌曲?

图丨问题提出和团队愿景(来源:受访者提供)

此前该领域的现状是:虽然有许多工具在某些方面已经相当不错,例如可以从文字生成音乐,以及可以从乐谱生成歌曲等。但是,依旧缺少一款能够真正理解业余人士诉求的工具。

因此,对于那些喜欢以通俗日常用语方式来描述自己思维的普通用户来说,仍然很难生成让其满意的 AI 音乐。

该团队认为导致上述局面的原因主要有两个:

首先,是因为缺乏高质量的大规模数据集,尤其是缺乏能够解析“通俗日常用语歌曲描述的数据。

其次,是因为现有的 AI 模型的训练和推理过程还不足以充分理解“通俗日常用语的词汇和句子,自然也就无法准确地生成符合人类用户想法的歌曲。

为此张克俊建议王子豪等人攻关这样一个课题:让通俗日常描述也能实现 AI 歌曲生成。即让 AI 能够充分理解非专业人士的口头描述,从而创作出符合用户要求的音乐作品。

要想实现这一目标:一是要对“通俗日常用语表达方式进行深入理解;二是要能够精准把握歌曲中的复杂结构,比如曲段构成和韵律结构。

研究中:

他们面临的第一个问题是如何解决通俗描述-音乐配对数据的稀缺问题。对于这些数据来说,它必须包含各种通俗日常描述、音乐结构、流派以及情感等信息。

他们面临的第二个问题是要解决人机对齐的问题。目前,对于使用 AI 音乐生成产品的普通用户来说,往往存在口语描述和 AI 音乐模型反馈行为无法良好匹配的问题。

图丨数据集的构建(来源:受访者提供)

为了解决数据稀缺的问题,王子豪等人创建了 Muer 音乐注释平台(MuerAP),通过实施多人、多阶段的质量保证流程,来保证数据注释的准确性和一致性。

同时,他们分别邀请一批专业音乐家标注者和业余普通人标注者,让双方针对同一首歌进行标注。

不过在标注时,让他们分别使用不同的标签集合,从而能够针对同一首歌曲获得两种不同视角的结果,借此形成一个高精度的与公众理解一致的数据集(即 Muer 音乐数据集(MuerData))

王子豪表示:“MuerData 是第一个包含中文口语化通俗描述的开源音乐数据集,涵盖音乐专业人士和业余人士两种不同视角下的口语描述(风格和情感等维度),同时也涵盖了音乐结构的各个层次,旨在为端到端模型的微调训练提供精准的数据。

相比已有的其他公开数据集,MuerData 更加适合从业余描述到歌曲的端到端模型微调,让模型能够充分理解业余人士的表达,从而可以满足大众的音乐欣赏诉求。

图丨模型的训练过程(来源:受访者提供)

而为了解决人机对齐的问题,王子豪等人提出一种单阶段通俗日常描述到歌曲生成框架,并将其命名为 MuSiT。

MuSiT 能在通俗日常描述和音乐音频听感之间进行跨模态理解,从而能在生成音乐时能与用户对齐。

据王子豪介绍,在已有的开源文本-音频对比预训练模型的训练文本中,并未出现过中文通俗日常通俗描述的词汇和短语。为此,他们基于文本-音频跨模态理解模型的通用架构,采用 MuerData 数据集来训练 ChinMu Cross-Modal Encoder。

此外,MuSiT 使用用 fine-tuned LLM 来生成 Lyrics,因此可以通过相应的口语描述,来生成带有乐句结构和押韵方案等附加信息的歌词。

而对于歌词以及额外的结构信息,王子豪等人采用交叉注意机制,来将它们作为 DiT(Diffusion Transformer)和 SiT(Scalable Interpolant Transformer)捕捉歌词和音频之间相关性的条件。

除了歌词之外,只需使用一个 DiT/SiT 模型,就能以端到端的形式生成 人声、伴奏、旋律、和声、混响 等全部音乐内容。

这样的好处在于:所生成歌曲的各个音乐内容之间,在听感上非常协调,不存在割裂感。

然后,他们将上述控制条件为输入,并使用在变分自编码器潜在空间中运行的、基于 Transformer 的扩散模型(DiT/SiT),来生成与口语描述贴合的高质量歌曲。

同时,还使用变分自编码器的 Decoder 来将歌曲内容解码为 wav 文件。

在训练上,他们先是基于私有的大规模“歌词-歌曲音频成对数据集,来针对变分自编码器进行无监督预训练、针对 DiT/SiT 做有监督预训练。

接着,他们在“通俗描述 to 歌曲的任务上,基于 MuerData 数据集,来针对 DiT/SiT 进行微调训练,以便生成贴合人类通俗描述的、结构良好的歌曲。


让普通人也能实现音乐家梦想


作为第一作者王子豪认为,正是因为有了导师的指导,以及创业公司的同事们、实验室师兄师姐师弟师妹们的大力支持,才让本次研究得以顺利完成。

图 | 模型推理时的结构(来源:受访者提供)

他们通过采用有监督学习的方法、以及采用专业人士-业余人士双视角的数据标注,并使用端到端的 single-stage 方式来完成了模型训练。

借此确保了 AI 生成音乐与人类诉求的协调和对齐,同时也让 AI 模型得以更好保持人类音乐的结构规范。

日前,关于数据集和标注平台的论文以《MuChin:一种用于评估音乐领域语言模型的中文通俗日常用语描述基准》(MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music)为题发表在 2024 年国际人工智能联合会议(IJCAI,International Joint Conference on Artificial Intelligence)上[1],相关数据集已开源 [2],后续研究工作也正有序开展 [3-5]。

关于未来的研究,他们也制定了一些计划。

首先,要进一步深挖专业人士和业余人士对相同歌曲的语义描述差异,并结合脑电和核磁等手段对相同歌曲在不同背景人类脑区所造成的差异性影响。

这将有助于相关算法在音乐的心理疗愈上发挥更大作用,并且将 MuerData 数据集从文本-音频扩充到更多的模态表示上。

其次,会更加关注大模型的安全和法律问题,在未来研究方向上也会涉及到 AI 大模型对于音乐版权的自动鉴定侵权与自动治理,确保模型输出的合法性。

“希望不仅能满足那些记谱高手和写歌高手的需求,更能让普通大众用音乐来感受内心世界里的万千波澜,让每个有音乐梦想的普通人都能实现自己的音乐家梦想。王子豪表示。

参考资料
1.https://dl.acm.org/doi/10.1145/3503161.3548368
2.https://github.com/CarlWangChina/MuChin
3.https://arxiv.org/pdf/2407.03188
4.https://arxiv.org/abs/2407.07728
5.https://github.com/CarlWangChina/SaMoye-SV

文章来源:麻省理工科技评论 (MIT Technology Review)


往期回顾

Z动态|『地卫二』太空计算赋能星上能源:千帆星座18颗星入轨

Z动态|浙大系杀出“智慧农业”概念第一股,开盘大涨800%!
求是TALK|科创企业家创业心法



使命:帮助有情怀的浙大人做有意义的事
愿景:以“藕”链接浙大校友,以“舫”承载求是情怀
价值观:求是   本分  

藕舫天使专注于服务、投资浙江大学校友师生创业的项目,致力于支持浙大校友成为“公忠坚毅,能担当大任,主持风会,转移国运”的商业领袖。

藕舫团队已经参与投资了100多家浙大校友创业企业:
科技领域:可胜技术、长光辰芯、棒糖科技、糖吉医疗、形色、票小秘、帕拉卡、码全信息、深视科技、双深信息、多翼科技、睿维视科技、地卫二空间技术、视光半导体、青塔科技、傲芯科技、玩点旅行、一目可视、超光微、速智通科技、再造再生;
智能制造领域:拓烯科技、三相科技、励贝液压、英创新材料、喜马拉雅科技、海川电气、晶宝新能源等


—— Angel For ZJU


浙大校友创业观察
研究浙大校友创业现象 关注浙大校友创业人物 服务浙大校友创业生态
 最新文章