Z科技｜让普通人也能当“作曲家”，浙大研究人员探索音乐艺术创作和心理治疗新方法

学术 2024-10-20 20:25 浙江

藕舫天使Ofound 专注服务、投资浙大系创业者

浙大人物

王子豪浙江大学计算机科学与技术学院2021级博士生，竺可桢学院ITP创新与创业管理强化班2020级学员

现就读于浙大张克俊教授指导的NEXT Lab实验室, 研究兴趣领域为人工智能音乐生成、语音合成、音频理解、音乐治疗等. 目前第一作者发表顶会&顶刊论文3篇, 均为人工智能音乐相关, 包括实时伴奏生成SongDriver(发表于CCF-A类会议ACM MM 2022 oral )、实时情感可控歌曲改编REMAST(录用于IEEE Transaction on Affective Computing, 情感计算领域顶刊, 影响因子11.2)、音频理解中文评测基准MuChin(发表于CCF-A类会议IJCAI 2024 oral ). 第一作者在投论文2篇，共同一作/共同作者论文4篇. 第一作者申请发明专利2项，获批软著3项、商标1项、设计专利1项。曾任爱歌科技创始人&CEO, 获得“互联网+”创新创业大赛国赛银奖&省赛金奖、iCAN创新创业大赛国赛二等奖&省赛一等奖、“挑战杯”创业计划竞赛国家铜奖。曾任对牛弹琴科技联合创始人&技术总裁,担任安全负责人的算法模型通过了国家深度合成算法备案, 参与了北京市政府主办的全球数字经济大会开幕式项目歌曲制作。

AI，让音乐创作更加民主化？这是浙大博四学生王子豪的梦想。

他目前是浙江大学计算机科学与技术学院 NEXT Lab 的一名博士生，在过去五年中专注于研究 AI 音乐。

同时，自 2019 年以来王子豪一边读书一边实践，曾担任爱歌科技创始人兼 CEO、对牛弹琴科技联合创始人兼技术总裁。

在今年夏天的 2024 年全球数字经济大会上，由对牛弹琴科技的深度合成算法所创作的主题曲《数字北京欢迎您》在现场展出，展示了公司产品的落地愿景。

王子豪的创业历程开始于本科阶段。作为较早进入这一领域的开发者之一，王子豪最初在爱歌科技带队研发的初创产品叫做“爱写歌”，它能将用户的清唱转化为带有编曲伴奏与混音的完整歌曲作品。

完成这一款面向专业音乐人的小众项目之后，他希望推进音乐创作的民主化，即让一个人无论是否具备音乐灵感或歌唱才能，都能用 AI 来生成音乐的方式表达心中所感。

用 AI 赋能音乐艺术创作和心理治疗

2023 年，在导师张克俊教授的指导下，王子豪与创业公司的同事、NEXT Lab 成员们提出一款名为 MuSiT 的与普通人日常用语对齐的 AI 音乐生成机制。

该机制除了用于自身模型生成外, 还可以广泛用于业界通用模型上，增强其对通俗口语描述的理解能力。

图 | 浙江大学计算机科学与技术学院博士生王子豪（来源：资料图）

MuSiT 能够显著增强 AI 对于通俗日常表达的解析能力，从而能够有效弥合用专业音乐术语训练的 AI 系统与业余普通人在表达和认知上的鸿沟。

在个性化音乐创作领域：

这套机制可以让用户能以日常口语的形式来传达个人情感、生活体验或定制需求，进而使用 AI 创作独一无二的原创音乐。

比如，在驾车途中用户心有所感时，只需简单的表达就能让 AI 创作出符合语境的精准歌曲。

再比如，当视频创作者或游戏制作者给视频或游戏配乐时，也可以通过非专业的表达来生成匹配氛围的音乐。

而在音乐治疗和心理咨询领域：

通过理解患者的口语化通俗描述，AI 能够生成有助于情感表达和心理疏导的歌曲。

比如，患者通过描述自己的情绪状态，能让 AI 生成对应的音乐，从而帮助他们更好地表达和理解自己，进而辅助于心理治疗和情绪调节等。

总的来说，本次技术不仅在音乐艺术层面开辟了个性化创作的新路径，也在心理健康等跨学科领域展现了潜在价值。

打造能听懂业余人士心声的 AI 音乐创作模型

事实上，根据给定数据自动创作音乐的 AI 音乐模型并非新鲜事。但是，在此之前这些软件距离人们的期待还有一定的落差。

要想理解这种落差首先得从“AI 对齐”说起。它指的是让 AI 理解并适应人类价值观，从而让其在执行任务时更加符合人类的期望。

比如，对于 AI 自动歌曲创作来说，人们的主要期待有：能否充分理解人类指示？能否生成满足人类听觉需求、以及符合预期结构的歌曲？

图丨问题提出和团队愿景（来源：受访者提供）

此前该领域的现状是：虽然有许多工具在某些方面已经相当不错，例如可以从文字生成音乐，以及可以从乐谱生成歌曲等。但是，依旧缺少一款能够真正理解业余人士诉求的工具。

因此，对于那些喜欢以通俗日常用语方式来描述自己思维的普通用户来说，仍然很难生成让其满意的 AI 音乐。

该团队认为导致上述局面的原因主要有两个：

首先，是因为缺乏高质量的大规模数据集，尤其是缺乏能够解析“通俗日常用语”歌曲描述的数据。

其次，是因为现有的 AI 模型的训练和推理过程还不足以充分理解“通俗日常用语”的词汇和句子，自然也就无法准确地生成符合人类用户想法的歌曲。

为此张克俊建议王子豪等人攻关这样一个课题：让通俗日常描述也能实现 AI 歌曲生成。即让 AI 能够充分理解非专业人士的口头描述，从而创作出符合用户要求的音乐作品。

要想实现这一目标：一是要对“通俗日常用语”表达方式进行深入理解；二是要能够精准把握歌曲中的复杂结构，比如曲段构成和韵律结构。

研究中：

他们面临的第一个问题是如何解决通俗描述-音乐配对数据的稀缺问题。对于这些数据来说，它必须包含各种通俗日常描述、音乐结构、流派以及情感等信息。

他们面临的第二个问题是要解决人机对齐的问题。目前，对于使用 AI 音乐生成产品的普通用户来说，往往存在口语描述和 AI 音乐模型反馈行为无法良好匹配的问题。

图丨数据集的构建（来源：受访者提供）

为了解决数据稀缺的问题，王子豪等人创建了 Muer 音乐注释平台（MuerAP），通过实施多人、多阶段的质量保证流程，来保证数据注释的准确性和一致性。

同时，他们分别邀请一批专业音乐家标注者和业余普通人标注者，让双方针对同一首歌进行标注。

不过在标注时，让他们分别使用不同的标签集合，从而能够针对同一首歌曲获得两种不同视角的结果，借此形成一个高精度的与公众理解一致的数据集（即 Muer 音乐数据集（MuerData））

王子豪表示：“MuerData 是第一个包含中文口语化通俗描述的开源音乐数据集，涵盖音乐专业人士和业余人士两种不同视角下的口语描述（风格和情感等维度），同时也涵盖了音乐结构的各个层次，旨在为端到端模型的微调训练提供精准的数据。”

相比已有的其他公开数据集，MuerData 更加适合从业余描述到歌曲的端到端模型微调，让模型能够充分理解业余人士的表达，从而可以满足大众的音乐欣赏诉求。

图丨模型的训练过程（来源：受访者提供）

而为了解决人机对齐的问题，王子豪等人提出一种单阶段通俗日常描述到歌曲生成框架，并将其命名为 MuSiT。

MuSiT 能在通俗日常描述和音乐音频听感之间进行跨模态理解，从而能在生成音乐时能与用户对齐。

据王子豪介绍，在已有的开源文本-音频对比预训练模型的训练文本中，并未出现过中文通俗日常通俗描述的词汇和短语。为此，他们基于文本-音频跨模态理解模型的通用架构，采用 MuerData 数据集来训练 ChinMu Cross-Modal Encoder。

此外，MuSiT 使用用 fine-tuned LLM 来生成 Lyrics，因此可以通过相应的口语描述，来生成带有乐句结构和押韵方案等附加信息的歌词。

而对于歌词以及额外的结构信息，王子豪等人采用交叉注意机制，来将它们作为 DiT（Diffusion Transformer）和 SiT（Scalable Interpolant Transformer）捕捉歌词和音频之间相关性的条件。

除了歌词之外，只需使用一个 DiT/SiT 模型，就能以端到端的形式生成人声、伴奏、旋律、和声、混响等全部音乐内容。

这样的好处在于：所生成歌曲的各个音乐内容之间，在听感上非常协调，不存在割裂感。

然后，他们将上述控制条件为输入，并使用在变分自编码器潜在空间中运行的、基于 Transformer 的扩散模型（DiT/SiT），来生成与口语描述贴合的高质量歌曲。

同时，还使用变分自编码器的 Decoder 来将歌曲内容解码为 wav 文件。

在训练上，他们先是基于私有的大规模“歌词-歌曲音频”成对数据集，来针对变分自编码器进行无监督预训练、针对 DiT/SiT 做有监督预训练。

接着，他们在“通俗描述 to 歌曲”的任务上，基于 MuerData 数据集，来针对 DiT/SiT 进行微调训练，以便生成贴合人类通俗描述的、结构良好的歌曲。

让普通人也能实现音乐家梦想

作为第一作者王子豪认为，正是因为有了导师的指导，以及创业公司的同事们、实验室师兄师姐师弟师妹们的大力支持，才让本次研究得以顺利完成。

图 | 模型推理时的结构（来源：受访者提供）

他们通过采用有监督学习的方法、以及采用专业人士-业余人士双视角的数据标注，并使用端到端的 single-stage 方式来完成了模型训练。

借此确保了 AI 生成音乐与人类诉求的协调和对齐，同时也让 AI 模型得以更好保持人类音乐的结构规范。

日前，关于数据集和标注平台的论文以《MuChin：一种用于评估音乐领域语言模型的中文通俗日常用语描述基准》（MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music）为题发表在 2024 年国际人工智能联合会议（IJCAI，International Joint Conference on Artificial Intelligence）上[1]，相关数据集已开源 [2]，后续研究工作也正有序开展 [3-5]。

关于未来的研究，他们也制定了一些计划。

首先，要进一步深挖专业人士和业余人士对相同歌曲的语义描述差异，并结合脑电和核磁等手段对相同歌曲在不同背景人类脑区所造成的差异性影响。

这将有助于相关算法在音乐的心理疗愈上发挥更大作用，并且将 MuerData 数据集从文本-音频扩充到更多的模态表示上。

其次，会更加关注大模型的安全和法律问题，在未来研究方向上也会涉及到 AI 大模型对于音乐版权的自动鉴定侵权与自动治理，确保模型输出的合法性。

“希望不仅能满足那些记谱高手和写歌高手的需求，更能让普通大众用音乐来感受内心世界里的万千波澜，让每个有音乐梦想的普通人都能实现自己的音乐家梦想。”王子豪表示。

参考资料

1.https://dl.acm.org/doi/10.1145/3503161.3548368

2.https://github.com/CarlWangChina/MuChin

3.https://arxiv.org/pdf/2407.03188

4.https://arxiv.org/abs/2407.07728

5.https://github.com/CarlWangChina/SaMoye-SV

文章来源：麻省理工科技评论（MIT Technology Review）

往期回顾

Z动态｜『地卫二』太空计算赋能星上能源：千帆星座18颗星入轨

Z动态｜浙大系杀出“智慧农业”概念第一股，开盘大涨800%！
求是TALK｜科创企业家创业心法

使命：帮助有情怀的浙大人做有意义的事

愿景：以“藕”链接浙大校友，以“舫”承载求是情怀

价值观：求是本分

藕舫天使专注于服务、投资浙江大学校友师生创业的项目，致力于支持浙大校友成为“公忠坚毅，能担当大任，主持风会，转移国运”的商业领袖。

藕舫团队已经参与投资了100多家浙大校友创业企业：

科技领域：可胜技术、长光辰芯、棒糖科技、糖吉医疗、形色、票小秘、帕拉卡、码全信息、深视科技、双深信息、多翼科技、睿维视科技、地卫二空间技术、视光半导体、青塔科技、傲芯科技、玩点旅行、一目可视、超光微、速智通科技、再造再生；

智能制造领域：拓烯科技、三相科技、励贝液压、英创新材料、喜马拉雅科技、海川电气、晶宝新能源等。

—— Angel For ZJU

http://mp.weixin.qq.com/s?__biz=MjM5NjIwMjY2Nw==&mid=2247526154&idx=1&sn=a4be437c9b2a0ccea7039d0505071d74

浙大校友创业观察

研究浙大校友创业现象关注浙大校友创业人物服务浙大校友创业生态

最新文章

Z动态 | Meta之后，Rokid也被同一家全球眼镜巨头看上了

Z动态｜喜报！全国第三，浙江大学四人上榜，第十八届中国青年科技奖公示

Z动态｜从白牌到全球品牌，浙大“兄弟”如何靠平价精品炼成骑行界迪卡侬？

Z动态｜阿曼国首颗人造卫星发射，『地卫二』在“空天信息”领域驶入国际化轨道

Z动态｜浙大校友企业『千寻智能』完成天使+轮融资，驶入商业化落地快车道

喜报｜藕舫投资企业『三相科技』领衔制定首项国标打破高端数控机床进口电机垄断

Z榜单｜亚洲大学排名出炉，浙江大学位列亚洲第八

Z动态｜浙大系潜伏了一家四足机器人头部企业，正在进军人形机器人领域

活动报名 | 求是AI圆桌第五期：AI效率工具的机遇与挑战

Z观点｜禾迈何以开启微逆大时代？——《高端说》对话禾迈股份总经理杨波

Z动态｜让杂交水稻制种“智能化”！他们为保障国家粮食安全勇闯“创业无人区”

Z动态｜「深度原理」完成种子++轮融资，祥峰独家投资，AI解锁新型化学反应和材料

求是直聘 | 校友企业招募HRD、财务总监、品宣总监、销售副总等核心职位

Z动态｜浙大校友企业『星海图』完成超2亿元Pre-A轮融资

Z人物｜用特殊的巧克力做关键材料，曾保送浙大的他花9年时间做可以吃的3D打印

Z观点｜AI+园艺如何破圈，这位开发了花信App的浙大校友这样说——

Z人物｜高考没考好却进了浙大，喜欢游泳的湖州男孩用AR让游泳眼镜进入next level

Z动态｜浙大校友企业『创视半导体』完成A轮数亿元融资

Z动态｜Cyan青心意创震撼发布“全面拟人”机器人Orca Ⅰ，机器人开始懂情感、有温度

Z动态｜小马智行开启美股IPO！累计营收12亿，自动驾驶已绕地球1000圈

Z观点｜前Postmates AI总监和阿里小蛮驴负责人，致力于通过AI技术打造数字员工新时代

Z科技｜浙江大学AFM：多组织自适应止血海绵

Z科技｜入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

Z动态｜一家融了15轮的成都公司，要被浙大系半导体并购了

Z科技｜有望用于清洁能源气体储存，浙大团队提出高孔性金属有机框架合成新策略

Z科技｜入选NeurIPS 24，浙大团队提出全新去噪蛋白质语言模型DePLM，突变效应预测优于SOTA模型

Z观点｜深度对话：白惠源“EPOCH”理论预言AI Agent的未来五部曲

Z科技｜让普通人也能当“作曲家”，浙大研究人员探索音乐艺术创作和心理治疗新方法

Z动态｜『地卫二』太空计算赋能星上能源：千帆星座18颗星入轨

Z动态｜浙大系杀出“智慧农业”概念第一股，开盘大涨800%！

求是TALK｜科创企业家创业心法

Z动态｜浙大系人工智能风险治理专家『君同未来』完成数千万元天使轮融资

求是直聘 | 需要大模型、CTO、HRD、品牌公关、研发等人才的企业看过来

Z动态｜浙大联合阿里推出人脸隐私保护新方案！

Z动态｜高瓴独家投了一个种子轮项目，是浙大校友企业

Z科技｜对话非夕科技：让机器人像人手一样灵敏，浙大校友企业另辟蹊径造出通用机器人独角兽

Z人物｜浙大校友从文艺青年到爆品专家的进化之路

Z人物｜重磅！国药控股董事长、总裁人选最终敲定！出自浙大系，原华润三九总裁

Z科技｜浙大校友参与设计新型蛋白质，实现蛋白靶向降解，已创立AI制药公司获10亿元美元投资

Z人物｜这位接任飞利浦大中华区总裁的女帅，是浙大学姐

Z动态｜七牛云通过港交所聆讯，阿里、经纬、启明等明星资本加持，中国第三大音视频PaaS服务商

Z科技｜浙大蒋超组合作《自然·通讯》：揭示ICU患者下呼吸道微生物基因组功能动态及其在感染防控中的潜在应用

Z科技｜浙江大学最新综述，揭秘大语言模型中知识的利用机制

Z科技｜浙大郑强教授/杜淼教授在JES期刊上发表：利用锆掺杂NiCoZr层状氢氧化物开发高性能的超级电容器电极材料

Z科技｜浙江大学新晋「国家杰青」，专注生物医用高分子材料与药物递送！

Z科技｜浙大团队开发低贵金属载量的双功能催化剂，运行100小时性能无明显下降，可降低质子交换膜电解水制氢成本

Z人物 | 保研浙大，哈佛毕业，ex-Googler创业智能眼镜，超越Ray-Ban Meta登顶亚马逊品类畅销榜

Z科技 | 浙大毛峥伟课题组：基于超分子相互作用的纳米武装益生菌用于疾病治疗

Z科技｜浙大吴丹教授团队《自然·通讯》：人类认知能力基本维度的神经生物学基础

Z科技 | 浙大研究团队设计新款软体机器人：最高弹跳超过自身身高100倍，响应仅数十毫秒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉