解码智能推荐：多模态大模型在网易云音乐的创新应用

科技 2024-10-27 19:00 北京

导读本文将分享多模态大模型在网易云音乐推荐场景的落地应用。

主要包括以下几大部分：

1. 背景介绍

2. 整体架构

3. 技术方案

4. LLM 助力音乐推荐业务

5. 未来展望

分享嘉宾｜潘一飞网易云音乐科技有限公司资深算法工程师

编辑整理｜苏磊

内容校对｜李瑶

出品社区｜DataFun

背景介绍

1. 背景

大语言模型作为人工智能领域的前沿技术，近年来取得了显著进展，并且在众多领域得到了广泛应用。除了主打文本形态的大语言模型之外，能够处理文本、图像、音频和视频等多种模态数据的多模态大模型，正以其强大的内容理解与个性化生成等能力引领着行业变革，也为音乐领域的不断优化创造了更多可能。

在音乐推荐场景中，包含了丰富的多模态数据，比如歌词文本、专辑图片、音频，都是天然的应用大模型的阵地。目前云音乐推荐的核心场景包括：

每日推荐：是列表式推荐，主要的推荐形式是每日更新。
私人漫游：是流式推荐，是一种实时更新的推荐形式。
UGC 歌单：属于歌单推荐类型，UGC 歌单是基于用户生产，歌单中的内容是千人一面的；MGC 歌单是机器生产，其内容千人千面，不同的用户会看到不同的结果。

除了上述场景，还有私人定制、心动模式等其它一些场景。

云音乐推荐场景是云音乐的核心业务，是促进用户增长、提升用户粘性的核心手段。同时，场景众多，可控占比高，因此对推荐系统提出了更高的要求，也带来了一些挑战。

首先是马太效应的问题，1% 的歌曲占据用户大部分的播放歌曲 PV 量，存在严重的数据倾斜。推荐系统是基于用户行为去进行建模的，因此数据倾斜会导致对长尾歌曲分发的打压，形成一个不好的推荐生态。

另外，新内容的冷启动，以及新歌的分发效率也面临挑战。云音乐每天会生产大量的新歌，这些新歌都是没有用户播放行为的，对于个性化的分发系统来说，也同样天然会去打压这些新内容，因此如何去做好新内容的冷启动，以及如何提升新歌的分发效率，也是需要解决的问题。

针对上述问题，大模型的兴起与发展提供了比较好的解决方案。首先，音乐中包含了大量的多模态特征，比如专辑封面图片、歌曲歌词，还有歌曲的基础属性（如歌曲名、歌手语种、曲风、乐器和奖项），还有用户的一些热门评论，以及音频信息，这些信息都可以通过多模态大模型进行多模态表征的抽取，并应用到推荐系统中去。

基于大模型的多模态音乐表征能为推荐系统带来的最大帮助就是提效。

首先，可以全方位地生成音乐内容表征，来加深推荐系统对音乐的理解能力。
第二，可以缓解马太效应，提升长尾歌曲的分发效率，让更多优质的长尾歌曲能够分发给用户。
第三，缓解新歌的冷启动，能够让新歌能够及时被分发出来展示给用户，以此来改善云音乐的推荐生态。

2. 难点

在推荐系统中基于大模型进行多模态表征的抽取，主要面临以下难点：

基于 LLM 的多模态表征生产方面的难点主要集中在两部分，一是 prompt 的设计以及构造；二是基于大模型的多模态表征稳定生产链路的搭建，实现天级别的多模态表征的抽取，以及天级别的覆盖新歌的多模态表征。
大模型知识与推荐领域对齐方面，多模态表征和推荐系统的 ID-base 的表征是存在差异的，所以将多模态表征与 ID 表征对齐也是非常重要的一项工作。

3. 成果总结

基于多模态大模型的多模态表征抽取已应用于推荐系统中的核心推荐场景，包括每日推荐、私人漫游、歌单推荐、长音频推荐等。目前在各项指标上取得了显著效果，人均播放时长增长 3%，点击率增长 3%，歌单分发数量增加 50%，新歌分发效率提升了 3%，长音频曝光人均播放时长提升了 4%。

整体框架设计

1. 系统框架

系统框架的关键词为：自底向上，协同统一。整体分为三层：数据层、特征层、应用层。

数据层又分为两部分，首先是天级别定时调度更新歌曲的基础属性，比如用户的评论、专辑封面、歌词、音频等一系列信息。然后基于基础属性设计 prompt 的构造，包括歌曲文本的 prompt 的构造，依赖于歌曲基础属性、用户的评论以及歌词信息。

特征层：通过模型仓库中对大模型的选择来实现多模态表征的特征抽取，并进一步去做数据降维，最后进行 faiss 离线的数据校验，保证数据降维之后的 embedding 表征的正确性。

应用层：提取并降维后的 embedding 目前主要应用在召回侧和统一精排模型中。召回主要侧重于新歌以及长尾歌曲的分发；统一多场景的精排模型能够及时地覆盖到全场景，主要设计的就是多模态的对齐模块，目前是已经覆盖到包括音乐推荐、歌单推荐、长音频推荐等一系列核心业务。

2. 基于大模型的多模态表征抽取

下图中展示了多模态表征的生产链路，主要通过 Hugging Face 下载大模型，比如 LLaMA、Baichuan 等，然后依赖于底层的数据调度，并行处理多模态 embedding 表征的提取，接着进行离线数据降维，再进行数据验证，最后提供给线上使用。

3. 模型架构

模型架构采用基于 LLM 的开放世界知识空间与推荐领域的端到端的对齐方式。在大模型的知识空间下的表征和私有推荐领域下的表征是存在空间差异的，所以对齐模块是主要需要去做的工作。

以下结构图是在歌单中的一个精排模型的多模态融合的架构。第一个是通过语言大模型对于歌单文本的简单抽取 embedding 的表征；第二个是通过视觉大模型对于图片的表征抽取，获取到多模态表征 embedding 来表征用户在歌单行为的兴趣，然后同时建模到统一歌单精排模型中。

技术方案

接下来介绍一些技术方案的细节。

1. Prompt 构造

首先是基于大模型的多模态表征抽取。以一首歌曲为例，歌曲文本的 prompt 构造主要包括以下几部分：

instruction：歌曲的简介，包括歌曲的基础属性，如曲风、语种等一系列信息。
用户的乐评以及乐器，比如小提琴、钢琴。
歌词信息。
歌曲的图片特征和音频特征

这些都作为大模型的输入。

2. 特征抽取

使用多 worker 的方式并行处理数据，加速推理速度。目前使用 Baichuan 大模型进行文本抽取，使用 Vit-base-patch 进行封面抽取，使用 MERT 进行音频抽取，应用到排序模型以及召回中去做新歌和长尾歌曲的分发。

3. 离线验证

接下来介绍一些离线验证的 case。首先是基于文本的百川语言大模型提取的召回结果，通过对用传统的基于行为的协同过滤的召回结果和传统的 NLP 模型关联出来的结果去做对比，发现传统的 NLP 模型更多偏向于字符的匹配和文字的相似度，而大模型召回的结果则会更多地抓住文字中对情绪的感受。对于情感的理解，在推荐系统中，特别是音乐推荐系统中是非常重要的。

第二个 case 展示了大模型在世界知识上的能力，能够更好地捕捉到与“节假日”的相似度，检索的歌单的效果要好于经典的协同过滤算法以及传统的 NLP 召回的结果。LLM 相比传统的语言模型，能够运用世界知识和推理，更好地产生广泛的关联性的构建，比如对情绪、诗意、民俗的理解，对于推荐系统的精排模型是非常有价值的。

另一个 case 是针对视觉大模型的召回结果，基于传统的协同过滤召回的结果，直观上来看和召回源是非常不相似的，更多是基于用户行为的召回。而基于视觉模态特征关联出来的结果，不管在曲风上，还是图片的相似度上，都做到了更高相似度的召回。

4. 大模型与推荐域空间对齐

多模态融合精排对齐建模，主要工作如下：

融合精排建模：基于多模态表征的用户行为序列的兴趣建模，多模态表征是不参与到精排模型的梯度更新的。
多模态表征映射层：引入了多模态表征映射层来实现多模态表征与推荐系统的 ID 表征的空间对齐。
构建辅助网络：通过构建辅助 loss 的方式来实现更好的对齐。
对比对齐方式：使用对比学习的方式来实现构建 user-user、item-item 的对齐方式。
二阶段建模：解决在预训练多模态对齐中模型训练不充分以及多模态表征融合和筛选的问题。

LLM 助力音乐推荐业务

接下来介绍一下 LLM 助力云音乐推荐业务的进展。

1. 歌曲推荐

云音乐首页中的封面推荐场景（主要是日推封面和私人漫游封面）对于模块点击是非常重要的，引入封面的多模态数据可以有效助力首页模块的点击率提升。

歌曲基础信息、乐评、乐器、奖项、歌词、音频信息可以助力歌曲的多样性分发以及新歌分发，进而优化整个推荐生态。

在精排侧基于多模态大模型的特征增强，可显著提升个性化服务水平。

以下简单介绍一下融合的方式：

构建多模态特征行为序列：基于歌曲的基础属性、歌词、评论等数据融合成内容文本表征，基于歌曲封面抽取图片表征，再加上音频表征，综合这些多模态表征，从多维度构建 user emb。
辅助网络下的 user/item 的多模态与 ID 特征对齐：基于多模态表征的用户兴趣向量，结合辅助网络来实现多模态表征与用户行为序列的 ID 表征的特征对齐。包括参数共享，以及辅助网络输出的中间向量，输入到推荐的主塔中，以此来进一步加深多模态信息和精排推荐模型的信息融合。

这些工作已全量更新到核心推荐业务中，对人均播放时长、首页 UCTR 以及新歌分发效率均有显著提升。

2. 歌单推荐

另外一块核心业务是歌单推荐。可以非常直观地看到，推荐歌单的封面和标题文本都是由用户自主选择和创作的，蕴含了丰富的个性化信息，是用户情感和审美的体现。因此在歌单场景下使用多模态大模型对封面和文本进行提取，可以更好地获取用户的情感和审美的特征，从而提升个性化能力和新歌单分发能力。

歌单推荐系统融合多模态表征，与歌曲建模其实是异曲同工的，基于统一的歌单的推荐精排大模型，在构建好多模态辅助网络后，也快速应用到了各类歌单推荐场景，显著提升了歌单的分发数量。

3. 长音频推荐

长音频推荐包括宝藏播客、有声书模块、音乐播客模块等，含有丰富的多模态信息，比如图片、声音、长音频声音的简介等等。

通过上述由多模态大模型实现的多模态表征抽取应用到统一精排长音频的推荐系统中，使人均播放时长、长音频的分发效率和长音频的分发数都得到了显著的提升。多模态表征和推荐系统中的 ID 表征的对齐模块，也是参考了歌曲推荐系统的对齐模块，实现了复用。

未来展望

最后介绍一下未来将开展的主要工作。

空间对齐方式的进一步探索
引入对比学习的方式实现对比对齐，构建 user-user、item- item 的对齐方式，结合精排端到端的进一步探索。
二阶段建模
预训练多模态对齐模型解决训练不充分等问题；多模态数据对线上负担较大，因此需要提升多模态表征融合与筛选的能力。
更多多模态大模型的应用探索
比如利用 LLAVA，同时输入多模态数据，直接实现表征的融合。

目前，多模态表征已深入融合到了我们的统一精排模型中，未来将进一步深入挖掘多模态表征，加强对多模态音乐内容的理解，并融合入推荐系统中，使推荐系统个性化分发能力得到更大的提升，建设更好的音乐推荐生态。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

潘一飞

网易云音乐科技有限公司

资深算法工程师

21年加入网易云音乐，目前主要负责云音乐首页歌曲相关核心推荐场景。

http://mp.weixin.qq.com/s?__biz=MzIxMzAxNzEwNQ==&mid=2648126406&idx=1&sn=46c6131eaf8453a26fb2ca2446cbcb25

一个数据人的自留地

数据人交流和学习的社区，关注我们，掌握专业数据知识、结识更多的数据小伙伴。

最新文章

数据民主化的“神话”

AI横行，它越战越勇！

大模型时代下的私有数据安全与利用

【急聘】七猫-后端开发工程师

代码复用率99%，携程市场洞察平台Donut跨多端高性能技术实践

腾讯、抖音、百度、快手、携程、小米、工行、平安集团如何在大数据架构、数据库管理、运维保障中落地AI技术？丨DAMS峰会

太卷了吧，这份【运营分析】思路真是到位

四大行业、零跑汽车等12家企业BI数字化转型实践

数据驱动？我们连数据都跑不通，更别提驱动了

搞清楚毛利这些指标，总算会做经营分析了！

腾讯语音合成技术：模型优化与推理加速实践

资深PM必懂的项目管理4大模型！

【数据分析干货】一种基于匹配思想的因果分析方法

用户分析，找到一份完整的攻略

终于有人，把数字化转型的本质讲清楚了！

72k，确实可以封神了！

还在错误地统计AB实验效果？快来了解正确方法避坑吧

腾讯基于 LLM 的智能数据分析平台 OlaChat 的落地实践

携程弱网识别技术探索

数据分析十大模型之决策模型

一个基于Python的自动化邮件日报模版

零售消费行业20项BI最佳实践（附下载）

快手电商数据指标体系建设与实践

一种基于贡献度的除法指标异动归因方法

解码智能推荐：多模态大模型在网易云音乐的创新应用

大前端：如何突破动态化容器的天花板？

我们要做数据治理，预算 500 万，到底如何实施工作计划？ | DGI治理框架（七）

卷死他们！数据赋能运营，就得这么干

数据仓库实践之任务调度

大呼专业！找到一个【数据指导运营】的思路

如何提升用户画像标签质量及信任度？

银行快速数智化转型的改革先锋——视频分析大模型技术

用户画像：OneID是如何实现的？

关于你不知道的 Python import 10 件事

深圳数据人线下沙龙活动

数据分析，如何诊断业务问题

深圳数据人线下沙龙活动

一文读懂：数据如何从要素变为资产？

深圳数据人线下沙龙活动

京东大数据治理探索与实践

喜马拉雅基于大模型 ChatBl 实践探索

全域用户建模在美团首页推荐的探索与实践

干货 | 携程国际机票基础数据中台化：构建高效的数据管理和应用平台

运营数据分析体系，最全搭建攻略来了！

重塑数据价值：从数据中台到数据飞轮的跨越

标签 VS 数据指标体系，这篇讲得太清楚了！

用户复购行为，如何分析？

小红书搜索：生成式检索的探索与实践

研究了近6年的Gartner数据和分析趋势报告后，我得到了10个洞察！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉