解码智能推荐：多模态大模型在网易云音乐的创新应用

文摘 2024-11-03 17:24 广东

导读本文将分享多模态大模型在网易云音乐推荐场景的落地应用。

主要包括以下几大部分：

1. 背景介绍

2. 整体架构

3. 技术方案

4. LLM 助力音乐推荐业务

5. 未来展望

作者：张长旺，图源：旺知识

分享嘉宾｜潘一飞网易云音乐科技有限公司资深算法工程师

编辑整理｜苏磊

内容校对｜李瑶

出品社区｜DataFun

背景介绍

1. 背景

大语言模型作为人工智能领域的前沿技术，近年来取得了显著进展，并且在众多领域得到了广泛应用。除了主打文本形态的大语言模型之外，能够处理文本、图像、音频和视频等多种模态数据的多模态大模型，正以其强大的内容理解与个性化生成等能力引领着行业变革，也为音乐领域的不断优化创造了更多可能。

在音乐推荐场景中，包含了丰富的多模态数据，比如歌词文本、专辑图片、音频，都是天然的应用大模型的阵地。目前云音乐推荐的核心场景包括：

每日推荐：是列表式推荐，主要的推荐形式是每日更新。
私人漫游：是流式推荐，是一种实时更新的推荐形式。
UGC 歌单：属于歌单推荐类型，UGC 歌单是基于用户生产，歌单中的内容是千人一面的；MGC 歌单是机器生产，其内容千人千面，不同的用户会看到不同的结果。

除了上述场景，还有私人定制、心动模式等其它一些场景。

云音乐推荐场景是云音乐的核心业务，是促进用户增长、提升用户粘性的核心手段。同时，场景众多，可控占比高，因此对推荐系统提出了更高的要求，也带来了一些挑战。

首先是马太效应的问题，1% 的歌曲占据用户大部分的播放歌曲 PV 量，存在严重的数据倾斜。推荐系统是基于用户行为去进行建模的，因此数据倾斜会导致对长尾歌曲分发的打压，形成一个不好的推荐生态。

另外，新内容的冷启动，以及新歌的分发效率也面临挑战。云音乐每天会生产大量的新歌，这些新歌都是没有用户播放行为的，对于个性化的分发系统来说，也同样天然会去打压这些新内容，因此如何去做好新内容的冷启动，以及如何提升新歌的分发效率，也是需要解决的问题。

针对上述问题，大模型的兴起与发展提供了比较好的解决方案。首先，音乐中包含了大量的多模态特征，比如专辑封面图片、歌曲歌词，还有歌曲的基础属性（如歌曲名、歌手语种、曲风、乐器和奖项），还有用户的一些热门评论，以及音频信息，这些信息都可以通过多模态大模型进行多模态表征的抽取，并应用到推荐系统中去。

基于大模型的多模态音乐表征能为推荐系统带来的最大帮助就是提效。

首先，可以全方位地生成音乐内容表征，来加深推荐系统对音乐的理解能力。
第二，可以缓解马太效应，提升长尾歌曲的分发效率，让更多优质的长尾歌曲能够分发给用户。
第三，缓解新歌的冷启动，能够让新歌能够及时被分发出来展示给用户，以此来改善云音乐的推荐生态。

2. 难点

在推荐系统中基于大模型进行多模态表征的抽取，主要面临以下难点：

基于 LLM 的多模态表征生产方面的难点主要集中在两部分，一是 prompt 的设计以及构造；二是基于大模型的多模态表征稳定生产链路的搭建，实现天级别的多模态表征的抽取，以及天级别的覆盖新歌的多模态表征。
大模型知识与推荐领域对齐方面，多模态表征和推荐系统的 ID-base 的表征是存在差异的，所以将多模态表征与 ID 表征对齐也是非常重要的一项工作。

3. 成果总结

基于多模态大模型的多模态表征抽取已应用于推荐系统中的核心推荐场景，包括每日推荐、私人漫游、歌单推荐、长音频推荐等。目前在各项指标上取得了显著效果，人均播放时长增长 3%，点击率增长 3%，歌单分发数量增加 50%，新歌分发效率提升了 3%，长音频曝光人均播放时长提升了 4%。

整体框架设计

1. 系统框架

系统框架的关键词为：自底向上，协同统一。整体分为三层：数据层、特征层、应用层。

数据层又分为两部分，首先是天级别定时调度更新歌曲的基础属性，比如用户的评论、专辑封面、歌词、音频等一系列信息。然后基于基础属性设计 prompt 的构造，包括歌曲文本的 prompt 的构造，依赖于歌曲基础属性、用户的评论以及歌词信息。

特征层：通过模型仓库中对大模型的选择来实现多模态表征的特征抽取，并进一步去做数据降维，最后进行 faiss 离线的数据校验，保证数据降维之后的 embedding 表征的正确性。

应用层：提取并降维后的 embedding 目前主要应用在召回侧和统一精排模型中。召回主要侧重于新歌以及长尾歌曲的分发；统一多场景的精排模型能够及时地覆盖到全场景，主要设计的就是多模态的对齐模块，目前是已经覆盖到包括音乐推荐、歌单推荐、长音频推荐等一系列核心业务。

2. 基于大模型的多模态表征抽取

下图中展示了多模态表征的生产链路，主要通过 Hugging Face 下载大模型，比如 LLaMA、Baichuan 等，然后依赖于底层的数据调度，并行处理多模态 embedding 表征的提取，接着进行离线数据降维，再进行数据验证，最后提供给线上使用。

3. 模型架构

模型架构采用基于 LLM 的开放世界知识空间与推荐领域的端到端的对齐方式。在大模型的知识空间下的表征和私有推荐领域下的表征是存在空间差异的，所以对齐模块是主要需要去做的工作。

以下结构图是在歌单中的一个精排模型的多模态融合的架构。第一个是通过语言大模型对于歌单文本的简单抽取 embedding 的表征；第二个是通过视觉大模型对于图片的表征抽取，获取到多模态表征 embedding 来表征用户在歌单行为的兴趣，然后同时建模到统一歌单精排模型中。

技术方案

接下来介绍一些技术方案的细节。

1. Prompt 构造

首先是基于大模型的多模态表征抽取。以一首歌曲为例，歌曲文本的 prompt 构造主要包括以下几部分：

instruction：歌曲的简介，包括歌曲的基础属性，如曲风、语种等一系列信息。
用户的乐评以及乐器，比如小提琴、钢琴。
歌词信息。
歌曲的图片特征和音频特征

这些都作为大模型的输入。

2. 特征抽取

使用多 worker 的方式并行处理数据，加速推理速度。目前使用 Baichuan 大模型进行文本抽取，使用 Vit-base-patch 进行封面抽取，使用 MERT 进行音频抽取，应用到排序模型以及召回中去做新歌和长尾歌曲的分发。

3. 离线验证

接下来介绍一些离线验证的 case。首先是基于文本的百川语言大模型提取的召回结果，通过对用传统的基于行为的协同过滤的召回结果和传统的 NLP 模型关联出来的结果去做对比，发现传统的 NLP 模型更多偏向于字符的匹配和文字的相似度，而大模型召回的结果则会更多地抓住文字中对情绪的感受。对于情感的理解，在推荐系统中，特别是音乐推荐系统中是非常重要的。

第二个 case 展示了大模型在世界知识上的能力，能够更好地捕捉到与“节假日”的相似度，检索的歌单的效果要好于经典的协同过滤算法以及传统的 NLP 召回的结果。LLM 相比传统的语言模型，能够运用世界知识和推理，更好地产生广泛的关联性的构建，比如对情绪、诗意、民俗的理解，对于推荐系统的精排模型是非常有价值的。

另一个 case 是针对视觉大模型的召回结果，基于传统的协同过滤召回的结果，直观上来看和召回源是非常不相似的，更多是基于用户行为的召回。而基于视觉模态特征关联出来的结果，不管在曲风上，还是图片的相似度上，都做到了更高相似度的召回。

4. 大模型与推荐域空间对齐

多模态融合精排对齐建模，主要工作如下：

融合精排建模：基于多模态表征的用户行为序列的兴趣建模，多模态表征是不参与到精排模型的梯度更新的。
多模态表征映射层：引入了多模态表征映射层来实现多模态表征与推荐系统的 ID 表征的空间对齐。
构建辅助网络：通过构建辅助 loss 的方式来实现更好的对齐。
对比对齐方式：使用对比学习的方式来实现构建 user-user、item-item 的对齐方式。
二阶段建模：解决在预训练多模态对齐中模型训练不充分以及多模态表征融合和筛选的问题。

LLM 助力音乐推荐业务

接下来介绍一下 LLM 助力云音乐推荐业务的进展。

1. 歌曲推荐

云音乐首页中的封面推荐场景（主要是日推封面和私人漫游封面）对于模块点击是非常重要的，引入封面的多模态数据可以有效助力首页模块的点击率提升。

歌曲基础信息、乐评、乐器、奖项、歌词、音频信息可以助力歌曲的多样性分发以及新歌分发，进而优化整个推荐生态。

在精排侧基于多模态大模型的特征增强，可显著提升个性化服务水平。

以下简单介绍一下融合的方式：

构建多模态特征行为序列：基于歌曲的基础属性、歌词、评论等数据融合成内容文本表征，基于歌曲封面抽取图片表征，再加上音频表征，综合这些多模态表征，从多维度构建 user emb。
辅助网络下的 user/item 的多模态与 ID 特征对齐：基于多模态表征的用户兴趣向量，结合辅助网络来实现多模态表征与用户行为序列的 ID 表征的特征对齐。包括参数共享，以及辅助网络输出的中间向量，输入到推荐的主塔中，以此来进一步加深多模态信息和精排推荐模型的信息融合。

这些工作已全量更新到核心推荐业务中，对人均播放时长、首页 UCTR 以及新歌分发效率均有显著提升。

2. 歌单推荐

另外一块核心业务是歌单推荐。可以非常直观地看到，推荐歌单的封面和标题文本都是由用户自主选择和创作的，蕴含了丰富的个性化信息，是用户情感和审美的体现。因此在歌单场景下使用多模态大模型对封面和文本进行提取，可以更好地获取用户的情感和审美的特征，从而提升个性化能力和新歌单分发能力。

歌单推荐系统融合多模态表征，与歌曲建模其实是异曲同工的，基于统一的歌单的推荐精排大模型，在构建好多模态辅助网络后，也快速应用到了各类歌单推荐场景，显著提升了歌单的分发数量。

3. 长音频推荐

长音频推荐包括宝藏播客、有声书模块、音乐播客模块等，含有丰富的多模态信息，比如图片、声音、长音频声音的简介等等。

通过上述由多模态大模型实现的多模态表征抽取应用到统一精排长音频的推荐系统中，使人均播放时长、长音频的分发效率和长音频的分发数都得到了显著的提升。多模态表征和推荐系统中的 ID 表征的对齐模块，也是参考了歌曲推荐系统的对齐模块，实现了复用。

未来展望

最后介绍一下未来将开展的主要工作。

空间对齐方式的进一步探索
引入对比学习的方式实现对比对齐，构建 user-user、item- item 的对齐方式，结合精排端到端的进一步探索。
二阶段建模
预训练多模态对齐模型解决训练不充分等问题；多模态数据对线上负担较大，因此需要提升多模态表征融合与筛选的能力。
更多多模态大模型的应用探索
比如利用 LLAVA，同时输入多模态数据，直接实现表征的融合。

目前，多模态表征已深入融合到了我们的统一精排模型中，未来将进一步深入挖掘多模态表征，加强对多模态音乐内容的理解，并融合入推荐系统中，使推荐系统个性化分发能力得到更大的提升，建设更好的音乐推荐生态。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

潘一飞

网易云音乐科技有限公司

资深算法工程师

21年加入网易云音乐，目前主要负责云音乐首页歌曲相关核心推荐场景。

旺知识

AI技术最新进展、发展趋势、研发经验、从业经验

最新文章

大语言模型图形用户界面智能体全面综述：背景、架构、数据、模型、评估、应用、挑战

WWW24-大语言模型个性化多模态生成技术：从千篇一律到量身定制

AI Agents 技术栈图谱与分析

智能体信息检索技术：定义、应用、挑战、趋势

学习计算广告，我为什么从推荐系统转向计算广告？

大众汽车，会成为下一个诺基亚吗？

2025年生成式人工智能革命：八大趋势开启智能新纪元！

大推理模型Marco-o1详细解读：开启开放式问题解决新能力

AI在广告投放上的应用正在大爆发

面向检索增强生成应用的最佳搜索和检索技术

历史性一刻！在东南亚，OPPO超过三星

多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势

LLM-ESR@NeurIPS 2024: 大语言模型破解推荐系统的长尾难题

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

个性化大语言模型全面综述：背景、定义、分类、基础、技术、评估、数据、应用、挑战

京东探索：大模型在电商搜索中的生成式检索与优化实践

秘塔AI上线"知识库"，他们直接超进化成AI搜索完全体了。

迈向下一代大语言模型驱动的推荐系统：综述与展望

抖音集团数据血缘深度应用：架构、指标与优化实践

川普归来与战后国际秩序的瓦解

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

目标导向交互式智能体复杂任务调研：背景、分类、范畴、评估、趋势

川普上台后的赢家和输家

大模型图形用户界面操作智能体(GUI Agents)综述：数据、架构、分类、应用、挑战

AutoGLM-图形用户界面操作自主基础智能体技术详解

川普归来与战后国际秩序的瓦解

苹果语义索引(Semantic Index)技术调研：关键技术、隐私安全、应用效果、发展趋势

解码智能推荐：多模态大模型在网易云音乐的创新应用

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

小红书搜索：生成式检索的探索与实践

「深度」学习计算广告，我为什么从推荐系统转向计算广告？

AI自动操作电脑：AutoWebGLM-大语言模型的Web导航智能体技术详细翻译解读

算法工程师的未来之路：大模型还是搜广推？

未来已来：智谱AI的AutoGLM，让智能手机变身你的私人智能体

RLChina2024-AI Agent业界进展和发展趋势：简史、进展、难题、分级、趋势

揭秘Llama 3.1：我如何消化这份92页的AI大模型技术盛宴

朝韩冲突和中东局势

UniIR：通用多模态信息检索模型训练和评测标准

LECCR：多模态大语言模型增强的跨语言跨模态检索技术

黎以战争、美国大选和财政政策

检索增强生成(RAG)与相关技术综述：问题、分类、数据、模型、挑战

首个大推理模型(LRM) - OpenAI o1规划任务能力评测

黎以战争、美国大选和财政政策

大语言模型统一偏好学习技术综述：定义、数据、反馈、算法、评估、趋势

MMSearch：大型模型多模态搜索引擎

2024，平台型互联网公司的增长打法变了

开源语音实时交互新突破：LLaMA-Omni实现大语言模型无缝语音交互

Google广告点击率预估实践经验总结：在线学习、内存优化、模型评估、置信估计、校准预测、特征管理

从穷小子到公司估值10亿，清华小哥的“双杠杆”方法论

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉