LEARN：百川大模型在快手推荐中的应用

文摘 2024-07-09 10:12 上海

作者 | 冯卡门迪
整理 | NewBeeNLP
https://zhuanlan.zhihu.com/p/705497209

这一两年推荐的论文工作离不开冷启和长尾问题，就像过去几年离不开序列和多目标一样，所套的壳子也从时序模型发展到对比学习和LLM，更像是“问题长期存在，我们现在有了更好的工具解决”，鸡生蛋与蛋生鸡总是这么的迷人和无所遁形。

关于冷启动和长尾推荐，以往推荐模型主要的问题是对于ID的依赖，大部分模型学到的价值都是ID对应的Embedding向量，由此数据量不够时就效果甚微。

分享一篇快手将百川大模型应用于推荐中的工作。

论文：Knowledge Adaptation from LLM to Recommendation for Practical Industrial Application
机构：快手
链接：https://arxiv.org/pdf/2405.03988
会议：论文里还是ACM的标准模板

LLM-Rec大模型推荐

大型语言模型（如GPT-3，文中使用的是Baichuan2-7B）在处理和理解自然语言方面表现出色，可以将其作为基座，认为具备更加普世的知识提取，从而使推荐系统更好地理解物品描述，提高推荐的准确性和多样性

Baichuan2-7B： https://huggingface.co/baichuan-inc/Baichuan2-7B-Base

将大语言模型引入到推荐中的工作在前几年也一直都有（指NLP模型，非要说BERT这类不算LLM那就不算），比如Bert4Rec、RankT5、RecFormer之类

过往使用大模型做推荐分为两种思路：

冻结LLM参数并适应推荐领域数据 ：利用LLM生成物品的内容嵌入，通常是通过处理生成物品的文本描述（如标题、说明、评论等），从而捕捉物品的语义信息，比如Chat-Rec。
在推荐领域的特定文本数据集上微调LLM ：利用LLM捕捉用户行为序列，通过设计提示prompt，使LLM学习用户和物品之间的潜在关系，在预测任务中理解用户的偏好变化和行为模式，从而更好地预测用户可能感兴趣的物品，比如TallRec。

文中认为以上其实都是将LLM的广域和推荐领域强行结合(Rec-to-LLM)，可能会出现遗忘，即随着推荐任务的学习，模型会丢失在预训练过程中学到的知识。

由此有了新的这个LEARN框架（Llm-driven knowlEdge Adaptive RecommeNdation），旨在有效融合大模型和推荐系统(LLM-to-Rec)，更像是一种特征提取，LEARN框架通过双塔结构（用户塔和物品塔），利用LLM生成的Embedding来改进推荐性能。

LEARN

LEARN模型的主要结构包括两个塔：用户塔（User Tower）和商品塔（Item Tower），每个塔由两个模块组成：内容嵌入生成模块（Content-Embedding Generation Module, CEG）和偏好理解模块（Preference Comprehension Module, PCH）。

商品文本描述

首先对每个商品按标题、品类、品牌、价格、关键词和属性进行文本描述：

内容Embedding生成模块(CEG)

通过主谓宾将item描述转为句子后使用大模型抽取token的高维向量，通过均一池化生成Embedding，在训练阶段，冻结LLM以防止其遗忘广域知识：

偏好理解模块(PCH)

其实是用户Embedding生成，将内容Embedding映射到推荐系统的协作域：使用来自用户历史交互的商品内容Embedding序列作为输入，传入Transformer中做时序预测，最终生成用户Embedding。在训练时，使用自监督对比学习作为训练目标，以增强模型区分用户偏好商品和非偏好商品的能力。

历史序列和目标序列

感觉是对行为序列做截断，当前曝光之前的作为历史序列，当前曝光之后的作为目标序列，对于第i个用户，其历史交互序列和目标交互序列分别定义如下：

历史交互序列：U_hist_i = {Item_i1, Item_i2, ..., Item_iH}
目标交互序列：U_tar_i = {Item_i(H+1), Item_i(H+2), ..., Item_i(H+T)}

用户塔和商品塔

用户塔就是PCH，商品塔给了三种样式：

用户塔、商品塔

Variant 1 ：使用与用户塔相同的架构和模型权重，但输入的是用户目标交互序列（user target interactions）。这种方法通过使用相同的因果注意机制（causal attention）来处理用户历史交互，从而对齐用户和商品Embedding。
Variant 2 ：使用自注意机制（self-attention mechanism），只关注商品本身。独立处理每个商品，不考虑商品之间的顺序依赖。
Variant 3 ：直接使用CEG生成的内容Embedding，在训练阶段使用用户目标交互序列，在推理阶段只使用商品的文本描述作为输入。

在训练阶段，Variant 1 使用用户目标交互序列作为输入，Variant 2 和Variant 3 独立处理每个商品。

在推理阶段，这三种变体只使用一个商品的文本描述作为输入，独立输出Embedding。

损失和实际模型

实际的使用还是要预测cvr，因此训练时再加一个传统的关于CVR任务的MLP结构：

由此，损失包含主损失和辅助损失。

主损失(Main Loss)

主损失用于直接指导模型，利用用户和商品Embedding来预测用户对商品的偏好。主损失的目标是最小化推荐结果与实际用户行为之间的误差，从而提高模型的推荐准确度。通过模型的主塔计算，输入为用户Embedding和商品Embedding。正样本是用户实际与之交互的商品，负样本则是用户没有交互的商品。通过对比正负样本，模型能够更好地学习用户偏好的特征，因此损失为InfoNCE：

辅助损失(Auxiliary Loss)

辅助损失用于进一步提升模型性能，帮助模型更好地融合不同类型Embedding，是一个转换率（CVR）损失，交叉熵吧。

实验

H代表命中率(hit rate)，R代表召回率(recall rate)：

商品Embedding:

训练方式：

和SOTA比较：

三个商品塔：

PCH消融：

线上AB的AUC：

CVR提升：

冷启和长尾：

整体上就像曾经的ResNet、Attention、LSTM、GNN等，推荐领域紧跟时事，提一嘴Diffusion-Model，现在各家都在搞对比学习，为啥不给推荐序列加噪音呢？？

进交流群请添加小助手微信

关于互联网持续学习圈

互联网持续学习圈是由清华大学计算机系校友、前阿里和微软算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者等，是持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先，文艺其从，陪你进化二十年。

http://mp.weixin.qq.com/s?__biz=MzkwODIxMzA2OQ==&mid=2247487246&idx=2&sn=35b8c8857a55f8faa00d561d8753ca7e

互联网持续学习圈

清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者，持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先，文艺其从，陪你进化二十年。

最新文章

闭源模型的统治时代将结束？Llama3.1系列模型正式开源，最大405B

语言模型是如何获得复杂推理能力的？ICML文章给出新的解释

英伟达又涨了！“中国特供”B20芯片被曝，马斯克豪掷10万块H100训Grok，算力是GPT-4的四倍！

马斯克又整活了！！！特斯拉明年将内部率先启用人形机器人，目标年产10亿台，售价约2万美元

Nvidia提出ChatQA 2，提升LLM的Long Context和RAG能力

重磅！Llama3.1的405B权重和评测提前泄漏

大模型面试最新高频问题整理（三）

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…

微软、Meta继续加码AI，云支出创历史新高 | AI脱水

ICML2024会议召开，Google Research相关活动

Google大语言模型Gemma 2介绍及其微调（上篇）

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

奥特曼深夜发动价格战，GPT-4o mini暴跌99%！清华同济校友立功，GPT-3.5退役

阿里千问团队AutoIF，让LLMs学会自我指导，简单有效，性能显著

【每日Leetcode】贪心系列（二）

千问2技术报告解读

LLM在论文评审中被滥用？ICML2024论文研究结果

【每日Leetcode】BFS系列（一）

AI独角兽开始卖身大厂

如何提升大模型RAG系统的效果？RAG推理增强(二)

2024年大模型LLM还有哪些可研究细分领域？

专为Excel而生的大模型来了！

如何提升大模型的Agent推理规划等能力？

【每日Leetcode】拓扑排序系列

大模型面试最新高频问题整理（二）

AI的尽头是能源？奥特曼投资核能初创公司Oklo有望2027年启动首座反应堆

四万字聊搜索系统

中国AI论文数量全球第一！中科院拿下研究机构双第一，腾讯企业排第三

大模型MOE框架发展系统总结

CoAct：模拟人类社会“全局-局部”多层级规划的多智能体自主协作

【每日Leetcode】DFS系列（一）

高盛研究主管批评“AI泡沫”：投入太多，收益太少，比2000年泡沫更大

AI芯片路线图：3张图表和7大影响

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

【每日Leetcode】堆系列（二）

超越DPO之Step-DPO

LEARN：百川大模型在快手推荐中的应用

【每日Leetcode】并查集系列

大厂开启AI大模型人才抢夺战

Meta关于深度学习推荐系统的Scaling Law的研究

【每日Leetcode】动态规划系列-有状态的序列型

大模型数学能力增强方法总结

Runway凭借Gen-3 Alpha估值将达到40亿美金，为日常性收入的160倍！！

RegMix-用回归任务解决大模型数据混合问题

教育领域大模型技术与应用

微软GraphRAG框架实现逻辑详解

【每日Leetcode】单调栈系列（二）

赢麻了！苹果再获OpenAI董事会观察员席位！0元白嫖ChatGPT，比肩微软

金融领域文档智能应用实践

UniRec：考虑序列时间间隔和item交互频率的序列推荐方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉