国内首本大模型推荐系统著作来了!

科技   2024-10-28 16:36   浙江  

👆点击“博文视点Broadview”,获取更多书讯


--文末赠书--

文/刘强

ChatGPT与大模型技术的影响已经渗透到各行各业,无论是谁,都无法忽视其带来的革命性变化。

自2023年初以来,我一直密切关注大模型的进展,特别是在推荐系统中的应用。

在这个每天都有新突破的时代,保持技术的领先至关重要。为此,我花费了近一年的时间,撰写了《大模型推荐系统:算法原理、代码实战与案例分析》一书。

这是国内首本系统介绍大模型在推荐系统中应用的书籍,我希望这本书能够为国内的技术普及和推广贡献一份力量,引发更多关于大模型技术在推荐系统领域的探索和应用。

大模型通过海量的互联网文本信息,通过在底层构建Transformer架构,预测下一个token(token可能是一个单词也可能是一个单词的一部分)出现的概率来训练模型(BERT等模型是基于左右两边的token预测中间的token,这属于模型架构上的不同)。

由于有海量互联网文本数据,模型的训练过程不需要人工标注(但需要对数据进行预处理),一旦模型完成预训练就可以用于解决语言理解和语言生成任务。

简单来说,大模型基于海量文本中token序列中下一个token出现的概率进行统计建模,来学习在给定语言片段后出现下一个token的概率来解决下游任务(比如文本摘要、翻译、生成文本等)。

对于推荐系统,用户过往的操作行为其实就是一个有序的序列,每个用户的操作序列类似于一篇文本,所有用户的操作行为序列类似于大模型的训练语料库。预测用户下一个操作行为就类似于预测词序列的下一个token(这里推荐系统的物品类似语言模型中的一个token)。

通过这个简单的类比,我们就知道推荐系统可以被嵌入到大模型的理论框架中。因此,直观地看,大模型一定可以用于解决推荐系统问题。

上面的思路比较简单,只用到了用户与物品的交互信息。实际上,推荐系统的数据来源更复杂,除了有用户交互序列,还有用户画像信息、物品画像信息等。部分用户画像、物品画像信息(比如用户的年龄、性别、偏好等,物品的标题、标签、描述文本等)可以利用自然语言来呈现,行为交互序列、用户画像、物品画像等信息都可以输入大模型中,给大模型提供更多的背景知识,最终的推荐会更加精准。

推荐系统涉及很多的多模态数据(比如物品有描述文本、有图片、甚至有视频介绍等),这类异构的信息对于推荐系统的效果相当重要。多模态信息可以通过转化为文本信息供大模型使用,目前的多模块大模型可以直接处理多模态数据,这类多模态大模型也可以直接用于推荐系统。

即使不使用图片、视频等多模态数据,目前只利用好文本数据,就能使大模型的能力十分强大了。大模型的强大之处是具备ICL(zero-shot、few-shot)的能力,只需要在使用大模型过程中设计一些prompt(提示词)和模板(template)来激活大模型的推荐能力。

大模型有上百亿、上千亿、甚至上万亿参数,是一个非常庞大的神经网络。当用一些prompt告诉大模型作为一个推荐系统角色进行推荐时,就激活了深度神经网络中的某些连接,这些连接是神经网络的某个子网络,而这个子网络具备进行个性化推荐的能力,这个过程非常类似人类大脑神经元的工作机制,比如你看到美食时,就会激活大脑中负责进食的区域——这个区域是大脑整个复杂神经元网络的子网络,导致看到美食可能流口水、吞咽等行为,这里看到美食就类似大模型的prompt。

另外,我们在进行头脑风暴时,突然被别人启发想到某个绝妙的创意也是一种激活过程。对于few-shot更复杂一些,需要在prompt中告诉大模型一些怎么进行推荐的案例(比如用户看了A、B、C三个视频后,会看另外一个视频D),让它临时学习怎么做推荐。

除了直接利用大模型的ICL、CoT能力进行推荐,我们可以将推荐系统相关的数据按照大模型的输入、输出范式进行准备,然后通过监督学习微调大模型,这样可以让大模型更好地适配具体的推荐场景,这也是大模型应用于推荐系统的一个非常有价值的方向。

另外,大模型强大的生成能力可以生成任何形式的符号序列,借助外界的工具(比如机械臂),大模型还能制造“新产品”,这一能力同样可以用到推荐系统中:在新闻推荐中,大模型可以将海量发生的事件进行原子化、然后进行重组,以你感兴趣的叙述方式展现给你,为你“创造”新的信息;大模型还可以基于用户的偏好,为用户设计喜欢的“服装”,进而通过3D打印自动生产个性化的产品。

通过前面的介绍,相信你能够大致知道为什么大模型可以应用于推荐系统,以及将大模型应用于推荐系统的独特优势,怎样将大模型应用于推荐系统呢?这就是本书的核心主题——将大模型应用于推荐系统的4大范式:生成范式、预训练范式、微调范式、ICL推荐范式。书中为每个范式都提供了具体的原理讲解、案例分析和算法实现,帮助你掌握每个范式的核心思想。

推荐系统作为过去10年互联网科技中最重要的技术手段,是互联网公司最核心的商业化工具,创造了抖音、TikTok等以推荐系统为核心引擎的、具备极大变现效率的产品。一般来说,越是具备商业价值的场景,人类越会利用新技术去变革它。推荐系统的商业价值巨大,因此也是以大模型为驱动引擎的新技术革新的方向之一!

借助当前的(多模态)大模型,企业级推荐系统可以获得更强、更新技术的赋能,从数据生成、特征构建、召回、排序、内容生产、流程控制、推荐解释、冷启动等多个维度获得能力的增强。

在上面的企业级推荐系统架构图中,数字标注的部分是可以利用大模型进行优化、增强、甚至是取代的,具体体现在9类场景中:

(1) 大模型生成行为数据

(2) 大模型生成兴趣画像

(3) 大模型生成个性商品描述

(4) 大模型进行召回(语义召回)

(5) 大模型排序(ICL)

(6) 大模型进行推荐解释

(7) 大模型解决冷启动

(8) 大模型控制业务流程

(9) 大模型进行产品设计&生产

这些应用场景是当前推荐系统新的机会。

以推荐系统最有业务价值的电商场景来说,大模型在上述场景中都能用得上。下面用一个脑图来总结大模型在电商场景上的应用。

这部分对应本书中案例部分的重点内容——大模型在电商场景中的7种应用:

有了大模型加持的推荐系统就像人有了大脑一样,可以将传统的推荐技术等融合到一个统一的对话式框架下,让大模型利用已有的工具(传统的召回算法、搜索、比价等)提供更加个性化、更好交互友好的推荐。

将大模型比作人类的大脑,大模型对推荐系统的最大影响莫过于革新了整个推荐交互流程。基于大模型的对话能力,我们可以采用类似ChatGPT的互动式对话方式为用户进行推荐,这时推荐系统就升级成了一个服务于每个用户的、个性化的专业顾问。

比如,阿里巴巴在2023年上半年在淘宝上开启了淘宝问问(一个对话式推荐产品)的内测。

除此之外,支付宝也发布了基于对话式交互的“支小宝”新产品,百度也将大模型应用到了最核心的广告营销场景,Meta已经在尝试利用大模型技术进行万亿级参数的新一代推荐系统的尝试……可见,互联网大厂已经走在了前面,尝试将大模型应用到推荐系统中。

掌握大模型在推荐系统中的方法,才能更好地应对AI变革大势。

希望你可以从本书中获得启发和帮助,尽早入门和实践大模型推荐系统!

↑双十一优惠中↑

双十一优惠中,快快抢购吧!



互动有奖

按以下方式与小编互动,即有机会获赠图书!

活动方式:在评论区留言参与你是如何看待大模型推荐系统的”等话题互动,届时会在参与的小伙伴中抽取3名幸运鹅赠送本书一本!

活动时间:截至10月30日中午12点开奖。

快快拉上你的小伙伴参与进来吧~~

机器学习实验室
专注于机器学习和深度学习技术与实践。
 最新文章