京东搜索重排：基于互信息的用户偏好导向模型

科技 2024-08-26 15:00 北京

本文导读

本文入选顶会SIGIR 2024，为你揭晓京东搜索重排多样性与效率平衡的解决方案！

京东零售搜推团队提出了一种基于互信息的偏好导向多样性模型（PODM-MI），该模型可使商品能够根据用户多样性偏好进行自适应排序，已在京东主搜全量部署，并在UCVR和多样性上均有显著收益。

SIGIR 24: A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search

公众号后台回复“京东搜索重排”获取完整论文。

摘要

重排是一种通过考虑商品之间的相互关系（上下午）来重新排列商品顺序以更有效地满足用户需求的过程。现有的方法主要提高商品打分精度，通常以牺牲多样性为代价，导致结果可能无法满足用户的多样化需求。而旨在提高多样性的方法可能会降低打分精度，无法满足商品打分精准性的要求。为了解决上述问题，本文提出了一种基于互信息的偏好导向多样性模型（PODM-MI），在重排过程中同时考虑准确性和多样性。具体而言，PODM-MI采用基于变分推理的多维高斯分布来捕捉具有不确定性的用户多样性偏好。然后，我们利用最大变分推理下来最大化用户多样性偏好与候选商品之间的互信息，以增强它们的相关性。随后，我们基于相关性得出一个效用矩阵，使商品能够根据用户偏好进行自适应排序，从而在上述目标之间建立平衡。该模型已在京东主搜全量部署，且在UCVR和多样性上均有显著收益。

背景及现状

在京东商城中，在用户从搜索到下单的过程中存在不同的决策阶段（买、逛等），用户不同的决策阶段对多样性也有不同需求。如下图所示，用户从搜索“连衣裙”到逐渐缩小范围到“荷叶边连衣裙”，这一过程中，他们的搜索意图从多样化逐渐变得明确和具体。

重排作为靠近后链路的一环，需要在效率指标和多样性之间找到平衡，并充分考虑用户的个性化需求。通常来说，用户的需求是多样化的，即在某些场景下，他们对排序结果的准确性要求较高，而在其他场景下，他们则更注重排序结果的多样性。因此，一个合适的重排算法应能够自适应地根据用户需求进行调整：当用户需要多样性时，搜索排序结果应包含尽可能多的不同商品，以满足用户的多种兴趣；而当用户需要准确性时，排序结果应优先展示最符合用户兴趣的单一类别商品。

在解决上述问题的过程中，我们面临两个主要挑战：

1. 准确建模用户的决策意图：用户的意图是动态且复杂的，会在多次搜索和交互中逐渐演变。捕捉这种演变过程并准确建模用户的决策意图是一个关键挑战。

2. 增强搜索结果与用户演变意图的匹配：即使我们能够成功建模用户的意图，如何确保搜索结果能够动态地与用户不断演变的意图相匹配也是一个难题。现有的排序算法通常固定在某种优化目标上，缺乏灵活性，难以在多样性和准确性之间进行自适应的权衡。

为了解决上述挑战，我们提出了PODM-MI（基于互信息的偏好导向多样性模型）。

PODM-MI

PODM-MI模型以待排序商品及其sideinfo、用户行为流等作为输入。首先，我们使用PON捕捉用户的多样性偏好和候选商品的多样性表示。然后，SAM增强用户多样性偏好与候选商品多样性之间的一致性。从这种增强的一致性中，我们得出一个效用矩阵，该矩阵会动态调整用户偏好，从而重新排序最终的排名结果以更好地满足用户需求。

2.1 PON：用户偏好建模

在京东的搜索场景中，历史query及其对应session的商品提供了用户意图随着session变化的重要表示。因此，我们的方法不仅包括常规的用户历史行为流，还加入了用户的query流，以更好地捕捉用户偏好。

在确定用户偏好建模特征之后，下一步是选择适当的建模方法来表示用户偏好。传统模型往往将用户偏好的动态性视为确定性的，在embedding空间中生成静态的用户嵌入。然而，这种方法在捕捉用户偏好的复杂性方面不够准确。相比之下，分布表示引入了不确定性，并提供了更大的灵活性。这种方法能够更好地适应用户偏好随时间和情境变化的复杂性。通过将用户偏好表示为一个概率分布，而非单一的固定嵌入，我们可以更准确地反映用户的多样化需求和行为模式。也有部分研究表明将用户偏好表示为分布而非嵌入具有显著的优越性。这些研究表明，分布表示不仅能够更好地捕捉用户偏好的动态变化，还能在实际应用中提供更高的预测精度和灵活性。

因此，如上图所示，我们使用多维高斯分布来建模用户偏好的演变趋势。该分布由均值向量和对角协方差矩阵表征，使我们能够更好地捕捉用户偏好的动态特性。同样的，后续商品序列的多样性表征也用同样的方式进行表征。

此外，高斯分布还可以用于测量收敛和发散趋势。较大的方差表示更均匀的分布，而较小的方差则表示更集中的分布。这个方差可以间接反映用户的偏好趋势。

2.2 SAM 利用互信息优化排序结果

在建模用户偏好和候选商品的多样性之后，下一步是确保排序结果与用户意图紧密匹配。为此，我们可以使用互信息（一种衡量两个变量之间共享信息量的方法）来量化候选商品与用户偏好之间的相关性。通过最大化这两个因素（用户偏好和商品多样性）之间的互信息，我们确保候选商品的分布与用户意图的分布紧密对齐。

然而，直接估计和最大化互信息通常是不可行的。为了解决这一挑战，我们借鉴了变分推理的文献，引入了一个变分后验估计器。该方法允许我们为互信息目标推导出一个可行的下界，具体推导过程如下，这儿不再赘述。

在增强一致性之后，我们设计了一个可学习的效用矩阵，以进一步使最终的排序结果与用户偏好对齐。通过调整矩阵的数值，我们可以控制不同商品和用户趋势在排序过程中的相对重要性。例如，如果某些商品更符合用户偏好，我们可以调整矩阵的数值，使其在排序过程中占据更大的权重。这种方法允许根据用户意图自适应地调整排名结果。

2.3 优化函数及最终loss

优化函数：

最终loss：

前者是prm分类loss，后者是互信息loss

方案总结：

2.4 实验结果及可视化分析

为了验证PODM-MI的有效性，我们在京东电商搜索引擎中进行了在线A/B测试。PODM-MI不仅提高了用户购买的可能性，还增加了搜索结果中商品的多样性。需要注意的是，每增加0.10%的UCVR都会为公司带来巨大的收入，因此PODM-MI取得的提升是非常显著的。

不同排序结果的熵值对应于不同的用户意图。为了评估排名结果是否与用户意图高度相关，我们使用T-SNE^[17]降维方法可视化了根据用户意图分类的排名结果熵值分布。为了增强聚类效果，我们将熵值水平分为8个不同的组别。如上图所示，不同多样性趋势下的用户行为流聚类非常明显，用户意图分布聚类的边界清晰可见。这表明所提出的模型成功捕捉到了用户意图的潜在趋势，并相应地调整了排名结果。

值得注意的是，随着用户意图变得更加多样化，排序结果的熵值也随之增加，反映出排名结果的多样性更高。相反，当用户意图变得更加明确时，熵值会降低，表明排名结果的准确性更高。

案例一：

Query流：switch,塞尔达，手机壳，榔头，油烟机，油烟排风管

当前Query：果蔬脱水机

案例二：

Query流：连衣裙，连衣裙通勤，连衣裙s，拉夏贝尔夏京东自营，

当前Query：veromoda官方旗舰店

此外，我们还用一个更具体的案例来说明我们方法的有效性。当用户的历史搜索查询非常多样时，如：Switch，塞尔达，手机壳，锤子，油烟机，排气管，在这种情况下，当用户输入“蔬菜水果脱水机”后，我们的方法比基线方法产生了更多样化的结果。另外，还有一个收敛趋势的案例。当用户搜索“连衣裙”并访问相应的店铺后，再次输入该店铺时，我们的方法比基线方法产生的结果更加集中，并且更好地与用户的历史搜索记录相匹配。

未来迭代方向

• 引入更精细的特征，更好的建模用户的逛买意图

• 用户意图建模更新的进一步优化

• 用户意图建模显式影响

写在最后

我们京东搜索算法部目前有大量的社招和实习机会，包括基于大模型的生成式召回/排序等，诚邀有志之士加入。无论您是技术专家还是新兴人才，我们都期待您的加入，共同推动技术的进步和创新。欢迎大家踊跃投递简历，期待与您在京东相遇！欢迎大家交流与探讨，简历投递和建议反馈可联系wanghuimu1@jd.com, limingming65@jd.com。

团队相关成员：

王彗木博士：中科院自动化所博士，亦城优秀人才，CCF 中国计算机学会专业会员，研究方向为大模型、强化学习，目前在京东从事主搜排序及生成式召排工作。

李明明博士：中科院信工所博士，亦城优秀人才，CCF 中国计算机学会专业会员，研究方向为大模型、语义检索，目前在京东从事主搜召回及生成式召排工作。

团队最近相关工作：

1. Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval （arxiv：2407.21488）

2. Generative Retrieval with Preference Optimization for E-commerce Search（arxiv：2407.19829）

3. A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search（SIGIR 24 ACCEPTED）

4. MODRL-TA: A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search（CIKM 24 ACCEPTED）

5. Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model（SIGIR 24 ACCEPTED）

6. Adaptive Hyper-parameter Learning for Deep Semantic Retrieval （EMNLP 2023 ACCETPED）

推荐阅读

京东秒送LBS容灾数据备份实战

【京东保险-技术平台部-平台研发部】一群AI卖保险的程序员

一文了解MySQL索引机制

生成式推荐系统与京东联盟广告-综述与应用

京东2025博士管培生项目正式启动！

🤝关注【京东技术】后台回复【加入京东】获取专属社招和校招内推码！

底层能力：维护用户基础数据、行为数据建模、用户画像分析、精准营销策略

http://mp.weixin.qq.com/s?__biz=MzU1MzE2NzIzMg==&mid=2247497142&idx=1&sn=a77f135867a41232cdd3a9027021985f

京东技术

京东官方技术分享平台。你想知道的京东前沿技术、创新思考、开源方案...这里应有尽有！

最新文章

揭秘JDQ限流架构：实时数据链路的多维动态带宽管控|京东零售技术实践

简洁至上——探索产品与技术的优雅原则

走进京东零售广告研发部：大模型时代下的新一代广告系统

基于大模型搭建的运力智能机器人

AIGCDesign——开放式跨端AI组件解决方案

1024节日快乐 | 京东技术人的N种可能

2024中国计算机大会，我们在现场！

揭秘动态化跨端框架在鸿蒙系统下的高性能解决方案

京东金融APP的鸿蒙之旅：技术、挑战与实践

鸿蒙跨端实践-长列表解决方案和性能优化

给Java同仁单点的AI"开胃菜"--搭建一个自己的本地问答系统

防御性编程：让系统坚不可摧

一位架构师的自述：在尚未踏入的世界成为你自己

史无前例！移植V8虚拟机到纯血鸿蒙系统

整洁架构演进之路——京东广告投放平台实战

鸿蒙跨端实践-布局方案介绍

【黄金圆环】在研发领域的实践分享

京东鸿蒙上线前瞻——使用 Taro 打造高性能原生应用

买药秒送 JADE动态线程池实践及原理浅析

业务复杂度治理方法论--十年系统设计经验总结

万字长文浅谈三高系统建设方法论和实践

Proxyless的多活流量和微服务治理

京东搜索重排：基于互信息的用户偏好导向模型

AI大模型快速生成题库-助力业务人效提升10+倍

京东秒送LBS容灾数据备份实战

【京东保险-技术平台部-平台研发部】一群AI卖保险的程序员

一文了解MySQL索引机制

「重构：改善既有代码的设计」实战篇

不只是前端，后端、产品和测试也需要了解的浏览器知识（二）

京东集团项目管理人才发展通道代表受邀参加第三届中国PMO&PM大会

高并发系统的艺术：如何在流量洪峰中游刃有余

引入JaCoCo导致的类型转换问题分析

如何手搓一个自定义的RPC（远程过程调用框架）

让大模型在产业先跑起来，京东云八大产品全面亮相

从C端到B端：我的前端技术进阶之路

记一次大库大表的治理过程

互动有礼 | 从校招新星到前端技术专家的成长之路

Code Review：提升代码质量与团队能力的利器

京东百万级调度系统(Buffalo)架构解密

TaD+RAG-缓解大模型“幻觉”的组合新疗法

看完这篇，你的API服务设计能力将再次进化!

数字化时代的数据管理：多样化数据库选型指南

京东.Vision首登苹果Vision Pro 背后的技术探索

动态线程池思想学习与实践

托寄物智能识别——大模型在京东快递物流场景中的应用与落地

Java开发者LLM实战——使用LangChain4j构建本地RAG系统

AI绘图实践-用人工智能生图助力618大促

万字长文浅谈系统稳定性建设

进程还在，JSF接口不干活了，这你敢信？

生成式推荐系统与京东联盟广告-综述与应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉