导读 本文详细介绍了基于大模型的生成式检索。
1. 背景/现状介绍
2. 从 Lexical based 方向深入探究大模型生成式检索的应用
3. 从 SemanticID based 方向深入探究大模型生成式检索的应用
4. 未来展望
5. 问答环节
分享嘉宾|王彗木 京东算法工程师
编辑整理|王红雨
内容校对|李瑶
出品社区|DataFun
背景/现状介绍
1. 业务场景概述与搜索链路挑战
链路损耗规避:摒弃传统多步骤流程中的信息衰减,实现 Query 至结果展示的一体化。 索引管理优化:将原有索引转换为轻量级索引,简化数据库管理,显著降低存储与检索开销。 模型表现升级:持续迭代优化每一步推荐过程,集成 GPT 等先进语言模型,深化特征抽取,增强理解和生成能力,特别在多样化和长尾商品描述中展现卓越效能。 知识融合增强:挖掘大型语言模型蕴含的世界知识,促进推荐智能化与个性化,助力冷启动破解及长尾产品推广。
Lexical 直接受益于大语言模型的强大功能,无需附加信息导入即可充分发挥模型效能,展现出较高的透明度与灵活性; Semantic ID 则擅长抽象化处理,通过数字编码精炼文本内涵,适用于深度挖掘文本背后的语义关联。
Lexical based
任务重定义:首要是对原始任务进行改造,通过词语切割、排序与重组技术重构商品标题,将“Query2Title”任务转变为更易于管理的“Query2MultiSpan”,以简化生成路径,提升处理效率。 监督微调:运用垂直领域数据对模型进行精细调整,针对性强化,以降低生成过程中的误差概率,保证产出标题的质量和相关性。 偏好优化(DPO):通过组织偏好样本来校准模型偏好,使生成结果紧密贴合用户的实际行为模式,如点击或购买倾向,确保输出内容更受用户青睐。 约束搜索(Constraint Beam Search):在最终推理阶段,实施约束机制,避免模型产生无效或不符合规范的片段,保障所有生成内容的有效性与准确性。
SemanticID based
启发式:直接去除大路由节点层。这可能导致空间容量不足。需要注意的是,这里首先要生成一个L 层的语义 ID(SID),然后再移除第二层,这与直接生成一个两层的 SID 不同,因为后者可能仍然存在大的路由节点。 变长式:自适应移除大路由节点层头部 topK token。使语义 ID 成为一个可变长度的结构。这里使用了 top@K 策略,并设定一个阈值 p。这种方法确保了分布保持不变,同时有选择地减少了“沙漏”效应的影响
未来展望
问答环节
分享嘉宾
INTRODUCTION
王彗木 李明明
京东
算法工程师
王彗木博士:中科院自动化所博士,亦城优秀人才,CCF 中国计算机学会专业会员,研究方向为大模型、强化学习,目前在京东从事主搜排序及生成式召排工作。
李明明博士:中科院信工所博士,亦城优秀人才,CCF 中国计算机学会专业会员,研究方向为大模型、语义检索,目前在京东从事主搜召回及生成式召排工作。