大语言模型的机制设计

文摘科技 2024-01-30 11:10 广东

作者：徐睿辰

大语言模型的机制设计（图片来自于网络）

研究背景

当前，网络生态系统主要依靠拍卖决定向用户展示哪些广告和商业信息。在拍卖过程中，广告商通过竞标获得向用户展示创意与内容的机会。许多常见的网络格式，如文本、横幅、视频、应用程序等，都其独特的特征。根据这些特征，广告发布商开发出相应的拍卖工具对它们进行拍卖。相比之下，目前AI生成内容格式作为一种新兴的潜在的广告载体，缺乏一套成熟有效的拍卖机制来进行广告的发布。本文作者探讨了如何利用拍卖机制影响大模型生成输出，从而实现广告的发布。

作为一项新兴技术,大语言模型在广告拍卖机制设计上提出了新挑战。大语言模型的一些新的特征以及需求包括：

用户偏好的建模：拍卖理论通常通过价值函数对用户偏好进行建模，每个拍卖结果对应一种用户的效用。然而，大语言模型是生成模型，它们不会为每个拍卖结果分配效用，而是通过神经网络模型隐含地编码用户对分配结果的偏好，并输出连续概率分布。
随机的必要性：大语言模型在很大程度上依赖于输出随机性。如果被大语言模型被强制输出确定结果，大语言模型的性能会因此变差。所以，聚合大语言模型输出的拍卖机制的输出结果也必须服从一个概率分布。
技术的兼容性：拍卖解决方案应与当前的大语言模型技术保持技术兼容。它们应该仅使用当前模型可用的信息，并且易于集成到系统中。理想情况下，分配和支付应通过对大语言模型输出的简单操作获得。
计算的高效性：由于大语言模型模型的查询成本很高，拍卖结果的计算不应增加过多的查询开销。具体来说，拍卖不应增加模型推理的调用次数。

研究方法

本文设计了针对不同广告商偏好概率的拍卖方法，该方法应该满足

支付单调性：当一个广告商的出价增加时，他的支付金额不应减少；
聚合一致性：当一个广告商的出价增加时，他会获得更高的效用。

基于这两个性质，本文设计了一种大语言模型的微调方法，可以通过以下目标函数重新训练大语言模型进行广告商偏好概率的聚合

$\min_f\sum_i b_i D(f_i(x)||f(x))$ 其中，散度 $D(\cdot||\cdot)$ 代表两种分布距离的计算函数， $b_i$ 对应每个用户的竞标结果。

研究结果

本文作者在存在两个竞标者的场景下对大语言模型拍卖结果进行仿真，其中

$\lambda=\frac{b_1}{b_1+b_2}$ 代表了两个广告商投标的比例。

图1 生成结果示例

两个竞标者分别对应了Alpha航空公司和Beta度假村，他们都希望自己的内容被展示。该结果表明，大语言模型可以根据竞标结果生成对应的广告信息。图1中展示了生成结果的示例。我们可以看到，对于两种聚合函数，当𝜆从1减少到0时，生成的文本大致遵循以下模式：“仅Alpha航空公司”→“Alpha航空公司和Beta度假村都有”→“仅Beta度假村”。这是因为𝜆从1减少到0相当于投标𝑏2从0增加到∞，而投标𝑏1保持不变（或者投标𝑏1从∞减少到0，投标𝑏2保持不变）。

参考文献

[1] Duetting, P., Mirrokni, V., Leme, R. P., Xu, H., & Zuo, S. (2023). Mechanism Design for Large Language Models. arXiv preprint arXiv:2310.10826.

写在最后

我们的文章可以转载了呢~欢迎转载与转发呦

想了解更多前沿科技与资讯？

点击上方入口关注我们！

欢迎点击右上方分享到朋友圈

香港中文大学（深圳）

网络通信与经济实验室

微信号 : ncel_cuhk

http://mp.weixin.qq.com/s?__biz=MzU5NDIyODY4Ng==&mid=2247489085&idx=1&sn=11bd5c846a9cc4260da5fdd1b2faaad5

网络通信与经济

介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学（深圳）网络通信与经济学实验室

最新文章

基于年龄奖励机制: 提升信息的新鲜度

利用大语言模型进行差分隐私数据生成

以隐贝叶斯推理解释上下文学习

基于多主体动态博弈视角的深度神经网络训练优化

2024年夏季网络通信与经济学实验室（NCEL）研讨会

解耦知识蒸馏

如何激励去中心化系统的资源池化？

通过数据交易提升在线算法决策的公平性

模型间博弈提升大语言模型输出易读性

借助大语言模型评估文本信息

大语言模型挑战众包工人

基于联合选址和可修复库存模型的城市电车换电服务的规模化布局与运营研究

面向生产环境的大语言模型联邦学习

Galaxy：面向边缘大模型协同推理的分布式边缘智能系统

能量感知年龄优化：基于能量采集的多源更新网络系统中的AoI分析

差分隐私联邦学习中用户选择和隐私补偿机制设计

活动回顾｜李葆春教授：实证联邦学习的数据隐私保护

活动回顾｜文勇刚教授：GPU数据中心大规模深度学习负载调度

差分隐私在机器学习中的实施

联邦遗忘学习概述

神经网络中的特征学习

基于大语言模型的电力系统通用人工智能展望：理论与应用

离线强化学习概述

竞合：数据共享在电子商务中的新策略

众筹中的策略性定价与信息披露

联邦学习在无线网络中的异构用户自适应采样优化算法

对抗性机器学习中的博弈论

大语言模型的机制设计

如何让同行评审更加科学

联邦学习与模型服务提供共存：一种模型训练和模型推理联合优化方法

网络通信与经济实验室（NCEL）2023研讨会暨成立十五周年团建活动回顾

活动回顾 | 牛志升教授：突发流量下节能服务的最佳休眠策略

车对车通信下的信息机制设计

活动回顾 | 香港中文大学（深圳）深圳市群体智能驱动的低碳能源网络重点实验室揭牌仪式暨启动会成功举办

考虑数据新鲜度的移动群智感知激励机制

预测策略性储能行为

边缘内容缓存与分享的经济分析

隐私资源：如何在差分隐私联邦学习中合理分配

2023年夏季网络通信与经济学实验室（NCEL）研讨会

香港中文大学（深圳）黄建伟教授招聘博士生、博士后！

8月18日9:00，Junshan Zhang教授介绍热启动强化学习相关研究

喜讯 | IEEE TNSE 2022年度影响因子攀升至6.6！

喜讯 | 理工学院12位教授获Research.com评为其学术领域内2023顶尖科学家

当数据源耦合时，我们如何优化信息新鲜度？

高精度地图众包中高效车辆选择的轨迹穿透表征

基于模型分解训练的异构多模态联邦学习

基于排序特征学习的多智能体少样本感知

能源区块链系统中提升交易吞吐量的机制设计

基于众包数据标注的联邦学习激励机制设计

【讲座通知】Insights from the Editor-in-Chief: My Recent Experiences

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉