中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文

科技 2024-11-16 13:01 广东

来源：量子位

刚刚，EMNLP 2024最佳论文奖新鲜出炉！

5篇中榜论文中，华人学者参与三篇，分别来自CMU、上海交通大学、中国科学院大学等机构。

其中，Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method主要由中科院网络数据科学与技术重点实验、中国科学院大学的学者完成。

论文一作Weichao Zhang；通讯作者郭嘉丰，现任中科院网络数据科学与技术重点实验室常务副主任。

这项研究提出了一个新的数据集和方法，用于检测给定文本是否为LLM预训练数据的一部分，有助于提高LLM训练数据透明度。

EMNLP’24今年收录论文总共2978篇，比去年增长5%，其中2455篇主会议论文，523篇workshop论文。

除最佳论文外，杰出论文也揭晓了，超半数华人学者参与。

顺便提一嘴，EMNLP 2025将于明年11月5-9日，在中国苏州举办！

国内学者们可以搓搓手准备起来了~

接下来，具体康康获奖论文有哪些～

上交大CMU等团队获最佳论文

此次共有5项研究成果获得EMNLP’24最佳论文奖。

1、An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance
（图像能表达千言万语，但每个人都能倾听吗？关于图像再创造的文化相关性）

这篇来自CMU的论文研究了图像跨文化再创作任务。鉴于多媒体内容兴起，翻译需涵盖图像等模态，传统翻译局限于处理语音和文本中的语言，跨文化再创作应运而生。

作者构建了三个包含SOTA生成模型的管道：e2e-instruct 直接编辑图像，cap-edit 通过字幕和 LLM 编辑后处理图像，cap-retrieve 利用编辑后的字幕检索图像，还创建了概念和应用两部分评估数据集。

结果发现，当前图像编辑模型均未能完成这项任务，但可以通过在循环中利用 LLM 和检索器来改进。

2、Towards Robust Speech Representation Learning for Thousands of Languages
（为数千种语言实现稳健的语音表征学习）

这篇来自CMU、上海交大、丰田工业大学芝加哥分校的论文，介绍了一种名为XEUS的跨语言通用语音编码器，旨在处理多种语言和声学环境下的语音。

研究通过整合现有数据集和新收集的数据，构建了包含 4057 种语言、超 100 万小时数据的预训练语料库，并提出新的自监督任务（声学去混响）增强模型鲁棒性。研究结果显示，XEUS 在多个下游任务中表现优异，在 ML-SUPERB 基准测试中超越了其他模型，如在多语言自动语音识别任务中实现SOTA，且在语音翻译、语音合成等任务中也表现出色。

该团队超半数都是华人，其中一作William Chen目前是CMU语言技术研究所的硕士生，此前获得佛罗里达大学计算机科学和历史学学士学位。

3、Backward Lens: Projecting Language Model Gradients into the Vocabulary Space
（逆向透镜：将语言模型梯度投射到词汇空间）

了解基于Transformer的语言模型如何学习和调用信息成为行业一个关键目标。最近的可解释性方法将前向传递获得的权重和隐藏状态投射到模型的词汇表中，有助于揭示信息如何在语言模型中流动。

来自以色列理工学院、特拉维夫大学的研究人员将这一方法扩展到语言模型的后向传递和梯度。

首先证明，梯度矩阵可以被视为前向传递和后向传递输入的低秩线性组合。然后，开发了将这些梯度投射到词汇项目中的方法，并探索了新信息如何存储在语言模型神经元中的机制。

4、Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method
（大语言模型的预训练数据检测：基于散度的校准方法）

这篇论文作者来自中科院网络数据科学与技术重点实验、中国科学院大学、中关村实验室、阿姆斯特丹大学。

通讯作者郭嘉丰，现为中国科学院计算技术研究所研究员、中国科学院大学教授、北京人工智能研究院研究员，中科院网络数据科学与技术重点实验室主任。目前研究方向是信息检索 (Neural IR) 和自然语言理解的神经模型。

他们的研究旨在解决大语言模型预训练数据检测问题，因模型开发者不愿透露训练数据细节，现有方法在判断文本是否为训练数据时存在局限。

基于这样的原因，他们提出 DC-PDD 方法，通过计算文本的词元概率分布与词元频率分布的交叉熵（即散度）来校准词元概率，从而判断文本是否在模型预训练数据中。实验在 WikiMIA、BookMIA 和新构建的中文基准 PatentMIA 上进行，结果显示 DC-PDD 在多数情况下优于基线方法，在不同模型和数据上表现更稳定。

5、CoGen: Learning from Feedback with Coupled Comprehension and Generation
（CoGen，结合理解和生成，从反馈中学习）

来自康奈尔大学的研究团队研究了语言理解和生成能力的耦合，提出在与用户交互中结合两者以提升性能的方法。

具体通过参考游戏场景，部署模型与人类交互，收集反馈信号用于训练。采用联合推理和数据共享策略，如将理解数据点转换为生成数据点。

实验结果显示，耦合方法使模型性能大幅提升，理解准确率提高 19.48%，生成准确率提高 26.07%，且数据效率更高。在语言方面，耦合系统的有效词汇增加，与人类语言更相似，词汇漂移减少。

杰出论文

再来看看杰出论文的获奖情况，此次共有20篇论文上榜。

GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory，香港科技大学研究团队完成，论文共同一作Wei Fan、Haoran Li。

团队提出了一个新框架，基于情境完整性理论来调整大语言模型使其符合隐私法律，提高其在不同情境下检测隐私风险的能力。

Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge，南京大学团队完成，论文共同一作Jiahuan Li、Yiqing Cao。

论文研究了大语言模型在训练数据中存在冲突信息时的学习倾向。

科技巨头获奖团队有微软，Learning to Retrieve Iteratively for In-Context Learning提出了一种创造性的方法，模拟上下文学习示例的选择作为马尔可夫决策过程。

Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs，由Adobe、苹果与罗马大学研究人员联合完成。

论文探讨并挑战了在跨文化机器翻译中翻译文化相关命名实体的传统方法。

此外值得一提的是，华人学者、加州大学洛杉矶分校计算机科学系副教授Nanyun Peng团队这次赢麻了，她参与/指导的三篇论文都获奖了。

三项工作都是关于评估LLM在创意叙事生成方面的能力，分别为：

Measuring Psychological Depth in Language Models（测量语言模型中的心理深度）
Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs（大语言模型能像人类作家一样规划吗？通过与记者对新闻稿的报道比较来评估）
Are Large Language Models Capable of Generating Human-Level Narratives?（大语言模型能生成人类水平的叙述吗？）

以下是完整获奖名单：

最佳论文链接：
[1]https://arxiv.org/abs/2404.01247
[2]https://arxiv.org/abs/2407.00837
[3]https://arxiv.org/abs/2402.12865
[4]https://arxiv.org/abs/2409.14781
[5]https://www.arxiv.org/abs/2408.15992
参考链接：
[1]https://x.com/emnlpmeeting/status/1857176170074460260?s=46
[2]https://x.com/emnlpmeeting/status/1857173122598010918
[3]https://aclanthology.org/events/emnlp-2024/

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群！

大家好，群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享，主要方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）
👆 长按识别，邀请您进群！

http://mp.weixin.qq.com/s?__biz=MzU2NDExMzE5Nw==&mid=2247545801&idx=3&sn=d2490675d614a8b98e447930dedf1052

深度学习技术前沿

本公众号专注于深度学习领域的前沿技术分享和学术交流。推送有关于机器学习、深度学习、强化学习、计算机视觉、自然语言处理等领域干货文章，致力于在第一时间内汇集和发布最新人工智能技术和前沿资讯。

最新文章

12万人面临降薪！国际巨头内部大动荡。。。

RTX 4090可运行，已完全开源，史上最快视频生成模型问世！

一位阿里P9的年薪和家庭资产

黄仁勋与沈向洋院士对谈GPU算力、机器人和爱情

AI顶会AAAI收了一篇论文：没算法没实验，全靠idea思路好...

打破纪录！中国科学家让薛定谔的猫活了23分钟

硅谷最神秘的「黑手党」纷纷出走创业，融资近百亿！足以改变整个AI格局的革命

CV大神，MIT何恺明教授最新课程资料！

六院院士！又一顶尖学者归国，全职加盟清华大学

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走。。。

国际巨头，AMD宣布全球裁员4%！

大模型推理加速技术的学习路线是什么?

吴恩达：大模型的下一个热门方向

3名高中生杀出重围，论文已被顶会 NeurIPS 2024录用

香港城市大学招机器学习 /大语言模型方向全奖博士

教授含泪惜别“双一流”高校：教学，影响了我原创性科研成果的产出

谷歌2024博士奖学金名单揭晓！清华姚班大神、KAN一作大佬入选

被美国“制裁”的中国大学名单。。。

美国司法部勒令谷歌出售 Chrome

耽误业界好多年？ Karpathy：现在回想，真的后悔极了。。。。

校长书记双院士！教育部副部长，任C9党委书记

WHALE来了，南大周志华团队最新成果发布！下一个世界模型？

又一985，落地深圳！

马斯克招人策略曝光：需进行9轮面试，低底薪+股票奖励

中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文

最新版《神经网络和深度学习》中文版.pdf

Make U-Nets Great Again！北大&华为强强联合

ETH官宣制裁中国学生，国防七子等高校均在名单内。。。

清华大学获X-Embodiment最佳论文奖，机器人顶会CoRL 2024

被导师放养，后果可能很严重。。。

50s完成7B模型量化，放大招，4bit直接达到 SOTA

MIT教授，何恺明大神最新课程资料下载！

高校不给教授们涨工资了，开始裁员计划？

一个模型走天下！智源提出全新扩散架构OmniGen

2025QS亚洲大学排名出炉，197所中国高校上榜！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

武汉大学：新增8位“国家杰青”！创历史新高

特朗普回归，硅谷科技圈大变！埃隆·马斯克身价突破3000亿

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科

俄罗斯对谷歌开出天价罚单！远超全球GDP总和

又一院士被“除名”！院士终生制，没了？

投资21.7亿！C9新校区

深圳一家公司造出世界上最酷机器人，卖2-3万美元

涨点神器！100个即插即用注意力模块

90后上海女生，成美国数学大奖首位女性华人得主！

TPAMI 2024｜解耦图神经网络，效果惊艳！

翁荔：掌管OpenAI安全的神

国内外有哪些不错的计算机视觉研究团队或实验室？

10秒创造一个世界！吴佳俊大神最新研究成果，比现有技术快100倍

诺奖得主，受聘西湖大学！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉