明天直播 | ACL 2024精选5篇论文直播分享

科技 2024-09-02 17:03 北京

（本文阅读时间：8分钟）

2024年的 ACL 大会于8月16日完美谢幕。在这场自然语言处理（NLP）和计算语言学领域的顶级国际盛会中，微软亚洲研究院今年共有14篇论文入选。

近期我们邀请粉丝朋友对感兴趣的论文进行了投票，根据投票结果选出的人气最高的5篇论文将在9月3日（明天）下午14:00进行直播分享！

直播信息

直播时间：

2024年9月3日（明天） 14:00-16:30

直播地址：

微信视频号“微软亚洲研究院”

B 站账号“微软科技”直播间

论文及讲者介绍

杜大猷

微软亚洲研究院

异构计算组实习生

杜大猷来自香港科技大学（广州），目前在微软亚洲研究院实习，研究兴趣主要集中在机器学习系统与模型压缩等领域。他正在探索如何实现大型语言模型的高性能推理加速。

分享内容：

BitDistiller: 通过自蒸馏释放低于4比特大模型的潜力

BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation

论文摘要：

大语言模型的精度和性能在低于4比特的时候会严重下降。BitDistiller 协同量化感知训练和知识蒸馏，能够显著提高4比特以下 LLM 在各种复杂任务上的性能，同时减少数据和训练资源需求。

论文链接：

https://aclanthology.org/2024.acl-long.7/

GitHub链接：

https://github.com/DD-DuDa/BitDistiller

王亮

微软亚洲研究院

高级研究员

王亮，现任微软亚洲研究院高级研究员。主要研究方向为信息检索和基础模型的增强。2014年和2017年分别获得北京大学学士和硕士学位。在国际会议和期刊发表论文30余篇，主导开发的 E5 系列文本嵌入模型曾获得广泛关注。

分享内容：

E5-Mistral：大语言模型增强的文本嵌入

Improving Text Embeddings with Large Language Models

论文摘要：

本文提出了一种仅用合成数据和轻量级微调即可获得高质量文本嵌入的方法，无需复杂的多阶段训练流程或大量的标注数据。训练得到的 E5-Mistral 模型刷新了基准测试的最佳结果，并得到众多后续研究工作的跟进。

论文链接：

https://arxiv.org/pdf/2401.00368

GitHub链接：

https://github.com/microsoft/unilm/tree/master/e5

宋恺涛

微软亚洲研究院

高级研究员

宋恺涛，博士毕业于南京理工大学。其研究方向为自然语言处理、大语言模型、AI 智能体。其发表了超过40篇国际学术会议论文和期刊，包括 NeurIPS、ICML、ICLR、ICCV、ACL、EMNLP、KDD、AAAI、IJCAI 等，同时担任多个学术会议和期刊的审稿人。其代表作包括 HuggingGPT / JARVIS 等智能体研究以及 MASS、MPNet 等基础模型训练。

分享内容：

提高大型语言模型在事件关系逻辑预测中的表现

Improving Large Language Models in Event Relation Logical Prediction

论文摘要：

尽管大语言模型（LLMs）在众多领域取得了突破性进展，但我们发现现有的 LLMs 在充分掌握事件关系逻辑的复杂性方面仍然存在困难，常常表现出一致性不足和推理能力有限的问题。针对这一点，我们对现有 LLMs 的逻辑推理能力进行了深入分析，并从生成式，检索式以及微调式的方法出发，来设计有效的方法并提升大模型到实际应用中的性能。

论文链接：

https://arxiv.org/pdf/2310.09158

姜慧强

微软亚洲研究院

研发工程师

姜慧强的研究主要集中在加速推理和训练的高效方法上，包括动态稀疏注意力机制（MInference）、提示压缩（LLMLingua）、KV 缓存压缩、推测解码、模型压缩、稀疏推理（PIT）、神经架构搜索（NAS）以及高效调优，特别是对大语言模型（LLMs）的研究。此外，他还致力于解决自然语言处理中的常见挑战。

分享内容：

LongLLMLingua：通过提示压缩加速和增强长文本LLMs

LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

论文摘要：

长上下文场景中，LLMs 面临更高的计算/API成本、更长的延迟以及性能下降等挑战。一些研究表明，LLMs 的性能依赖于输入提示中关键信息的密度和位置。基于此，我们提出 LongLLMLingua 进行提示压缩，以提升 LLMs 对关键信息的感知，从而应对这些挑战。评估结果显示，在广泛的长上下文任务中，LongLLMLingua 能以更少的成本和更短的延迟实现更高的性能。

论文链接：

https://arxiv.org/abs/2310.06839

张良

中国人民大学

博士研究生

张良，中国人民大学信息学院2020级博士研究生，师从金琴教授，以第一作者身份在 NeurIPS、AAAI、ACL 等顶级会议上发表多篇研究论文，曾在微软亚洲研究院自然语言计算组实习，研究方向为多模态理解和多语言学习。

分享内容：

用我的语言回应：基于大语言模型的回应生成中的语言不一致性缓解

Respond in my Language: Mitigating Language Inconsistency in Response Generation based on Large Language Models

论文摘要：

基于单语言微调的大模型会出现回应语言不一致问题。本文探索解决该问题以实现零样本多语言指令跟随。我们首先分析问题成因，并从训练和推理两个阶段提出解决方法。实验表明，在无需多语言指令数据的情况下，我们的方法可以大幅提高模型一致语言回应的能力。

论文链接：

https://aclanthology.org/2024.acl-long.229/

日程安排

14:00-14:30

分享内容：

BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation

分享者：

杜大猷

14:30-15:00

分享内容：

Improving Text Embeddings with Large Language Models

分享者：

王亮

15:00-15:30

分享内容：

Improving Large Language Models in Event Relation Logical Prediction

分享者：

宋恺涛

15:30-16:00

分享内容：

LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

分享者：

姜慧强

16:00-16:30

分享内容：

Respond in my Language: Mitigating Language Inconsistency in Response Generation based on Large Language Models

分享者：

张良

锁定直播间，我们不见不散！

你也许还想看：

http://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649501553&idx=1&sn=be02dc5c170574b739ea9c8c0e6e2cd1

微软亚洲研究院

微软亚洲研究院，专注科研26年，盛产黑科技

最新文章

Rust自动形式化证明、LLMs图模式理解、机械臂动作模仿

科学匠人 | 对话松下康之：以具身智能突破人工智能与物理世界的边界

对话《Nature》论文作者，揭秘AI2BMD背后的故事

近实时的全球碳预算，揭示2023年陆地碳汇能力锐减

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

MarS：生成式基座模型时代的通用金融市场模拟引擎

明天直播 | ECCV 2024精选论文分享

如何泛化AI的深度推理能力？

简单而强大：DIFF Transformer降噪式学习，开启模型架构新思路

科学匠人 | 刘海广：发挥“生物多样性”法则的力量，寻找科学的新答案

VIS 2024最佳论文 | VisEval：推动自然语言生成可视化的全新评估框架

从预测风暴到设计分子：人工智能基础模型如何加速科学发现

ECCV上新 | 精选计算机视觉领域6篇前沿论文

Data Formulator：使用prompt就能轻松完成数据可视化

为什么你的LLMs玩不转外部知识？RAG分类学助你诊断！

守护记忆：多模态大模型为认知障碍患者带来全新的训练方法

科研上新 | 金融模型、LLMs结构化剪枝、多模态对齐、AI芯片深度学习编译器

开源工具RD-Agent：让研究与开发过程更智能

VALL-E 2，大幅提升语音大模型的稳健性与自然度

微软亚洲研究院2025校园招聘正式开启！

跨越模态边界，探索原生多模态大语言模型

明天直播 | ACL 2024精选5篇论文直播分享

代码摘要、生成、翻译、修复全覆盖... WaveCoder开启代码智能新篇章

集成大语言模型与产业数据智能，迈向“产业基础模型”

Microsoft Research Forum第四期来了！一起来看多模态模型的最新技术进展与应用

星跃计划 | 微软亚洲研究院北京+温哥华联合科研项目上新，聚焦大语言模型！

开启因果发现新范式！解密复杂系统的核心机制

微软亚洲研究院多项创新技术，弥合大模型低比特量化与终端部署间鸿沟

顶尖高校优秀学子齐聚微软亚洲研究院新星科技节，论道科研！

如何理解和探索大模型的多语言能力？

执业医师转型人工智能研究员，王子龙说“跨”才是关键

ACL上新 | 6篇精选论文带你看最新LLMs进展

周二直播 | AI for Science最新论文分享

USENIX ATC 2024最佳论文 | 微软如何提升云AI基础设施的可靠性

图像解码器；多头混合专家网络；视觉模型美学对齐；医学视觉任务适应基准

大语言模型应用如何实现端到端优化？

LSR-MP：突破分子模拟瓶颈，探索知识引导的AI范式

明天直播 | ICML 2024精选论文分享

nnScaler：重塑深度学习并行策略，大幅提升训练效率

ICML 2024 | 微软亚洲研究院邀你共聚机器学习领域盛会

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

数据驱动模型提升电动汽车电池退化预测准确率

ProbTS：时间序列预测的统一评测框架

你应该知道的10个AI术语

实习 | 微软亚洲研究院“明日之星”开放岗位

脑启发设计：人工智能的进化之路

以智能化为舵手，引领现代计算机系统架构新航向

构建负责任且大规模的生成式人工智能的七个启示

AI赋能天气：微软研究院发布首个大规模大气基础模型Aurora

CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计，到文本布局分析，微软亚洲研究院精选论文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉