(本文阅读时间:8分钟)
2024年的 ACL 大会于8月16日完美谢幕。在这场自然语言处理(NLP)和计算语言学领域的顶级国际盛会中,微软亚洲研究院今年共有14篇论文入选。
近期我们邀请粉丝朋友对感兴趣的论文进行了投票,根据投票结果选出的人气最高的5篇论文将在9月3日(明天)下午14:00进行直播分享!
直播时间:
2024年9月3日(明天) 14:00-16:30
直播地址:
微信视频号“微软亚洲研究院”
B 站账号“微软科技”直播间
杜大猷
微软亚洲研究院
异构计算组实习生
王亮
微软亚洲研究院
高级研究员
王亮,现任微软亚洲研究院高级研究员。主要研究方向为信息检索和基础模型的增强。2014年和2017年分别获得北京大学学士和硕士学位。在国际会议和期刊发表论文30余篇,主导开发的 E5 系列文本嵌入模型曾获得广泛关注。
分享内容:
E5-Mistral:大语言模型增强的文本嵌入
Improving Text Embeddings with Large Language Models
论文摘要:
本文提出了一种仅用合成数据和轻量级微调即可获得高质量文本嵌入的方法,无需复杂的多阶段训练流程或大量的标注数据。训练得到的 E5-Mistral 模型刷新了基准测试的最佳结果,并得到众多后续研究工作的跟进。
论文链接:
https://arxiv.org/pdf/2401.00368
GitHub链接:
https://github.com/microsoft/unilm/tree/master/e5
宋恺涛
微软亚洲研究院
高级研究员
宋恺涛,博士毕业于南京理工大学。其研究方向为自然语言处理、大语言模型、AI 智能体。其发表了超过40篇国际学术会议论文和期刊,包括 NeurIPS、ICML、ICLR、ICCV、ACL、EMNLP、KDD、AAAI、IJCAI 等,同时担任多个学术会议和期刊的审稿人。其代表作包括 HuggingGPT / JARVIS 等智能体研究以及 MASS、MPNet 等基础模型训练。
分享内容:
提高大型语言模型在事件关系逻辑预测中的表现
Improving Large Language Models in Event Relation Logical Prediction
论文摘要:
尽管大语言模型(LLMs)在众多领域取得了突破性进展,但我们发现现有的 LLMs 在充分掌握事件关系逻辑的复杂性方面仍然存在困难,常常表现出一致性不足和推理能力有限的问题。针对这一点,我们对现有 LLMs 的逻辑推理能力进行了深入分析,并从生成式,检索式以及微调式的方法出发,来设计有效的方法并提升大模型到实际应用中的性能。
论文链接:
https://arxiv.org/pdf/2310.09158
姜慧强
微软亚洲研究院
研发工程师
姜慧强的研究主要集中在加速推理和训练的高效方法上,包括动态稀疏注意力机制(MInference)、提示压缩(LLMLingua)、KV 缓存压缩、推测解码、模型压缩、稀疏推理(PIT)、神经架构搜索(NAS)以及高效调优,特别是对大语言模型(LLMs)的研究。此外,他还致力于解决自然语言处理中的常见挑战。
分享内容:
LongLLMLingua:通过提示压缩加速和增强长文本LLMs
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
论文摘要:
长上下文场景中,LLMs 面临更高的计算/API成本、更长的延迟以及性能下降等挑战。一些研究表明,LLMs 的性能依赖于输入提示中关键信息的密度和位置。基于此,我们提出 LongLLMLingua 进行提示压缩,以提升 LLMs 对关键信息的感知,从而应对这些挑战。评估结果显示,在广泛的长上下文任务中,LongLLMLingua 能以更少的成本和更短的延迟实现更高的性能。
论文链接:
https://arxiv.org/abs/2310.06839
张良
中国人民大学
博士研究生
张良,中国人民大学信息学院2020级博士研究生,师从金琴教授,以第一作者身份在 NeurIPS、AAAI、ACL 等顶级会议上发表多篇研究论文,曾在微软亚洲研究院自然语言计算组实习,研究方向为多模态理解和多语言学习。
分享内容:
用我的语言回应:基于大语言模型的回应生成中的语言不一致性缓解
Respond in my Language: Mitigating Language Inconsistency in Response Generation based on Large Language Models
论文摘要:
基于单语言微调的大模型会出现回应语言不一致问题。本文探索解决该问题以实现零样本多语言指令跟随。我们首先分析问题成因,并从训练和推理两个阶段提出解决方法。实验表明,在无需多语言指令数据的情况下,我们的方法可以大幅提高模型一致语言回应的能力。
论文链接:
https://aclanthology.org/2024.acl-long.229/
锁定直播间,我们不见不散!
你也许还想看: