近日,国际学术会议EMNLP 2024论文接收结果公布。西湖大学工学院人工智能系张岳实验室、蓝振忠实验室、王东林实验室、郑冶枫实验室共有9篇论文入选。
自然语言处理中的经验方法会议(Empirical Methods in Natural Language Processing,简称EMNLP)由国际计算语言学协会ACL举办,是自然语言处理和人工智能领域重要的学术会议之一,在清华计算机学术推荐列表中认定为A类会议。EMNLP 2024将于11月12日至11月16日在美国迈阿密举行。
本文将介绍西湖大学人工智能系在EMNLP 2024中收录的9篇论文(排序不分先后):
01
PsyGUARD: 心理咨询中的自杀检测和风险评估自动化系统
PsyGUARD: An Automated System for Suicide Detection and Risk Assessment in Psychological Counseling
丘华川
蓝振忠实验室2021级博士生
(主会)
【科普一下】
AI咨询师面对最大的挑战之一是自杀意图识别和风险评估。随着大语言模型(LLM)的日益发展,众多研究者开发了大量的AI咨询师,但是这些AI咨询师缺乏自杀意图识别和风险评估的能力,这对面向自杀预防的自动危机干预构成了重大挑战。因此,为了健全AI咨询师的能力,提出了心理咨询中自杀检测和风险评估的自动化系统。
【技术介绍】
随着人们对心理健康问题的认识不断增长,全球范围内在线心理咨询支持服务越来越普遍。在基于文本的咨询服务中检测用户是否存在自杀倾向至关重要,以便对风险人群进行识别和优先处理。然而,在线心理咨询中缺乏针对性的系统,以帮助AI咨询师进行细粒度的自杀检测和相应的风险评估,对面向自杀预防的自动危机干预构成了重大挑战。
在本文中,我们提出了PsyGUARD,一种用于自杀意图检测和风险评估的心理咨询自动化系统。为实现这一目标,我们首先开发了一个细粒度的自杀意图检测分类学。接着,我们创建了名为PsySUICIDE的大规模、高质量数据集,用于自杀意图检测。为了评估自动化系统的性能,我们建立了一系列的评估基准。随后,为了辅助自动化服务在进一步评估中提供安全、有益、个性化的回复,我们提出了一个风险评估框架。我们的研究不仅为基于细粒度自杀检测的自动化风险评估系统的有效性提供了深入的见解,而且强调了它在提供心理咨询服务方面的潜力。
论文地址:https://arxiv.org/abs/2409.20243
代码地址:https://github.com/qiuhuachuan/PsyGUARD
02
Nash Cot: 基于偏好性均衡的多通路推理范式
NashCoT: Multi-Path Inference with Preference Equilibrium
张子祺&王存翔
王东林实验室科研助理&张岳实验室2024届博士生
(主会)
【科普一下】
思维链(Chain of Thought, CoT)是一种step-by-step manner的大模型(Large Pre-trained Language Model, LLM)推理框架。具体而言,给定一个问题,CoT框架下,我们首先需要引导大模型生rational,随后将问题以及Rationale拼接到一起输入到LLM中然后得到最终结果。实验效果上,CoT可以令大模型取得比zero-shot更好地效果。鉴于CoT为大模型所带来的提升,CoT已经被广泛地改进,在基于CoT改进的各类框架中,以self-consistency为代表的多通路推理CoT范式是具备竞争力的CoT框架。然而,多通路推理会带来更多的推理成本,因此探索如何降低推理路径的数量,同时保证推理效果不会有显著下降对于提升CoT有重要的价值。
为了解决这一问题,我们首先想到使用模板可以增加模型在每一条通路上的推理准确率,从而可以以更少的通路找到正确答案,然而使用模板引导生成的过程中可能会令大模型过度关注上下文信息从而降低鲁棒性。因此在模板引导生成的基础上,我们进一步构建了博弈系统,即每一条通路上LLM在不使用模板的时候和使用模板的时候只要达到纳什均衡,就可以平衡随机性以及上下文信息。最后,我们将每一条通路中将达到Nash均衡的生成进行投票。我们将这种基于Nash均衡的多通路CoT推理框架命名为Nash Chain of Thought (Nash CoT)。
【技术介绍】
思维链(Chain of Thought, CoT)是一种增强大型语言模型(Large Pretrain Language Models, LLMs)在复杂问题上推理能力的框架。在CoT相关的研究中,self-consistency通过使用CoT框架多通路推理,随后通过投票选择最高频的输出,可以有效地提升LLM的推理表现。尽管self-consistency提升了LLM的推理表现,但多路径推理的使用也增加了部署成本。因此,在保持self-consistency测试效果优势的同时,降低self-consistency的推理成本具有重要的价值。在本研究中,我们在每个局部的推理路径内构建一个双玩家博弈系统,并基于此提出纳什思维链(Nash Chain-of-Thought, Nash CoT),从而以较少的推理路径取得同self-consistency相似的表现。
具体来说,对于给定的问题,我们旨在在每个路径上模型正常推理与模板引导的生成达到纳什均衡,从而提高每一条通路成功解决问题的概率,同时保持一定随机性,从而降低多通路推理中通路的数量,同时维持较好的推理效果。实验方面,我们在一系列任务上测试Nash CoT,包括数学逻辑推理、常识问答和符号推理,Nash-CoT可以在self-consistency相同数量推理路径下获得与同self-consistency相近或更好的性能。
论文地址:https://arxiv.org/abs/2407.07099
代码地址:https://github.com/stevezhangzA/nash-chain-of-thought
03
Semformer:基于语义规划的Transformer语言模型
Semformer: Transformer Language Models with Semantic Planning
尹永竞
张岳实验室2020级博士生
(主会)
【科普一下】
语言模型已经成为了自然语言处理中的基础架构,其简单的下一词元预测的训练方式易于实现和拓展,并且展现了良好的性能。但是下一词元预测会将全部的答案前缀暴露给模型,可能会使模型学习到虚假特征和捷径。本文受人类先思考再说话的语义规划能力启发,提出一种新颖的损失函数从语言模型内部建模语义规划机制。
【技术介绍】
针对教师强迫的下一词元预测损失会使得模型学习虚假特征和捷径的局限性,本文受人类先思考再说话的语义规划能力启发,提出一种新颖的损失函数从语言模型内部建模语义规划机制,Semformer。本文首先通过带瓶颈结构的自编码器将模型要预测的目标序列压缩为低维度的语义表示,在模型生成目标序列之前引入额外的语义规划词元,这些词元不使用下一词元预测训练,而是去预测目标序列的低维语义表示,通过这种方式来内化语义规划过程。
实验结果表明,Semformer在需要前瞻和规划推理能力的图路径规划任务中取得了近乎完美的性能。本文进一步将此机制扩展到从头预训练一个语言模型,在困惑度、上下文学习和监督微调多个方面验证了模型的通用性。
论文地址:https://arxiv.org/html/2409.11143
代码地址:https://github.com/ARIES-LM/Semformer.git
04
SMILE: 通过ChatGPT实现从单轮对话到多轮对话的语言扩展,以用于心理健康支持
SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support
丘华川
蓝振忠实验室2021级博士生
(Findings)
【科普一下】
我们都知道心理健康的重要性以及心理健康问题一直是我们关注的焦点。开发用于心理健康支持的专业化对话系统引起了学术界的巨大关注。事实上,建立一个实用、安全、有效的心理健康对话智能体是许多研究人员一直追求的目标。然而,创建这样一个系统的第一步就是要有高质量的训练数据。收集并发布这一类高质量的、真实的大规模数据来促进这一领域的发展面对诸多挑战。首先是隐私保护的问题、其次是收集数据所耗费的大量时间与各种成本(平台搭建、真实的受试者与专业的支持者的招聘、筛选、管理等)。
目前,由大语言模型驱动的虚拟咨询师,作为一种用于心理健康的创新解决思路,可以有效地解决获得性障碍,如高昂的治疗费用、训练有素的专业人员的短缺。此外,该对话系统可以为有需要的人提供有效且实用的在线咨询,能够保护用户隐私,减轻在求助过程中的耻感。
【技术介绍】
大语言模型驱动的心理咨询师有着非常广阔的应用前景。针对数据缺乏的现状,我们提出了 SMILE(Single-turn to Multi-turn Inclusive Language Expansion),一种单轮对话到多轮对话的包容性语言扩展技术。具体来说,利用 ChatGPT 将单轮长对话转换为多轮对话,更好地模拟了真实世界中求助者与支持者之间的多轮对话交流。我们首先对语言转换进行分析,相比其他基线方法,验证了我们提出方法的可行性。其次,我们完成了对话多样性的研究,包括词汇特征、语义特征和对话主题,阐明我们所提方法的有效性。因此,我们利用此方法进行大规模数据生成,构建了一个约 55k 的多轮对话数据集。最后,为了更好的评估该数据集的质量,我们利用此数据集训练了一个用于心理健康支持的聊天机器人。在真实数据集的自动化评估和人类与对话系统的交互评估,结果均表明对话系统在心理健康支持能力得到显著提升,进一步证实所生成的数据集具备高质量和实用性的特性。
论文地址:https://arxiv.org/abs/2305.00450
代码地址:https://github.com/qiuhuachuan/smile
05
利用大语言模型理解在线文本心理咨询中咨询师和来访者之间的咨访关系
Understanding the Therapeutic Relationship between Counselors and Clients in Online Text-based Counseling using LLMs
李安琪
蓝振忠实验室2021级博士生
(Findings)
【科普一下】
咨询师和来访者之间稳固的治疗同盟关系对咨询效果至关重要。尽管在传统的面对面心理咨询中治疗联盟的评估已相当成熟,但在基于文本的心理咨询场景中可能无法直接应用。随着数以百万计的人通过在线文本心理咨询寻求心理健康支持,理解这种背景下的咨访关系变得尤为重要。
【技术介绍】
本文提出了一种自动化的方法,利用大型语言模型(LLMs)来理解文本咨询中治疗联盟的发展。我们专门针对在线文本咨询的场景调整了一个在面对面场景下建立的用于评估咨访关系的理论框架,并制定了全面的指南来描述联盟。我们收集了一个大规模的心理咨询数据集,并基于该框架对其子集进行了多次专家标注。我们基于LLM的方法结合指导方针和同时提取支持其预测的证据,证明了在识别治疗联盟方面的有效性。通过对其他对话进行进一步的LLM评估,我们的发现强调了咨询师在建立强大在线关系时面临的挑战。此外,我们展示了基于LLM的反馈机制提升咨询师建立关系能力的潜力,并通过小规模的概念验证进行支持。
论文地址:https://arxiv.org/abs/2402.11958
06
LLM能取代临床医生吗?通过大型语言模型探索疾病诊断中的偏见
Can LLMs Replace Clinical Doctors? Exploring Bias in Disease Diagnosis by Large Language Models
赵雨恬,腾讯优图实验室
由郑冶枫老师指导,郑老师为共同通讯作者
(Findings)
【科普一下】
大型语言模型(LLM)的快速发展,对疾病诊断和临床决策支持系统产生了重大影响。自动疾病预测使用患者的医疗记录(例如电子病历)来预测最有可能的疾病,帮助医生做出准确的临床决策。及时准确的疾病预测可以促进早期干预,优化疾病管理并提高医疗资源配置效率。然而,在大量文本语料库上训练的 LLM 被发现表现出明显的社会偏见。随着 LLM 变得越来越强大并开始成为医疗决策系统中不可或缺的组成部分,这些不受控制的偏见可能会延续和放大诊断错误。我们分析了超过 330,000 份真实的健康记录,发现男性和女性的预测疾病样本和实际样本分布之间存在明显差异,这清楚地表明了使用大型语言模型(LLM)进行疾病诊断存在偏见。鉴于偏见在多个维度上表现出来,我们发现有必要引入一个指标来衡量这些不同维度上的公平性。
【技术介绍】
大型语言模型(LLM)中的疾病预测偏差是一个关键但尚未得到充分探索的问题,可能对医疗保健结果和公平性产生影响。随着 LLM 在医疗保健领域的应用越来越广泛,了解和解决其偏差变得至关重要。本研究重点关注这一关键主题,研究 GPT-4、ChatGPT 和 Qwen1.5-72b 等模型在性别、年龄范围和疾病判断行为方面的疾病预测偏差。利用超过 330,000 条条目的综合真实临床健康记录数据集,我们发现这三个模型都表现出不同的偏差,表明存在普遍的不公平问题。为了衡量这一点,我们引入了一个新指标——诊断偏差分数,它反映了预测数字与标签数字的比率。我们基于此分数进行的深入分析揭示了这些模型中固有的偏差。针对这些发现,我们提出了一种简单而有效的基于提示的解决方案,以缓解使用 LLM 进行疾病预测时观察到的偏差。这项研究强调了人工智能公平性的重要性,特别是在医疗保健应用中,并提供了一种增强疾病预测模型公平性的实用方法。
07
基于规则模型到大型语言模型的开放信息提取研究综述
A Survey on Open Information Extraction from Rule-based Model to Large Language Model
刘派,张岳实验室访问学生
高文炀,张岳实验室2022级博士生
董文婕,张岳实验室访问学生
Ziwei Gong,哥伦比亚大学2022级博士生
Lin Ai,哥伦比亚大学2020级博士生
(Findings)
【科普一下】
开放信息提取(OpenIE)是一种自然语言处理任务,旨在从非结构化文本中自动提取出结构化的信息,而不受关系类型或领域的限制。与传统的信息提取不同,OpenIE 不需要预定义的关系类型,而是可以处理任意句子中的关系表达,因此具有更广泛的应用前景。
【技术介绍】
本文对开放信息提取(OpenIE)的方法进行了系统的综述,按时间顺序将其分为规则模型、神经网络模型和预训练的大型语言模型三个阶段。
我们讨论了每种方法的技术演变,尤其是大型语言模型对开放信息提取的重大影响。本文还介绍了主要的任务设置、数据集和评估指标,并通过对比不同方法的优缺点,展望了未来的发展方向。
论文地址:https://arxiv.org/abs/2208.08690
08
LexMatcher:以词典为中心的大语言模型机器翻译数据治理
LexMatcher: Dictionary-centric Data Curation for LLM-based Machine Translation
尹永竞
张岳实验室2020级博士生
(Findings)
【科普一下】
神经机器翻译通过深度神经网络来将源语言文本转换为目标语言文本,是人们日常生活和工作常用的工具。开源大型语言模型通常需要进一步监督微调才能执行翻译任务,但翻译性能仍有所欠缺,和其参数规模并不匹配。本文提出了一种原则性的数据治理方法,借助双语词典作为媒介,期望微调数据要尽可能均匀地覆盖词典中的义项。
【技术介绍】
大规模语言模型改变了机器翻译研究的范式,从大量平行数据训练转换为少量高质量数据微调。开源大型语言模型在通用机器翻译基准上的性能仍有所欠缺,这和其较大的参数规模并不匹配。
本文提出了以字典为中心的翻译微调数据治理流程,主要思想是用于监督微调的平行数据要尽可能均匀地覆盖词典中的义项。方法主要包含两个步骤:数据检索和数据增强。数据检索步骤充分利用现有的翻译语料,通过词典义项匹配的方式抽取出高质量的数据集合;之后,针对检索语料没有覆盖到的多义词中的低频义项,借助商用大规模语言模型的帮助,进行少量翻译示例生成。两部分数据合并,用于指令微调大规模语言模型。微调后的大语言模型在新闻翻译、歧义词翻译和术语翻译任务取得了先进的效果。
论文地址:https://arxiv.org/abs/2406.01441
代码地址:https://github.com/ARIES-LM/Lexmatcher-MT
09
基于实证先验的文本自编码器
Empirical Prior for Text Autoencoders
尹永竞
张岳实验室2020级博士生
(Findings)
【科普一下】
流行的文本生成式模型,变分自编码器,能够学习出一个抽象的隐变量空间,通过这个空间来控制语言模型的生成。本文探索了朴素文本自编码器从隐空间采样生成样本的质量和多样性,发现自编码器能够取得和复杂变分自编码类似的性能。
【技术介绍】
变分自编码器的能力限制来自于过于简单的先验分布约束,本文去掉这一约束来探索自编码器的采样性能。本文的自编码器使用了分层生成和融入的隐特征向量,编码器的不同层生成的隐向量相应地融合到对应的解码器层中,可以解耦不同层编码器的语义特征,隐向量之间使用正交正则化减少向量之间冗余性。为了能够从隐空间采样,本文使用了在线和离线分布估计的方式获取先验分布,发现整体采样生成的文本在多样性和质量方面和变分自编码器具有可比的性能。
西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。西湖大学工学院以学术领军人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。
工学院目前重点建设三个系和一个中心——电子信息工程系、材料科学与工程系、人工智能系和先进工程科学与技术中心。围绕三个系和一个中心,工学院已建成一批高水平实验室和研究中心,其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室,建立微纳光电系统集成浙江省工程研究中心。同时,工学院联合生命科学学院和理学院,共同建立西湖大学合成生物学与生物智造中心。
扫描二维码 | 关注我们
西湖大学工学院
School of Engineering
Westlake University