【专题】AI领域中的“生成式人工智能”相关研究-2024年9月-2025年1月

文摘   2025-01-24 12:06   山东  


TTVAE:基于Transformer的表格数据生成模型

原标题:TTVAE: Transformer-based Generative Modeling for Tabular Data Generation

作者:Alex X. Wang;Binh P. Nguyen

期刊:Artificial Intelligence

出版时间:2025/01/20

摘要:表格数据合成提出了独特的挑战,尽管应用了变分自动编码器和生成对抗网络,但变压器模型仍然没有得到充分的研究。为了解决这一差距,我们提出了基于变压器的表格变分自动编码器(TTVAE),利用注意机制来捕获复杂的数据分布。注意机制的包含使我们的模型能够理解异构特征之间的复杂关系,这对于传统方法来说通常是困难的。TTVAE有助于在数据生成过程中在潜在空间内集成插值。具体来说,TTVAE只需训练一次,建立真实数据的低维表示,然后各种潜在插值方法可以有效地生成合成潜在点。通过对不同数据集的广泛实验,TTVAE始终实现最先进的性能,突出了其对不同特征类型和数据大小的适应性。这种创新的方法由注意力机制和插值的集成授权,解决了表格数据合成的复杂挑战,将TTVAE确立为一种强大的解决方案。


原文链接



PersonaCraft:利用语言模型进行数据驱动的角色开发

原标题:PersonaCraft: Leveraging language models for data-driven persona development

作者:Soon-Gyo Jung;Joni Salminen;Kholoud Khalil Aldous;Bernard J. Jansen

期刊:International Journal of Human-Computer Studies

出版时间:2025/01/13

摘要:生成人工智能及其大型语言模型(LLM)为开发以用户为中心的人机交互(HCI)系统提供了各种机会。然而,HCI中LLM的用例仍然很少,需要开发和评估真实的系统。我们展示了PersonaCraft,这是一个使用LLM来满足这一需求的数据驱动角色系统。该系统分析用户数据调查和生成人员的共同来源,即数据中真实段的人性化表示。通过将LLM与调查数据分析相集成,PersonaCraft结合了人物角色开发和现代人工智能方法,为研究人员和设计师提供了来自几乎任何关于人的调查数据集的以用户为中心的见解。对系统的各种评估,包括与内部评估人员、普通用户(n=127)和用户体验专业人员(n=21)的评估,表明PersonaCraft角色在清晰度、完整性、流畅性、一致性和可信性的所有评估标准上得分很高。PersonaCraft的应用可以扩展到一系列领域,包括用户研究和人口级别的人员研究。


原文链接



人们如何体验生成式人工智能创建的图像?探索人们对一代人工智能文本到图像模型及其创作的感知、评价和情感

原标题:How do people experience the images created by generative artificial intelligence? An exploration of people’s perceptions, appraisals, and emotions related to a Gen-AI text-to-image model and its creations

作者:Amon Rapp;Chiara Di Lodovico;Federico Torrielli;Luigi Di Caro

期刊:International Journal of Human-Computer Studies

出版时间:2025/01/01

摘要:近年来,生成式人工智能(Generative Artificial Intelligence,Gen AI)迅速发展,在不久的将来可能会对行业、社会和个人产生巨大影响。特别是,Gen-AI文本到图像模型允许人们轻松创建高质量图像,这可能会彻底改变人类的创作实践。然而,尽管它们的使用越来越多,但更广泛的人群对人工智能生成的图像的感知和理解在人机交互(HCI)社区中仍然缺乏研究。这项研究调查了个人,包括那些不熟悉Gen-AI的人,如何感知Gen-AI文本到图像(稳定扩散)输出。研究结果表明,参与者根据他们在表示主题时的技术质量和忠诚度来评估Gen AI图像,通常将其体验为原型或奇怪:这些体验可能会提高对社会偏见的认识,并引发延伸到Gen AI.本身的不安感。该研究还揭示了参与者用于处理与Gen AI相关的担忧的几种“关系”策略,有助于理解对神秘技术的反应和智能代理的(去)人性化。此外,该研究还就如何使用文本到图像模型的拟人化作为设计材料,以及Gen-AI图像作为关键设计会议的支持提供了设计建议。


原文链接



基于图像的虚拟试运行:综述

原标题:Image-Based Virtual Try-On: A Survey

作者:Dan Song;Xuanpu Zhang;An-An Liu

期刊:International Journal of Computer Vision

出版时间:2024/12/10

摘要:基于图像的虚拟试穿旨在将自然着装的人物图像与服装图像合成,这彻底改变了在线购物,并激发了图像生成中的相关主题,显示了研究意义和商业潜力。然而,目前的研究进展与商业应用之间存在差距,并且缺乏对该领域的全面概述来加速发展。在这项调查中,我们在管道架构、人员表示和关键模块(如试穿指示、服装翘曲和试穿阶段)方面全面分析了最先进的技术和方法。我们还应用CLIP来评估试运行结果的语义对齐,并在同一数据集上使用统一实现的评估度量来评估具有代表性的方法。除了对当前开源方法进行定量和定性评估外,还突出了未解决的问题,并展望了未来的研究方向,以确定关键趋势并激发进一步的探索。统一实施的评估指标、数据集和收集的方法将公开在https://github.com/little-misfit/Survey-Of-Virtual-Try-On。


原文链接



混合深度学习引导生成式人工智能重塑自组装肽的发现

原标题:Reshaping the discovery of self-assembling peptides with generative AI guided by hybrid deep learning

作者:Goran Mauša;Daniela Kalafatovic;Marko Babić;Erik Otović;Marko Njirjak;Lucija Žužić;Patrizia Janković

期刊:Nature Machine Intelligence

出版时间:2024/11/19

摘要:超分子肽基材料在纳米技术和医学等领域具有巨大的变革潜力。然而,破译复杂的序列到组装路径,对于它们的实际应用至关重要,仍然是一项具有挑战性的工作。他们的发现主要依赖于需要大量财政资源的经验方法,阻碍了他们的破坏性潜力。因此,尽管有许多具有特征的自组装肽及其显示的优势,但只有少数肽材料找到了进入市场的途径。在实验验证的数据上训练的机器学习提供了一种很有前途的工具,用于快速识别具有高度自组装倾向的序列,从而将资源支出集中在最有希望的候选序列上。在这里,我们引入了一个框架,该框架在基于元启发式的生成模型中实现了一个准确的分类器,以在具有挑战性大小的肽序列空间中导航搜索。为此,我们训练了五个递归神经网络,其中使用聚集倾向和特定物理化学性质的序列信息的混合模型取得了卓越的性能,准确率为81.9%,F1得分为0.865。分子动力学模拟和实验验证证实,生成模型在发现自组装肽时的准确性为80-95%,优于当前最先进的模型。所提出的模块化框架有效地补充了人类在探索自组装肽方面的直觉,并在开发用于加速材料发现的智能实验室方面迈出了重要一步。


原文链接



当自动评估满足自动内容生成:在GPT时代检查文本质量

原标题:When Automated Assessment Meets Automated Content Generation: Examining Text Quality in the Era of GPTs

作者:Xinyuan Zhang;Yi Gan;Ahmed Abbasi;Marialena Bevilacqua;Will Stamey;Kai Yang;Kezia Oketch;Ruiyang Qin

期刊:ACM Transactions on Information Systems

出版时间:2024/11/05

摘要:使用机器学习(ML)模型评估和评分文本数据在一系列上下文中变得越来越普遍,包括自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估。ML和文本交叉处的一个重大中断是文本生成大语言模型(LLM),例如生成预训练变压器(GPT)。我们实证评估了基于ML的评分模型在人类内容训练上评估人类生成的内容质量与GPT之间的差异。为此,我们提出了一个分析框架,其中包括论文评分ML模型、人工和ML生成的论文,以及一个统计模型,该模型简约地考虑了受访者类型、即时体裁和用于评估模型的ML模型的影响。使用了一个丰富的测试平台,其中包含18460篇人类生成的和基于GPT的论文。我们的基准分析结果表明,与CNN/RNN和基于特征的ML方法相比,LLM和变压器预处理语言模型(PLM)更准确地评估人类论文质量。有趣的是,我们发现,与人工编写的文档相比,LLM和transformer PLM倾向于平均比GPT生成的文本高10-20%。相反,传统的深度学习和基于特征的ML模型对人类文本的评分要高得多。进一步的分析表明,尽管LLM和变压器PLM仅在人类文本上进行微调,但它们更显著地关注仅出现在GPT生成的文本中的某些标记,这可能(部分)是由于预训练中的熟悉/重叠。我们的框架和结果对文本分类设置有影响,其中文本的自动评分可能会被生成人工智能中断。


原文链接



使用基于生成式人工智能的虚拟多路复用肿瘤分析加速组织病理学工作流

原标题:Accelerating histopathology workflows with generative AI-based virtually multiplexed tumour profiling

作者:Marianna Rapsomaniki;Adriano Martinelli;Martin Wartenberg;Sofia Karkampouna;Francesco Bonollo;Pushpak Pati;Martina Radić;Marianna Kruithof-de Julio;Martin Spahn;Eva Compérat

期刊:Nature Machine Intelligence

出版时间:2024/09/09

摘要:了解肿瘤的空间异质性及其与疾病发生和进展的联系是癌症生物学的基石。目前,组织病理学工作流程在很大程度上依赖于苏木精和伊红以及串行免疫组织化学染色,这是一个繁琐的、组织详尽的过程,导致不对齐的组织图像。我们提出VirtualMultiplexer,这是一个生成性人工智能工具包,它可以有效地从输入的苏木精和伊红图像合成多个抗体标记(即AR、NKX3.1、CD44、CD146、p53和ERG)的多重免疫组织化学图像。VirtualMultiplexer捕获跨组织尺度的生物相关染色模式,而不需要连续的组织切片、图像注册或广泛的专家注释。彻底的定性和定量评估表明,VirtualMultiplexer实现了快速、稳健和精确地生成与真实图像集无法区分的高染色质量的虚拟多路复用成像数据集。VirtualMultiplexer在组织规模和患者队列之间成功传输,不需要模型微调。至关重要的是,虚拟多路复用图像能够训练一个图转换器,该图转换器同时从几个蛋白质的联合空间分布中学习,以预测临床相关的终点。我们观察到,这种复合学习方案能够极大地改善临床预测,这在几个下游任务、独立患者队列和癌症类型中得到了证实。我们的结果展示了人工智能辅助的多路肿瘤成像的临床相关性,加速了组织病理学工作流程和癌症生物学。


原文链接



使用混合现实环境和生成式人工智能的协作法医尸检文档和监督报告生成

原标题:Collaborative Forensic Autopsy Documentation and Supervised Report Generation Using a Hybrid Mixed-Reality Environment and Generative AI

作者:Vahid Pooryousef; Maxime Cordeil; Lonni Besançon; Richard Bassed; Tim Dwyer

期刊:IEEE Transactions on Visualization and Computer Graphics

出版时间:2024/09/09

摘要:法医调查是一个复杂的程序,涉及专家共同努力确定死因并向法律当局报告调查结果。虽然正在开发新技术来提供更好的尸检成像能力,包括混合现实(MR)工具,以支持此类数据的3D可视化,但这些工具并没有无缝集成到其现有的协作工作流和报告编写过程中,需要额外的步骤,例如从MR工具中提取图像,并与物理尸检结果相结合以纳入报告。因此,在这项工作中,我们设计并评估了一种新的法医尸检报告生成工作流,并提出了一种使用混合现实方法的新型文档系统,以集成可视化、语音和手部交互以及协作和过程记录。我们的初步研究结果表明,这种方法有可能改进数据管理,提高可审查性,从而实现更强大的标准。此外,它还可能简化报告的生成,最大限度地减少对外部工具和援助的依赖,减少尸检时间和相关成本。该系统还为教育提供了巨大的潜力。本论文和所有补充材料的免费副本可在以下网站获得:https://osf.io/ygfzx.


原文链接



MemoVis:一种GenAI支持的工具,用于为3D设计反馈创建辅助参考图像

原标题:MemoVis: A GenAI-Powered Tool for Creating Companion Reference Images for 3D Design Feedback

作者:Vladimir G. Kim;Cuong Nguyen;Chen Chen;Thibault Groueix;Nadir Weibel

期刊:ACM Transactions on Computer-Human Interaction

出版时间:2024/09/04

摘要:提供异步反馈是3D设计工作流中的关键步骤。提供反馈的一种常见方法是将文本注释与伴随的参考图像配对,这有助于说明文本的要点。理想情况下,反馈提供者应具备3D和图像编辑技能,以创建能够有效描述其想法的参考图像。然而,他们通常缺乏这样的技能,因此他们不得不求助于草图或在线图像,这些可能与当前的3D设计不匹配。为了解决这一问题,我们引入了eMemoVis,这是一个文本编辑器界面,可以帮助反馈提供者使用反馈评论驱动的生成人工智能创建参考图像。首先,基于视觉语言基础模型的新颖实时视点建议功能帮助反馈提供者用相机视点锚定评论。其次,给定相机视点,我们基于预先训练的2D生成模型引入三种类型的图像修改器,以从该视点将文本注释转换为3D场景的更新版本。我们与(14)名反馈提供者进行了一项受试者内研究,证明了MemoVis的有效性。由另外8名具有3D设计经验的参与者评估伴随图像的质量和明确性。


原文链接



一种结合物理模型和生成式人工智能支持概念设计创造力的混合原型方法

原标题:A Hybrid Prototype Method Combining Physical Models and Generative Artificial Intelligence to Support Creativity in Conceptual Design

作者:Pei Chen;Xuelong Xie;Zhaoqu Jiang;Hongbo Zhang;Zihong Zhou;Lingyun Sun

期刊:ACM Transactions on Computer-Human Interaction

出版时间:2024/09/02

摘要:概念设计是设计过程中的一个重要阶段,其最终成功在很大程度上取决于设计师的创造力。设计师通常采用物理原型和数字原型来支持构思和创造力,分别提供直观感知和快速迭代。在最近的进步中,大规模生成模型能够通过生成与人类设计师相当的高质量解决方案来提供数据支持的创造力支持。这为设计师开辟了一个想象的空间,并为设计工具带来了新的可能性。在本研究中,我们提出了一种在概念设计阶段协同结合物理模型和生成人工智能(AI)的混合原型方法。相应地,我们开发了一个混合原型系统来实现所提出的方法。我们对45名设计师进行了对比用户研究,他们分别使用物理原型方法、独立生成人工智能和混合原型方法完成了设计任务。我们的结果验证了混合原型方法的有效性,并研究了其支持创造力的机制。最后,讨论了混合原型方法的应用价值和优化空间。


原文链接



生成AIBIM:集成BIM和生成式AI的自动智能结构设计流水线

原标题:Generative AIBIM: An automatic and intelligent structural design pipeline integrating BIM and generative AI

作者:Zhili He;Yu-Hsing Wang;Jian Zhang

期刊:Information Fusion

出版时间:2024/09/01

摘要:基于人工智能的智能结构设计代表了一种变革性方法,解决了传统结构设计实践中固有的低效问题。本文从四个方面创新了现有的基于人工智能的设计框架,提出了生成式AIBIM:一种集成了建筑信息建模(BIM)和生成式AI的自动智能结构设计管道。首先,所提出的管道不仅拓宽了BIM的应用范围,这与BIM在土木工程中日益增长的相关性相一致,而且也是对以往仅依赖CAD图纸的方法的重要补充。其次,在生成AIBIM中,受人类绘图过程的启发,设计了一个包含生成AI(TGAI)的两阶段生成框架,以简化结构设计问题的复杂性。第三,对于TGAI中的生成AI模型,本文率先将物理条件融合到扩散模型(DMs)中,构建了一种新的基于物理的条件扩散模型(PCDM)。与传统的DM相比,一方面,PCDM直接预测剪力墙图纸以关注相似性,另一方面,通过集成设计良好的注意模块,PCDM有效地融合了跨域信息,即设计图纸(图像数据)、时间步长和物理条件。此外,还设计了一个包含客观和主观度量的新评估系统(即ScoreIou和FID)来综合评估模型的性能,补充了仅采用客观度量的传统方法中的评估系统。定量结果表明,在这两个指标上,PCDM显著超过了最新的最先进(SOTA)技术(StructGAN及其变体):PCDM的ScoreIOU比最好的竞争对手高30%,PCDM的FIDof低于其1/3。定性实验结果突出了PCDM在根据基本设计标准生成高感知质量设计图纸方面的卓越能力。此外,得益于物理条件的融合,PCDM有效地支持根据建筑高度和地震预防强度定制的多样性和创造性设计,展示了其独特而强大的生成和泛化能力。相关的消融研究进一步证明了我们方法的有效性。


原文链接



行为健康经济学
本公众号致力于传播行为健康经济学、AI行为科学的研究理念,关注健康领域非理性问题的发现、解释、创新性干预以及三医(医疗、医保、医药)的角色,尤其关注药学服务在其中的作用。
 最新文章