Nat. Mach. Intell. | 对32,111份AI模型卡片的系统分析描述了AI领域的文档实践

学术   2024-08-18 00:01   韩国  

DRUGAI

今天为大家介绍的是来自James Zou团队的一篇论文。AI模型的快速增长强调了详尽文档的重要性,这使用户能够理解、信任并有效地在各种应用中使用这些模型。虽然鼓励开发者制作模型卡片,但这些卡片包含的信息量和具体内容并不明确。在这项研究中,作者对Hugging Face平台上32,111个AI模型文档进行了全面分析,这个平台是分发和部署AI模型的主要平台。作者的调查揭示了当前模型卡片文档的常见做法。大多数下载量较大的AI模型都提供了模型卡片,但信息量不均衡。作者发现,关于环境影响、局限性和评估的部分填充率最低,而训练部分则最为完整。作者分析了每个部分的内容,以确定从业者的优先事项。有趣的是,有相当多的数据讨论,有时甚至比模型本身更受重视。作者的研究通过大规模数据科学和语言分析,系统评估了社区规范和模型文档实践。

AI模型在各个领域的日益普及,强调了全面模型文档的必要性。随着这些模型变得越来越复杂,没有专业知识的人很难理解其内部运作。因此,准确且全面的文档显得尤为重要。有效的模型文档在开发者和用户之间架起了一座重要的沟通桥梁,提供了从输入输出到应用范围的明确指导。


模型卡片的概念受到食品营养标签和电子行业数据表的启发,已经成为记录AI模型的标准方法。这些卡片以标准化、易于理解的格式提供了关于模型的基本信息。核心部分包括模型训练和验证过程、预期用途、潜在局限性和使用指南。与学术论文或技术报告等其他文档格式相比,模型卡片因其简洁、相关且易于理解的信息,越来越受到AI社区从业者的青睐。它们提供了更及时的信息,因为可以频繁更新以反映任何变化、改进或新发现。而学术论文一旦发表,可能不会经常更新,从而导致信息过时。此外,许多流行的模型库,特别是那些源自工业或开源爱好者的模型,没有伴随的学术论文或技术报告,这进一步突显了模型卡片作为全面、简洁和信息丰富的沟通机制的重要性。


尽管许多研究人员和开发者在创建模型卡片,但尚未对这些卡片的质量和信息量进行系统分析。特别是,作者并不清楚哪些内容已经记录或未记录,不同类型的模型和组织的文档实践有何差异,以及文档与模型流行度等因素有何关联。这一知识缺口有几个重要原因。首先,遵循社区规范和文档标准对于确保AI模型的伦理和负责任部署至关重要。全面了解模型的功能、局限性和潜在偏见,对于用户做出明智决策、防止误用或意外后果至关重要。其次,了解当前的文档实践可以帮助识别需要改进的领域,并指导行业标准的制定。随着AI在社会中的普及,监管需要跟上技术进步的步伐。行业范围内的AI文档标准可以帮助促进创新并减少潜在危害,类似于电子和汽车行业趋向于统一技术规范。最后,探讨文档与模型特征之间的关系,可以提供关于影响文档实践的因素的见解,帮助优先改善AI开发中的透明度和问责制。如果没有对当前模型卡片的系统分析,就有可能继续沿用不充分的文档实践,阻碍确保AI技术问责和公平使用的努力。为了解决这一知识差距,作者对32,111份AI模型卡片进行了大规模的综合分析,这些卡片由6,392个不同用户账户创建。通过这次分析,作者希望了解AI社区在多大程度上采用和改进了模型卡片,当前文档工作的优缺点,以及这些文档对模型开发和使用的影响。


Hugging Face模型卡数据介绍

图 1


作者的分析涵盖了截至2022年10月1日,Hugging Face 上由20,455个不同用户账户上传的74,970个AI模型库。模型数量呈指数增长,周增长率为3.16%,倍增时间为22周(图1a)。作为一个合理性检查,到2023年3月4日,模型库数量已达到145,306个,从而证实了这一指数增长趋势。Hugging Face上前五名的热门AI模型——根据Hugging Face官方标准在特定时间内获得的点赞数定义——揭示了社区关注的变化(图1b)。最初,GPT和BERT模型占主导地位,反映了对语言理解和文本生成的关注;然而,到2022年第三季度,兴趣转向了图像生成模型(特别是稳定扩散及其变体),显示了超越自然语言处理的多样化兴趣。尽管Hugging Face模型卡被广泛采用,但在74,970个模型库中,目前只有32,111个(占42.8%,由6,392个不同用户账户贡献)包含Markdown README.md文件形式的模型卡(图1c);然而,这些模型占总下载量的90.5%,表明模型卡在广泛采用和使用的模型中普遍存在。这里下载流量是通过模型库下载次数来衡量的。基于这些发现,作者的后续分析将集中在这32,111个配备模型卡的模型上。


模型卡为传达关于AI模型的关键信息提供了一个标准化结构。基于学术文献和Hugging Face的官方指南,模型卡通常包含训练、评估、用途、限制、环境影响、引用和如何开始等部分。如图1d所示,这些部分构成了全面模型卡的基本内容。作者使用基于关键词检测的方法解析并评估了模型卡的结构(例如,通过检测CO2及其变体的提及来识别环境影响部分)。


模型卡不同章节间填写的完整性分析

图 2


除了模型卡在遵守已建立社区规范方面的普遍缺乏,评估结果还表明社区对不同模型卡部分的关注存在显著差异,这一趋势似乎在不断扩大。在所有模型卡中,环境影响(2%,即32,111个模型卡中仅有639个)、引用(14.4%)、评估(15.4%)和限制(17.4%)部分的填写率最低,而训练部分的填写率最高(74.3%)(图2a)。这一趋势在前100个和前1,000个模型卡中也类似。填写率较低的部分在已填写部分中的平均字数也较少,表明社区关注度较低(图2c)。例如,环境影响部分在前1,000个模型卡中不仅填写率低(3.7%),其已填写部分的平均字数也低(68字)。相比之下,训练部分的填写率最高(71%),且平均字数第二多(168字)。有趣的是,尽管限制部分的填写率较低(22.1%),但其平均字数较多(151字),这表明讨论模型限制的复杂性。


不同部分在社区关注度上的差异随着时间的推移逐渐扩大。一个显著的趋势是,即使考虑到模型类别如表格和自然语言处理,训练部分的填写率也在快速增加;环境影响部分的填写率也在增加。一个有趣的发现是,大多数(约84.8%;639个中的542个)环境影响部分似乎是由AI模型构建工具自动创建的,这些工具不仅制作AI模型,还生成部分模型卡。特别是,约58.5%(639个中的374个)的这些部分声明“模型使用AutoNLP训练”,约26.3%(639个中的168个)声明“模型使用AutoTrain训练”。此外,这些部分的文本完全符合AutoNLP/AutoTrain提供的模板。采用这些自动化工具来跟踪CO2排放是一种受欢迎的变化,因为它们提高了对AI模型环境影响的认识。通过这些工具,开发者可以更好地了解其模型的碳足迹,从而在创建和训练过程中做出更明智的决策。同时,其他部分的填写率在下降。


最受欢迎模型的模型卡与普通模型卡在许多方面都有显著差异。一个显著特点是它们的长度明显更长(图2b)。前100个模型卡的平均长度是前1,000个模型卡的1.35倍(521字对384字),是普通模型卡平均长度的2.73倍(191字)。各部分的填写率也有很大差异。以前100个模型卡为例。尽管它们的训练部分填写率与总体水平相似(81%对74.3%),但它们的环境影响(9%对2%)、限制(39%对17.4%)和评估(47%对15.4%)部分的填写率要高得多。前100个模型卡的引用部分填写率也高得多(67%对14.4%)。这些发现强调了顶级模型卡通常更详细和结构化,更加注重可持续性,并对模型性能和限制进行了更深入的讨论。更具体地说,作者分析了模型卡部分的全面性与模型下载量之间的相关性。发现限制、如何开始和评估部分是与更高模型下载量相关的前三个因素。这表明对这些部分的详细关注可能与较高的模型下载量有关。除了训练部分外,所有部分都与更高的模型下载量相关。对于训练部分,原因可能是,在那些有模型卡的人中,大多数模型卡已经在记录训练部分方面做得很好(74.3%),而且在某些情况下,人们通过复制整个训练日志来写过长的训练部分,这可能会影响可读性,从而导致负相关。此外,顶级模型通常与学术研究社区有着紧密联系,正如高频率填写引用部分所示。用户可能会发现这些模型更有吸引力,因为它们来自科学研究,通常由同一领域的其他专家进行彻底检查以确保质量和准确性。


深入分析模型卡内容

图 3


为了全面了解当前模型文档的实践和挑战,并识别改进领域,作者对Hugging Face上四个关键的模型卡部分进行了内容分析:限制、用途、评估和训练。Hugging Face的内部用户研究指出,限制和用途部分是最难编写的,而评估和训练是AI模型的两个不可或缺的方面,这激发了作者进行这项分析。作者采用了句子级别的主题建模方法,以准确识别文本中的模式和主题(图3),这比文档级别的主题建模更能进行细致的分析。作者通过计算包含提及这些主题的句子的部分频率来量化特定主题的普遍性,既包括所有模型卡,也包括前100个模型卡。


在限制部分,作者的主题分析揭示了多样的主题,反映了AI模型面临的各种挑战和限制。作者识别了三个主要主题:免责声明、数据限制和模型限制。在填写的限制部分中,免责声明出现在11.6%的情况下,通常强调模型“不适用于生产”或“不应被视为临床诊断工具”,特别是对于医疗AI模型。还注意到关于第三方使用的明确免责声明句子。在前100个模型卡中,绝大多数(约89.2%)的填写限制部分包含此类免责声明。这与学术研究论文中的典型做法形成对比,后者较少出现免责声明。这一差异可能反映了在Hugging Face上访问和部署AI模型的低门槛,因此需要明确的警示说明来减轻潜在误用AI模型的风险。数据和模型限制受到几乎同等的关注,分别出现在30.1%和27.2%的填写限制部分。在前100个模型卡中,其普遍性也类似。在数据限制中,开发者讨论了训练数据中的偏见和训练数据覆盖范围有限的问题。关于模型限制的讨论涉及技术和社会两个方面。从技术角度来看,指出了诸如基于transformer模型的最大输入长度(例如,1,024个标记)等限制。从社会角度来看,提出了关于AI模型中的偏见问题,以及AI模型可能继承其预训练模型偏见的潜在风险(例如,“由于模型进一步在BERT模型上进行预训练,它可能具有原始BERT模型中的相同偏见。”)。


在用途部分,作者的主题分析揭示了三个主要主题:指定模型功能、操作指南和误用。最突出的主题是指定模型功能,占填写用途部分的58.2%。开发者在这里明确列出了模型的具体任务,例如“一个针对印度政治推文生成的微调模型”。与之密切相关的是操作指南主题,占填写部分的25.2%。其中包括实际操作信息,如安装步骤、使用示例、checkpoint详情和微调说明。另一个重要主题是误用,概述了模型的不当或超出范围的使用情况。这个主题出现在填写部分的8.1%中,涉及恶意使用或模型在高风险场景中的部署。尽管限制部分和用途部分的主题存在一些重叠,但各自侧重点不同。例如,关于商业用途的广泛声明可能出现在限制部分的免责声明主题中,而关于误用的具体警告则出现在用途部分的误用主题中。


在模型卡的评估部分,作者的主题分析突出了两个关键主题:评估数据和评估结果。第一个主题是评估数据,占填写部分的37.8%,描述了用于模型测试的各种数据集。第二个主题是评估结果,占填写部分的26.9%,展示了模型性能指标,如F1分数和双语评估替代(BLEU)分数,以显示模型的能力。有趣的是,这些性能评估往往展示了整个测试数据集的综合指标。


在训练部分,作者的分析揭示了三个主要主题:超参数配置、训练数据和训练协议。超参数配置主题出现在39.5%的完成部分中,提供了重要信息,如训练轮数、批量大小和选择的优化器。同样重要的是训练数据主题,出现在32.7%的填写部分中。这一主题不仅详细描述了训练数据集的数量和特征,还包括具体的数据预处理步骤,如“将所有字符转换为小写”。最近的研究强调了数据处理在AI开发中耗时的特点。第三个主题是训练协议,出现在25.1%的填写部分中,展示了复制训练过程所需的技术步骤。总体而言,这些主题突显了AI社区在透明度和可重复性方面的广泛承诺,使研究人员、实践者和行业利益相关者能够高效地在他人的工作基础上进行构建。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Liang, W., Rajani, N., Yang, X., Ozoani, E., Wu, E., Chen, Y., ... & Zou, J. (2024). Systematic analysis of 32,111 AI model cards characterizes documentation practice in AI. Nature Machine Intelligence, 1-10.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章