【资料】生成式人工智能和开放数据:指南和最佳实践

乐活   2025-02-06 16:52   美国  

本文是一份由美国商务部商务数据治理委员会发布的指南,旨在指导生成式人工智能系统如何使用开放数据。该指南详细介绍了商务部的数据资产、数据发布和检索、数据许可和使用、数据完整性和质量等方面的最佳实践。此外,它还涵盖了数据集和元数据标准、DCAT-US v3.0规范更新、数据格式、发布可理解的开放数据权利和权限、以及提供预写模板和理想响应的提示库等内容。这份指南不仅适用于商务部,也适用于全球的数据发布者,目的是为了提高数据的可用性、可访问性和互操作性,从而促进生成式AI的发展和应用。

文本要点及解释

  • 商务数据治理委员会

    • 成立背景:为履行2018年《基于证据的政策制定基础法案》和管理预算办公室备忘录M-19-23的要求而设立。

    • 使命:最大化商务部数据的战略资产价值,确保与Evidence Act目标的一致性。

    • 职责:指导Act在部门内的实施,协调关键交付成果,向白宫管理和预算办公室及国会提供全面更新和报告。

  • AI与开放政府数据资产工作组

    • 成立时间:2023年第四季度。

    • 目的:应对生成式人工智能(AI)和其使用开放数据带来的机遇和挑战。

    • 成员构成:来自商务部的数据管理和AI专家,与行业、学术界和其他公共数据生态系统利益相关者合作。

  • 文档目的与版权信息

    • 文档目的:为发布供生成式AI系统使用的开放数据提供指导,适用于商务部,但公开发布供全球数据发布者使用。

    • 版权信息:由美国政府创建,不受美国版权法限制。

  • 商务部的开放数据资产

    • 数据种类:包括文本、表格、地理空间、图像、音频和视频数据。

    • 数据量:超过15万个公开数据集。

    • 主要发布机构:国家海洋和大气管理局(NOAA)、美国人口普查局(Census Bureau)、经济分析局(BEA)、美国专利商标局(USPTO)、国际贸易管理局(ITA)、国家标准与技术研究院(NIST)。

  • 数据发布和检索

    • 一致性格式:压缩大文件或使其易于下载,使用开源且语言无关的文件格式进行压缩,在数据出版物中包含长篇书面文档。

    • 易检索位置:提供多种检索方式,至少包括RESTful API和直接下载,定期更新数据网站并使其易于爬取。

  • 数据许可和使用

    • 许可和使用政策:明确定义和发布机器可读格式的生成式AI相关开放数据使用政策,协调跨部门开发标准化模板,包括与AI相关的具体政策。

    • robots.txt文件:在商务部网站根目录包含robots.txt文件,以管理爬虫行为。

  • 数据集和元数据标准

    • 文档级与内容级元数据:文档级元数据描述整个数据集,内容级元数据描述数据集中的个体变量、字段或路径。

    • 领域特定标准:使用领域的特定标准如ANSI代码,采用基于标准的元数据模式如DCAT用于数据目录或ISO标准。

    • 内部工作元数据模式:确定一个内部工作元数据模式,以促进数据创建和质量控制工具之间的互操作性和一致使用。

  • DCAT-US v3.0规范更新

    • 更新计划:截至2024年,联邦政府正在更新DCAT规范,并将引入DCAT-US v3.0模式。

    • 全球标准对齐:DCAT-US v3.0与全球W3C DCAT v3.0标准对齐,并遵循FAIR数据原则。

  • 数据格式

    • CSV和JSON格式:CSV由RFC 4180定义,适用于表格数据;JSON由RFC 8259定义,轻量级、文本基于、语言独立。

    • 图像和视频格式:使用标准化、广泛支持的开放源码图像和视频格式。

    • 避免使用PDF文件:因其难以自动解析。

    • 不依赖特权特定应用程序的格式:如XLSX。

    • 减少结构歧义的文件结构:如扁平表格。

    • 提供原始数据和派生数据版本

    • 数据存储和分发:便于访问和检索。

    • 数据许可证和使用:明确且一致,以支持广泛、公平和开放的数据访问。

  • 发布可理解的开放数据权利和权限

    • 明确定义和发布使用政策:商务部各部门应清楚地声明其使用政策,协调跨部门开发标准化模板,所有政策应以机器可读格式发布。

    • 在商务部网站根目录包含robots.txt文件:以管理爬虫行为。

  • 提供预写模板和理想响应的提示库

    • 预写模板和理想响应:商务部提供的提示库包含预先编写好的模板和理想响应,用于训练模型与实时数据交互。

    • 与生成式AI应用程序开发者的合作:与AI开发者合作,以确保权威数据被优先考虑,提高元数据和数据可访问性。

【目录】
首席数据官的信息
摘要
第一部分:背景
美国商务部及其开放数据资产
人工智能与生成式人工智能的发展
制定准则和最佳做法
第二部分:指导方针和最佳实践
1.0文档
1.1在文档中提供有关数据资产的全面背景
1.2最大限度地提高文件的可用性和可及性
2.0数据和元数据格式
2.1发布全面、结构化的数据和元数据
2.2最大限度地提高数据和元数据的可用性和可访问性准则
3.0数据存储与传播
3.1以一致的格式传播开放数据准则
3.2将开放数据存储在易于检索的位置
4.0数据许可和使用
4.1以可理解和可接受的格式发布可理解的开放数据权利和许可指导原则
4.2协同开发和更新数据许可和使用政策
5.0数据质量和完整性
5.1为高质量的数据检索准备开放数据
5.2持续评估公开数据的准确性
未来工作
结论
附录
A1.词汇表和附加背景信息
A2.RFI受访者、人工智能和开放政府数据资产工作组以及人工智能就绪数据研讨会经常推荐的技术
A3.Schema.org、Croissant和hug Face的交互作用
上述资料原文及机器翻译已上传知识星球
长按识别下面的二维码可加入小编知识星球
    里面有万余篇资料可供下载
    越早加入越便宜
    续费五折优惠


丁爸 情报分析师的工具箱
每天为大家精选各类情报分析相关的资源、工具、技巧和资讯,努力成为情报分析师必备的工具箱。外挂机器人“小丁丁”还能陪您聊天,给您查航班、查列车、查天气、查酒店、查美食、查股票、回答您的提问等等。
 最新文章