本文是一份由美国商务部商务数据治理委员会发布的指南,旨在指导生成式人工智能系统如何使用开放数据。该指南详细介绍了商务部的数据资产、数据发布和检索、数据许可和使用、数据完整性和质量等方面的最佳实践。此外,它还涵盖了数据集和元数据标准、DCAT-US v3.0规范更新、数据格式、发布可理解的开放数据权利和权限、以及提供预写模板和理想响应的提示库等内容。这份指南不仅适用于商务部,也适用于全球的数据发布者,目的是为了提高数据的可用性、可访问性和互操作性,从而促进生成式AI的发展和应用。
文本要点及解释
商务数据治理委员会
成立背景:为履行2018年《基于证据的政策制定基础法案》和管理预算办公室备忘录M-19-23的要求而设立。
使命:最大化商务部数据的战略资产价值,确保与Evidence Act目标的一致性。
职责:指导Act在部门内的实施,协调关键交付成果,向白宫管理和预算办公室及国会提供全面更新和报告。
AI与开放政府数据资产工作组
成立时间:2023年第四季度。
目的:应对生成式人工智能(AI)和其使用开放数据带来的机遇和挑战。
成员构成:来自商务部的数据管理和AI专家,与行业、学术界和其他公共数据生态系统利益相关者合作。
文档目的与版权信息
文档目的:为发布供生成式AI系统使用的开放数据提供指导,适用于商务部,但公开发布供全球数据发布者使用。
版权信息:由美国政府创建,不受美国版权法限制。
商务部的开放数据资产
数据种类:包括文本、表格、地理空间、图像、音频和视频数据。
数据量:超过15万个公开数据集。
主要发布机构:国家海洋和大气管理局(NOAA)、美国人口普查局(Census Bureau)、经济分析局(BEA)、美国专利商标局(USPTO)、国际贸易管理局(ITA)、国家标准与技术研究院(NIST)。
数据发布和检索
一致性格式:压缩大文件或使其易于下载,使用开源且语言无关的文件格式进行压缩,在数据出版物中包含长篇书面文档。
易检索位置:提供多种检索方式,至少包括RESTful API和直接下载,定期更新数据网站并使其易于爬取。
数据许可和使用
许可和使用政策:明确定义和发布机器可读格式的生成式AI相关开放数据使用政策,协调跨部门开发标准化模板,包括与AI相关的具体政策。
robots.txt文件:在商务部网站根目录包含robots.txt文件,以管理爬虫行为。
数据集和元数据标准
文档级与内容级元数据:文档级元数据描述整个数据集,内容级元数据描述数据集中的个体变量、字段或路径。
领域特定标准:使用领域的特定标准如ANSI代码,采用基于标准的元数据模式如DCAT用于数据目录或ISO标准。
内部工作元数据模式:确定一个内部工作元数据模式,以促进数据创建和质量控制工具之间的互操作性和一致使用。
DCAT-US v3.0规范更新
更新计划:截至2024年,联邦政府正在更新DCAT规范,并将引入DCAT-US v3.0模式。
全球标准对齐:DCAT-US v3.0与全球W3C DCAT v3.0标准对齐,并遵循FAIR数据原则。
数据格式
CSV和JSON格式:CSV由RFC 4180定义,适用于表格数据;JSON由RFC 8259定义,轻量级、文本基于、语言独立。
图像和视频格式:使用标准化、广泛支持的开放源码图像和视频格式。
避免使用PDF文件:因其难以自动解析。
不依赖特权特定应用程序的格式:如XLSX。
减少结构歧义的文件结构:如扁平表格。
提供原始数据和派生数据版本。
数据存储和分发:便于访问和检索。
数据许可证和使用:明确且一致,以支持广泛、公平和开放的数据访问。
发布可理解的开放数据权利和权限
明确定义和发布使用政策:商务部各部门应清楚地声明其使用政策,协调跨部门开发标准化模板,所有政策应以机器可读格式发布。
在商务部网站根目录包含robots.txt文件:以管理爬虫行为。
提供预写模板和理想响应的提示库
预写模板和理想响应:商务部提供的提示库包含预先编写好的模板和理想响应,用于训练模型与实时数据交互。
与生成式AI应用程序开发者的合作:与AI开发者合作,以确保权威数据被优先考虑,提高元数据和数据可访问性。