【资料】生成式人工智能和开放数据：指南和最佳实践

乐活 2025-02-06 16:52 美国

本文是一份由美国商务部商务数据治理委员会发布的指南，旨在指导生成式人工智能系统如何使用开放数据。该指南详细介绍了商务部的数据资产、数据发布和检索、数据许可和使用、数据完整性和质量等方面的最佳实践。此外，它还涵盖了数据集和元数据标准、DCAT-US v3.0规范更新、数据格式、发布可理解的开放数据权利和权限、以及提供预写模板和理想响应的提示库等内容。这份指南不仅适用于商务部，也适用于全球的数据发布者，目的是为了提高数据的可用性、可访问性和互操作性，从而促进生成式AI的发展和应用。

文本要点及解释

商务数据治理委员会

成立背景：为履行2018年《基于证据的政策制定基础法案》和管理预算办公室备忘录M-19-23的要求而设立。
使命：最大化商务部数据的战略资产价值，确保与Evidence Act目标的一致性。
职责：指导Act在部门内的实施，协调关键交付成果，向白宫管理和预算办公室及国会提供全面更新和报告。

AI与开放政府数据资产工作组

成立时间：2023年第四季度。
目的：应对生成式人工智能（AI）和其使用开放数据带来的机遇和挑战。
成员构成：来自商务部的数据管理和AI专家，与行业、学术界和其他公共数据生态系统利益相关者合作。

文档目的与版权信息

文档目的：为发布供生成式AI系统使用的开放数据提供指导，适用于商务部，但公开发布供全球数据发布者使用。
版权信息：由美国政府创建，不受美国版权法限制。

商务部的开放数据资产

数据种类：包括文本、表格、地理空间、图像、音频和视频数据。
数据量：超过15万个公开数据集。
主要发布机构：国家海洋和大气管理局（NOAA）、美国人口普查局（Census Bureau）、经济分析局（BEA）、美国专利商标局（USPTO）、国际贸易管理局（ITA）、国家标准与技术研究院（NIST）。

数据发布和检索

一致性格式：压缩大文件或使其易于下载，使用开源且语言无关的文件格式进行压缩，在数据出版物中包含长篇书面文档。
易检索位置：提供多种检索方式，至少包括RESTful API和直接下载，定期更新数据网站并使其易于爬取。

数据许可和使用

许可和使用政策：明确定义和发布机器可读格式的生成式AI相关开放数据使用政策，协调跨部门开发标准化模板，包括与AI相关的具体政策。
robots.txt文件：在商务部网站根目录包含robots.txt文件，以管理爬虫行为。

数据集和元数据标准

文档级与内容级元数据：文档级元数据描述整个数据集，内容级元数据描述数据集中的个体变量、字段或路径。
领域特定标准：使用领域的特定标准如ANSI代码，采用基于标准的元数据模式如DCAT用于数据目录或ISO标准。
内部工作元数据模式：确定一个内部工作元数据模式，以促进数据创建和质量控制工具之间的互操作性和一致使用。

DCAT-US v3.0规范更新

更新计划：截至2024年，联邦政府正在更新DCAT规范，并将引入DCAT-US v3.0模式。
全球标准对齐：DCAT-US v3.0与全球W3C DCAT v3.0标准对齐，并遵循FAIR数据原则。

数据格式

CSV和JSON格式：CSV由RFC 4180定义，适用于表格数据；JSON由RFC 8259定义，轻量级、文本基于、语言独立。
图像和视频格式：使用标准化、广泛支持的开放源码图像和视频格式。
避免使用PDF文件：因其难以自动解析。
不依赖特权特定应用程序的格式：如XLSX。
减少结构歧义的文件结构：如扁平表格。
提供原始数据和派生数据版本。
数据存储和分发：便于访问和检索。
数据许可证和使用：明确且一致，以支持广泛、公平和开放的数据访问。

发布可理解的开放数据权利和权限

明确定义和发布使用政策：商务部各部门应清楚地声明其使用政策，协调跨部门开发标准化模板，所有政策应以机器可读格式发布。
在商务部网站根目录包含robots.txt文件：以管理爬虫行为。

提供预写模板和理想响应的提示库

预写模板和理想响应：商务部提供的提示库包含预先编写好的模板和理想响应，用于训练模型与实时数据交互。
与生成式AI应用程序开发者的合作：与AI开发者合作，以确保权威数据被优先考虑，提高元数据和数据可访问性。

【目录】

首席数据官的信息

摘要

第一部分：背景

美国商务部及其开放数据资产

人工智能与生成式人工智能的发展

制定准则和最佳做法

第二部分：指导方针和最佳实践

1.0文档

1.1在文档中提供有关数据资产的全面背景

1.2最大限度地提高文件的可用性和可及性准则

2.0数据和元数据格式

2.1发布全面、结构化的数据和元数据

2.2最大限度地提高数据和元数据的可用性和可访问性准则

3.0数据存储与传播

3.1以一致的格式传播开放数据准则

3.2将开放数据存储在易于检索的位置

4.0数据许可和使用

4.1以可理解和可接受的格式发布可理解的开放数据权利和许可指导原则

4.2协同开发和更新数据许可和使用政策

5.0数据质量和完整性

5.1为高质量的数据检索准备开放数据

5.2持续评估公开数据的准确性

未来工作

结论

附录

A1.词汇表和附加背景信息

A2.RFI受访者、人工智能和开放政府数据资产工作组以及人工智能就绪数据研讨会经常推荐的技术

A3.Schema.org、Croissant和hug Face的交互作用

上述资料原文及机器翻译已上传知识星球

长按识别下面的二维码可加入小编知识星球

里面有万余篇资料可供下载

越早加入越便宜

续费五折优惠

丁爸情报分析师的工具箱

每天为大家精选各类情报分析相关的资源、工具、技巧和资讯，努力成为情报分析师必备的工具箱。外挂机器人“小丁丁”还能陪您聊天，给您查航班、查列车、查天气、查酒店、查美食、查股票、回答您的提问等等。

最新文章

【资料】美国国土安全部生成式人工智能部署手册

【资料】生成式人工智能和开放数据：指南和最佳实践

【资料】关于打击洗钱和恐怖主义融资的古老智慧：来自一本拥有1400年历史的书籍的解决方案

【资料】“国内恐怖主义 “还是 ”政治抗议？“：党派有线电视新闻对 1 月 6 日美国国会大厦袭击事件的报道

【资料】生成式人工智能下的世界

【实操】还有哪些美国公司在招聘懂中文的情报分析师？

【实操】美国这家公司为什么要招聘懂中文的开源情报分析师

【实操】美国客机与黑鹰直升机相撞的视频、音频、轨迹回放及遇难机组和乘客

【资料】国外如何评价Deepseek以及Deepseek的自我评价

【实操】利用Deepseek传承和弘扬传统文化

【培训】Osint开源情报练习 #002

【实操】利用Deepseek撰写情报简报

【实操】大语言模型能否按照特定要求撰写情报简报

【资料】数学大杀器

【智库报告】生物力量：确保美国在生物技术领域的领导地位

【资料】理解监控技术：间谍设备的起源与应用

【培训】开源情报练习 #001

【技巧】开源情报（OSINT）：套接字理论（Socket Theory）情报分析师如何更好隐藏自己

【资料】文化情报：美军如何利用国际市场的文化信息来增强情报、监视和侦察（ISR）

【知识点】解密：HUMINT、SIGINT、OSINT、MASINT、GEOINT 、IMINT、SOCMINT、MEDINT等

【资料】拟任美国中央情报局局长的拉特克利夫及其家人

【工具】全球有组织犯罪指数

【资料】拜登告别演讲

【转载】泰缅边境有组织犯罪研究报告

【资料】情报分析的应用思维：从业者指南

【资料】全源情报分析指南

【资料】大语言模型对开源情报的影响

【资料】全球和平、恐怖主义、军事化、生态威胁等指数

【资料】创建开源情报机构的理由

【资料】网络的三张面孔：网络和平活动家，间谍，攻击者

【通知】13号（下周一）开源情报能力提升班北京开班啦

【反恐】2024年12月全球恐怖主义事件

【情报培训】美国情报分析课程都教哪些内容？

【资料】分析认知框架：全源情报分析指南

【生物战】受福奇指使撰写文章说新冠来源于自然界的专家获得了美国国立卫生研究院多少资助？

【生物战】美国国家过敏和传染病研究所前所长福奇隐藏了新冠病毒的起源，并故意误导来源于自然界

【资料】美军出版物系列（2）

【资料】美军出版物系列（1）

【通知】2025年，刑科协将在常州、琼海、遵义、阜新、厦门等地举办论坛和培训班

【资料】美军如何进行专业的写作

【坏消息】中美这些战争，美国赢了！

【好消息】公安内网也有AI大模型可以免费用了

【文章汇总】2024年丁爸-情报分析师工具箱推文汇总

【通知】第12期全国开源情报能力提升班

【资讯】美国犯罪情报分析师的薪资、资格要求、工作职责、知识技能要求

【技巧】如何利用对话大模型挖掘情报：以全球各国生物战能力比较为例

【情报】美军又将以“防御”为由加大生物武器开发

【资料】先进陆战

【技巧】5种可能影响开源情报调查的认知偏见

【AI速读】开源情报中的认知偏见和批判性思维

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉