什么是“高质量”数据集？梧桐大数据探索构建人工智能高质量数据集评测体系

学术 2024-11-18 18:00 北京

‍‍

随着新一轮科技革命和产业变革深入发展，人工智能成为新的生产工具、数据成为新的生产要素、算力成为新的基础能源，三者共同构成新质生产力的重要驱动因素。在全面推进“AI+”的进程中，高质量数据集的重要性日益凸显，不仅是训练精准、高效的大模型的基础，更是推动技术创新与产业升级的关键资源。一个高质量的数据集需要具备准确性高、多样性好、信息量大等特点，以满足大模型对广泛、专业数据的需求，进而使得训练出来的大模型可以满足不同应用场景下的适用性。通过持续优化和完善数据集质量，可以更好地释放数据潜能，促进经济社会各领域数智化转型。

大模型数据集需要完善的质量评测体系

在当今信息爆炸的时代，在我们固有的认知中数据是取之不尽用之不竭的，新数据还在源源不断的产生，数据量动辄PB级甚至EB级，但能够实际用于大模型训练的数据并不多，需要进行特殊的“炼化”形成高质量数据集，然而，业界对于数据集的“高质量”尚未形成统一的定义，这给数据集的建设和模型的训练带来了挑战。

人工智能“garbage in, garbage out”定律在大模型时代仍然适用，无论算法多么复杂、计算资源多么强大，模型的性能始终受限于训练数据的质量。大模型时代，建立一套完善的数据集质量评测体系显得尤为重要。首先，质量评测应从数据的信息量、准确性和安全性等多个维度进行全面审查，确保数据的可靠性。其次，评测体系应考虑数据的多样性和稀缺性，以确保模型在实际应用中的广泛适用性和专业性。

中国移动率先探索构建高质量数据集评测体系

中国移动大数据中心负责中国移动数据集的管理和供给，统筹汇聚全集团内部数据资源，积极引入外部数据资源，打造高质量数据集，支撑中国移动自主研发九天“1+N”系列通/专大模型体系，打造千亿参数多模态大模型。在数据集的构建过程中，中国移动以九天系列通/专大模型研发需求为导向，高标准、高投入打造高质量数据集，不断探索、研究数据集质量评测方案，形成了有中国移动特色的数据集质量评测体系。

图：中国移动数据集质量评测体系

中国移动数据集质量评测体系是一套全面覆盖数据集指标体系、评测工具及评测实施方案的综合性测评体系，旨在通过科学、系统的方法，对数据集的质量进行客观、公正的评测，确保数据集的准确性、一致性和高信息量，为大模型研发提供可靠的数据集支持。同时，还将有助于加强与合作伙伴之间的数据共享与协作，推动技术创新和服务升级，共同应对大模型时代对数据集质量的挑战，实现互利共赢。

当前，中国移动已经基于自研数据集质量评测体系对现有数据集进行了全面的评测。在数据集质量评测体系的指导下，中国移动已经建设几百个、数百TB量级的高质量数据集，全面助力九天系列通/专大模型研发。

构建完善的数据集质量评测体系

基于九天系列通/专大模型研发诉求及高质量数据集建设经验，中国移动建设了一套覆盖文本、图文、视频、音频四大类型数据集以及指令微调数据集的数据集质量评测指标体系，目前已建设超百个评测维度，共计170余项评测指标，全面确保数据集的准确性、一致性、专业性。

图：数据集质量评测指标体系

文本数据集质量评测指标体系

为确保文本数据集的内容质量、专业性和合规性，构建了一个全面的评测指标体系，涵盖32个评测维度、37个评测指标，结合规则采样、小模型与大模型技术，可以全面评测数据集的各项指标。典型的评测指标如下表所示：

图像数据集质量评测指标体系

图像数据集质量评测指标体系涵盖30个维度、44个评测指标，结合自动检测与人工审核，确保评测结果准确可靠。典型的评测指标如下表所示：

视频数据集质量评测指标体系

视频数据集质量评测指标体系涵盖28个维度、34个评测指标。典型的评测指标如下表所示：

音频数据集质量评测指标体系

音频数据集质量评测指标体系涵盖24个维度、37个评测指标。典型的评测指标如下表所示：

微调数据集质量评测指标体系

在大模型SFT、强化学习训练的过程中，指令微调数据集的作用明显，为确保微调数据集的高质量、专业性和多样性，构建了一套涵盖12个维度、23项评测指标的评测指标体系，手工设计与模型驱动的指标并重，结合自动化检测与人工标注，确保评测结果准确可靠。此外，还引入了GPT模型自动评分与人工评价结合的方式，可有效提升微调数据集的整体质量。典型的评测指标如下表所示：

打造智能化数据集质量评测工具箱

通常数据集的规模都比较大，数据评测体系的规则复杂，依靠人工检测效率太低。因此当前已经基于构建的指标评测体系，研发出高质量数据集评测工具箱，具体包括19个文本质量评测算子、15个图文质量评测算子、8个视频质量评测算子以及12个音频质量评测算子。这些算子能够从规范性、完整性和合规性等多个维度对数据集进行评测，显著提高了评测的精度和效率，为文本、图像、视频和音频等不同类型的数据集提供全面的质量保证，确保数据集在各种应用场景中都能发挥最大价值。

图：高质量数据集质量评测工具箱

高质量数据集质量评测工具箱从多维度评测能力、自动化评测流程、自定义工具配置、实时评测与反馈等几方面持续打磨：

多维度评测能力：评测工具支持文本、图像、视频、音频、以及微调数据集等多类型数据集的质量评测，针对不同类型的数据，提供了众多量化的评测指标。

自动化评测流程：评测工具支持数据集自动化评测，通过预设规则、人工智能算法等技术实现对数据集质量的自动检测、分析和评分。包括但不限于自动化检测：自动发现数据中的缺陷、噪声、格式错误、重复数据等问题。智能化分析：利用机器学习模型识别出数据集中的潜在异常，预测数据集的潜在风险点。

灵活自定义配置：针对不同的应用需求，评测工具允许用户自定义评测指标、参数阈值和评分标准，确保工具能够适应多样化的数据场景和行业要求。

实时评测与反馈：评测工具具备实时数据评测功能，能够在数据集建设过程中持续监控质量并生成反馈报告，保障数据集的动态优化。

形成高效化数据集质量评测实施方案

针对具体的评测任务，从数据采样配置开始，经过质量分析工具的精细配置，再到评测结果的严格审核，最后进行结果的可视化展示。这一流程确保每个环节的精准执行，提升评测的效率与准确性，为研发人员提供直观、可靠的数据质量评测报告，支持更优的数据配比方案。

数据采样配置：配置进行评测的数据集采样比例及策略，提升评测准确性和可靠性。

定制化评测组合：支持配置不同的评测算子组合，可基于数据集的特点选择合适的评测工具，有助于提升评测的准确性和效率，更好地适应不同类型和用途的数据集需求。通过定制化的评测方案，可以更深入地挖掘数据价值，确保评测结果全面反映数据集的质量状况。

评测结果审核：通过人工或机器校验评测结果，确保其准确性和可靠性。此过程包括但不限于对评测算子输出的初步结果进行复核，检查是否存在异常值或逻辑错误，确认评测标准的一致性应用。

任务分发：可将评测任务高效、有序地分配给相应的评测人员或自动化工具。

可视化工具配置：配置合适的可视化工具，通过图形化的方式直观展示评测结果，帮助用户快速理解和分析数据质量。

异常数据管理：识别、处理和记录数据集中的异常值，方便用户查阅异常数据，确保数据的准确性和可靠性。

建设多样化数据集质量评测生态

中国移动在实践中持续迭代数据集质量评测体系，在持续打造优化自身数据集的同时，积极推动数据集质量评测体系对外赋能。

中国移动与山东政府密切合作，发挥央企担当，勇担科技领军企业龙头作用，抢抓人工智能时代战略机遇，成立中移齐鲁创新院，其目标之一就是努力建设国家级数据标注基地，立足区域优势产业，提供人工智能数据处理标注服务，助力打造立足山东、面向全国的中国数都，形成数据要素产业集群，构建数据采集、清洗、标注、传输、存储、交易、应用全产业链集聚。

中国移动大数据中心积极参加国家数据局数据标注基地试点，在中国国际数字经济博览会上，与保定市数据局、保定市莲池区人民政府签订“梧桐大数据数据标注基地”合作意向书，正式宣布中国移动与保定市在数据标注领域的全面合作。

中国移动将持续优化高质量数据集供给体系，通过高质量数据支撑中国移动九天通/专大模型研发，全面服务国家“人工智能+”战略，助推经济社会高质量发展，为数字中国建设注入更加强劲动能。

[参考文献]

[1]数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis：

https://www.cnblogs.com/tree1123/p/16489327.html
[2]基于机器学习和人工智能的数据质量测试工具：https://www.cnblogs.com/syw20170419/p/17389191.html
[3]大数据分析中的数据质量评估与监控工具介绍(七)：https://wenku.baidu.com/view/6b809c5575a20029bd64783e0912a21614797fd9.html
[4]大数据环境下数据质量指标体系https://blog.csdn.net/hzbooks/article/details/123013615
[5]数据仓库中数据质量评价标准探讨：https://cloud.baidu.com/article/360103
[6]刘锏嵘,周环珠.大数据环境下的数据治理框架研究及应用[J].通讯世界,2024,31(04):37-39.
[7]刘冰,庞琳.国内外大数据质量研究述评[J].情报学报,2019,38(02):217-226.

审稿：王冀彬 | 中国移动信息技术中心大数据BG
作者：吴坤 | 中国移动信息技术中心大数据BG

往

期

精

彩

关于我们：中移智库以中国移动研究院为主体建设，广泛汇聚数字经济研究力量，着力提升政策性课题研究的专业性和权威性，并扩大研究成果的影响力、公信力、传播力，为数字经济的高质量发展贡献智慧力量。

http://mp.weixin.qq.com/s?__biz=MzAwMTA3ODExOQ==&mid=2651746240&idx=1&sn=f9f054ef676ebc551a53e41e25614d30

中移智库

中移智库以中国移动研究院为主体建设，广泛汇聚数字经济研究力量，着力提升政策性课题研究的专业性和权威性，并扩大研究成果的影响力、公信力、传播力，为数字经济的高质量发展贡献智慧力量。联系我们：cminfo@chinamobile.com

最新文章

中国移动总经理何飚：打造卓著品牌共创新质未来

面向新型工业化的5G-A×AI 技术白皮书

智能体验感知技术之UE Logo

6G通感算智融合技术体系白皮书（1.0）

国际发展环境洞察（2024年第十期）

6G网络协作通感技术白皮书（2.0）

新一代信息技术经济月报（2024年第11期）

中国移动王晓云：商业价值既是6G的出发点，也是落脚点

检索增强生成（RAG）技术及应用浅析

一文读懂智算异构混合并行训练技术（下）

中国移动主办2024年世界互联网大会乌镇峰会数字化绿色化协同转型发展论坛

一文读懂智算异构混合并行训练技术（上）

5G消息产业发展分析与展望

6G：从通信到多能力融合的变革

时频统一全双工UDD关键技术

3GPP R18无线技术标准概览

大模型在有线家宽运维中的应用与思考

3D世界模型：引领人工智能迈向空间智能的新时代

HuggingFace与开源生态：引领人工智能创新的新动力

什么是“高质量”数据集？梧桐大数据探索构建人工智能高质量数据集评测体系

中国移动集团首席科学家冯俊兰：通用智能时代的思考

中移智库月度热文TOP10

对数据要素发展的思考与建议

全球卫星互联网季度观察（2024年11月）

银发经济月度观察（2024年10月）

无源物联核心网技术研究与标准推进

3D内容生成技术及应用场景探究

泛XR产业发展白皮书

提示工程——大模型中的提示词设计（下）

中国移动研究院多项成果入选国务院国资委课题成果集

提示工程——大模型中的提示词设计（上）

6G网络内生AI技术白皮书（1.0）

6G通感算智融合原生基座技术白皮书

NR ATG标准化概述

实时通信融合AI平台重构话音生态

OISA打造GPU卡间开放互联生态

中国移动杨杰：打造原创技术策源地提升信息通信话语权

“弈衡”多模态大模型评测体系白皮书

5G-A赋能绿色通信：节能标准进展，挑战与展望

一文读懂裸眼3D技术

AI赋能空天地海一体化网络资源管理

中国移动研究院张滨：骚扰电话治理关键要以“智”助“治”

新一代信息技术经济月报（2024年第10期）

国际发展环境洞察（2024年第九期）

SIM卡产业链国产化现状简析

品牌科技形象塑造经验及思考

5G小基站发展现状和发展趋势

移动研究院黄宇红：低空经济安全起飞，要牵牢通信这根“风筝线”

高精度工业视觉检测技术与应用白皮书（2024年）

数据生成技术在工业领域的应用与展望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉