大模型数据集需要完善的质量评测体系
在当今信息爆炸的时代,在我们固有的认知中数据是取之不尽用之不竭的,新数据还在源源不断的产生,数据量动辄PB级甚至EB级,但能够实际用于大模型训练的数据并不多,需要进行特殊的“炼化”形成高质量数据集,然而,业界对于数据集的“高质量”尚未形成统一的定义,这给数据集的建设和模型的训练带来了挑战。
人工智能“garbage in, garbage out”定律在大模型时代仍然适用,无论算法多么复杂、计算资源多么强大,模型的性能始终受限于训练数据的质量。大模型时代,建立一套完善的数据集质量评测体系显得尤为重要。首先,质量评测应从数据的信息量、准确性和安全性等多个维度进行全面审查,确保数据的可靠性。其次,评测体系应考虑数据的多样性和稀缺性,以确保模型在实际应用中的广泛适用性和专业性。
中国移动率先探索构建高质量数据集评测体系
中国移动大数据中心负责中国移动数据集的管理和供给,统筹汇聚全集团内部数据资源,积极引入外部数据资源,打造高质量数据集,支撑中国移动自主研发九天“1+N”系列通/专大模型体系,打造千亿参数多模态大模型。在数据集的构建过程中,中国移动以九天系列通/专大模型研发需求为导向,高标准、高投入打造高质量数据集,不断探索、研究数据集质量评测方案,形成了有中国移动特色的数据集质量评测体系。
图:中国移动数据集质量评测体系
中国移动数据集质量评测体系是一套全面覆盖数据集指标体系、评测工具及评测实施方案的综合性测评体系,旨在通过科学、系统的方法,对数据集的质量进行客观、公正的评测,确保数据集的准确性、一致性和高信息量,为大模型研发提供可靠的数据集支持。同时,还将有助于加强与合作伙伴之间的数据共享与协作,推动技术创新和服务升级,共同应对大模型时代对数据集质量的挑战,实现互利共赢。
当前,中国移动已经基于自研数据集质量评测体系对现有数据集进行了全面的评测。在数据集质量评测体系的指导下,中国移动已经建设几百个、数百TB量级的高质量数据集,全面助力九天系列通/专大模型研发。
构建完善的数据集质量评测体系
基于九天系列通/专大模型研发诉求及高质量数据集建设经验,中国移动建设了一套覆盖文本、图文、视频、音频四大类型数据集以及指令微调数据集的数据集质量评测指标体系,目前已建设超百个评测维度,共计170余项评测指标,全面确保数据集的准确性、一致性、专业性。
图:数据集质量评测指标体系
文本数据集质量评测指标体系
为确保文本数据集的内容质量、专业性和合规性,构建了一个全面的评测指标体系,涵盖32个评测维度、37个评测指标,结合规则采样、小模型与大模型技术,可以全面评测数据集的各项指标。典型的评测指标如下表所示:
图像数据集质量评测指标体系
图像数据集质量评测指标体系涵盖30个维度、44个评测指标,结合自动检测与人工审核,确保评测结果准确可靠。典型的评测指标如下表所示:
视频数据集质量评测指标体系
视频数据集质量评测指标体系涵盖28个维度、34个评测指标。典型的评测指标如下表所示:
音频数据集质量评测指标体系
音频数据集质量评测指标体系涵盖24个维度、37个评测指标。典型的评测指标如下表所示:
微调数据集质量评测指标体系
在大模型SFT、强化学习训练的过程中,指令微调数据集的作用明显,为确保微调数据集的高质量、专业性和多样性,构建了一套涵盖12个维度、23项评测指标的评测指标体系,手工设计与模型驱动的指标并重,结合自动化检测与人工标注,确保评测结果准确可靠。此外,还引入了GPT模型自动评分与人工评价结合的方式,可有效提升微调数据集的整体质量。典型的评测指标如下表所示:
打造智能化数据集质量评测工具箱
通常数据集的规模都比较大,数据评测体系的规则复杂,依靠人工检测效率太低。因此当前已经基于构建的指标评测体系,研发出高质量数据集评测工具箱,具体包括19个文本质量评测算子、15个图文质量评测算子、8个视频质量评测算子以及12个音频质量评测算子。这些算子能够从规范性、完整性和合规性等多个维度对数据集进行评测,显著提高了评测的精度和效率,为文本、图像、视频和音频等不同类型的数据集提供全面的质量保证,确保数据集在各种应用场景中都能发挥最大价值。
图:高质量数据集质量评测工具箱
高质量数据集质量评测工具箱从多维度评测能力、自动化评测流程、自定义工具配置、实时评测与反馈等几方面持续打磨:
多维度评测能力:评测工具支持文本、图像、视频、音频、以及微调数据集等多类型数据集的质量评测,针对不同类型的数据,提供了众多量化的评测指标。
自动化评测流程:评测工具支持数据集自动化评测,通过预设规则、人工智能算法等技术实现对数据集质量的自动检测、分析和评分。包括但不限于自动化检测:自动发现数据中的缺陷、噪声、格式错误、重复数据等问题。智能化分析:利用机器学习模型识别出数据集中的潜在异常,预测数据集的潜在风险点。
灵活自定义配置:针对不同的应用需求,评测工具允许用户自定义评测指标、参数阈值和评分标准,确保工具能够适应多样化的数据场景和行业要求。
实时评测与反馈:评测工具具备实时数据评测功能,能够在数据集建设过程中持续监控质量并生成反馈报告,保障数据集的动态优化。
形成高效化数据集质量评测实施方案
针对具体的评测任务,从数据采样配置开始,经过质量分析工具的精细配置,再到评测结果的严格审核,最后进行结果的可视化展示。这一流程确保每个环节的精准执行,提升评测的效率与准确性,为研发人员提供直观、可靠的数据质量评测报告,支持更优的数据配比方案。
数据采样配置:配置进行评测的数据集采样比例及策略,提升评测准确性和可靠性。
定制化评测组合:支持配置不同的评测算子组合,可基于数据集的特点选择合适的评测工具,有助于提升评测的准确性和效率,更好地适应不同类型和用途的数据集需求。通过定制化的评测方案,可以更深入地挖掘数据价值,确保评测结果全面反映数据集的质量状况。
评测结果审核:通过人工或机器校验评测结果,确保其准确性和可靠性。此过程包括但不限于对评测算子输出的初步结果进行复核,检查是否存在异常值或逻辑错误,确认评测标准的一致性应用。
任务分发:可将评测任务高效、有序地分配给相应的评测人员或自动化工具。
可视化工具配置:配置合适的可视化工具,通过图形化的方式直观展示评测结果,帮助用户快速理解和分析数据质量。
异常数据管理:识别、处理和记录数据集中的异常值,方便用户查阅异常数据,确保数据的准确性和可靠性。
建设多样化数据集质量评测生态
中国移动在实践中持续迭代数据集质量评测体系,在持续打造优化自身数据集的同时,积极推动数据集质量评测体系对外赋能。
中国移动与山东政府密切合作,发挥央企担当,勇担科技领军企业龙头作用,抢抓人工智能时代战略机遇,成立中移齐鲁创新院,其目标之一就是努力建设国家级数据标注基地,立足区域优势产业,提供人工智能数据处理标注服务,助力打造立足山东、面向全国的中国数都,形成数据要素产业集群,构建数据采集、清洗、标注、传输、存储、交易、应用全产业链集聚。
中国移动大数据中心积极参加国家数据局数据标注基地试点,在中国国际数字经济博览会上,与保定市数据局、保定市莲池区人民政府签订“梧桐大数据数据标注基地”合作意向书,正式宣布中国移动与保定市在数据标注领域的全面合作。
中国移动将持续优化高质量数据集供给体系,通过高质量数据支撑中国移动九天通/专大模型研发,全面服务国家“人工智能+”战略,助推经济社会高质量发展,为数字中国建设注入更加强劲动能。
[参考文献]
[1]数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis:
https://www.cnblogs.com/tree1123/p/16489327.html[2]基于机器学习和人工智能的数据质量测试工具:https://www.cnblogs.com/syw20170419/p/17389191.html
[3]大数据分析中的数据质量评估与监控工具介绍(七):https://wenku.baidu.com/view/6b809c5575a20029bd64783e0912a21614797fd9.html
[4]大数据环境下数据质量指标体系https://blog.csdn.net/hzbooks/article/details/123013615
[5]数据仓库中数据质量评价标准探讨:https://cloud.baidu.com/article/360103
[6]刘锏嵘,周环珠.大数据环境下的数据治理框架研究及应用[J].通讯世界,2024,31(04):37-39.
[7]刘冰,庞琳.国内外大数据质量研究述评[J].情报学报,2019,38(02):217-226.
审稿:王冀彬 | 中国移动信息技术中心大数据BG
作者:吴坤 | 中国移动信息技术中心大数据BG