构建高质量数据集与智能数据工程平台 | 播客AI Odyssey深度对话实录

文摘科技 2024-08-02 09:00 浙江

人工智能技术的日益深远发展，对人工智能的性能提升与技术迭代提出了新的要求。在大模型训练中，已有的研究和实践表明，增大数据量或者增大模型都能带来性能上的提升，但是单一地扩大数据规模或增加大模型规模，都不免面临性能提升的瓶颈。在实践领域，在经过模型迭代的发展阶段后，数据的提升成为了推动人工智能领域发展的重要引擎和增长点，在这个过程中，数据质量的提升尤为重要。本期播客中，来自整数智能的算法工程师刘明皓和来自 Brandeis 计算机科学的博士研究生杨子敖与主持人深入探讨了如何为大模型训练和推理构建高质量的数据集，以及如何搭建智能数据工程平台。

播客实录：

https://www.xiaoyuzhoufm.com/episode/6666efd294977a26ef613ed9

大模型训练的Scaling Laws

关于大模型训练的Scaling Laws，各个研究团队都在基于自己的实验慢慢完善这个领域的研究，同时数据混合、去重策略和不同的训练场景（如Continual Pre-Training）等差异对Loss的影响也比较大，现在希望利用Scaling Law从而很准确的预测training performance仍然是有挑战且耗时的。整数智能参与搭建的开源大模型 MAP-Neo，在测试中体现出了优秀的性能表现，高质量的数据使得大模型在一些场景中的表现甚至超越目前市面上流通的先进的商用闭源模型，我们也提出了自己的NEO Scaling Law，在我们的实验中Loss下降的要比Chinchilla Law更快，这说明我们的语料更丰富且更高质量，所以额外添加了正则化项log(D)，虽然在D极大时会有影响，但是对于我们的场景来说NEO Scaling Law拟合得更好。

NEO Scaling Law

MAP-Neo-7B在不同测试中的表现

整数智能作为专业的数据标注与管理企业，面对不同的用户，会根据不同用户所提供的不同业务场景需求，提出数据配比的建议，平衡productivity与entertainment。作为人工智能大模型产业链中的一环，整数智能release了Matrix与PIN等等Datasets，也会依据客户具体的需求，充分调动既往经验和专业素养，站在用户需求这一主观视角，结合客观事实依据，为用户提供大模型建构的有效建议。

高质量的大模型训练数据

就什么是高质量数据，高质量的训练数据是如何在具体应用中影响大模型表现，整数智能通过近期发布的开源大模型MAP-Neo给出了现阶段的见解与看法。MAP-Neo是基于4.7T的中英文代码数据集训练而成，这一数据集是基于近PB的庞大原始数据规模清洗而成。对于MAP-Neo训练数据集的清洗，MAP团队采用了最经典的启发性过滤、内容抽取和低质量数据过滤，而就低质量数据过滤，团队综合应用了多种范式，从启发式的规则、数据去重，再到对数据进行规范性的要求，以及基于黑名单对于数据中可能具有敏感信息的部分进行敏感性的评价。在这一机制下，数据的淘汰率非常高，基于高质量数据的严格清洗和筛选流程，使得MAP-Neo大模型能够有一个超高质量的训练数据集。而模型的性能的显著提升在已有的测试中已经得到了多方验证。

MAP-Neo模型简介

安全和有用在一些情况下是互斥的，会产生“HARMFUL”和“HELPFUL”之间的矛盾，相似的，高维度的数据清洗同样会带来数据质量与之间是具有矛盾的，这就要求开发者在二者之间进行平衡与取舍。而针对不同来源的数据和文本语料的质量评判，不同的模型和场景也有不同的判断标准，例如来自WIKI的数据筛选流程可能并适用于论坛。针对不同数据来源逐一定制相关模型和规则进行相应的微调训练，也是当下耗费成本较高的挑战。

数据质量具体怎么影响模型的训练效果，学术界和工业界有着不尽相同的判断标准。杨子敖在播客中提到，学术界对于模型评判有一个明确的指标，依据特定的Valid Dataset为训练数据时的标准，新的训练数据训练出的模型性能是有所提高还是有所损伤，来判断数据质量对模型训练效果的影响。在这里，学术研究中提出了一种把数据集中的每一个点移除后重新评估模型表现，观察模型表现会有什么变化，进而评估该数据集对于这一模型的训练效果的方法，同时子敖组的最新工作《On the Inflation of KNN-Shapley Value》与《Revisit, Extend, and Enhance Hessian-Free Influence Functions》分别从Shapley Value和Influence Function两个不同的角度来进行数据估值和筛选。

在工业界，模型性能的评判会随着具体应用场景的切换而相应地发生变化。当现有研究和技术足以支撑优质的基础模型，在此基础上进行相应的调整，就可以使模型在不同的垂类中具备行业的相关知识。大多数时候，用户端眼中模型的好坏，是非常具有主观性质的，对模型的调整需要从用户推理和思考的维度出发，充分理解用户的需求，甚至在用户需求尚未明确的时候能够精准提炼出用户的需求。在具体应用场景中，我们希望训练出的大模型能够帮助甚至代替该行业中业务最好的专业人员思考。因此在实际商业应用中，依据行业场景进行数据集建构并非一个短期工作，数据集建构团队需要充分了解用户的需求，并调研该行业最佳业务人员的相关使用方法和思考习惯，磨合的时间越长，收集的数据越贴近现实场景，训练出来的大模型越能更好地理解指令并执行，从而成为该特定业务场景下的优质模型。

但在医疗、法律等涉及到数据隐私的行业，数据标注的过程会更加困难，无论是数据的采集、还是SFT数据的构造，都会面临数据安全带来的挑战，需要有一个足够可信的第三方来对整个数据处理流程做相应的监管。

在实际应用中，跨行业的数据集构建很难抽象为一个产品，整数智能基于不同用于的对样需求，提供一对一的对接和服务，将不同用户的需求整理成专属的标注文档，并在核验指标上进行量化，将数据标注质量转化为可以量化的数据标准，将复杂的人与人之间的沟通理解对齐为可以量化的数据标准，从而高效触达用户理想的数据集构想。

在当前的商用领域，数据壁垒在每一个垂类领域都是存在并将长期存在的现象。在这一环境中，用户数据和不断实时更新的数据都是非常宝贵的财富。即便如此，业界也在不断探索人工智能领域的民主化进程。整数智能参与开发的开源大语言模型MAP-NEO就是推动高质量大语言模型开源、促进大模型与人工智能技术民主化、助力科研领域发展的重要探索与成功实践。

智驾探索

在数据采集的过程中，最为复杂的环节是资质和标定，这关系到各个传感器的布局、互联，以及标定精度上的取舍。对采集数据的标定也有不同的策略选择，需要标注方通过方案对数据标定策略进行约束和统一，判断哪些数据在当前应用场景下具有最高的标注价值。在下半年即将发布的开源大模型的训练数据集的选择和建构过程中，整数智能将会提取采集数据的主干特征，这些特征在采集数据中会表现为一些向量。在对数据的采集和分析过程中，整数智能的处理方式是先对这些向量进行聚类，并以簇的方式对数据进行大规模的采样。以这样的方式采集到的数据，一簇中的大部分数据只需要标注3-5帧，模型就会有很好的表现。通过对具有代表性的帧进行预标注的方式进行数据生产，在智驾模型的训练过程中，只需要对已经审核过的数据进行调整，即可适用于大部分的智驾场景。在数据集构建的过程中，整数智能团队也注意到了上述流程可能带来的场景局限，如果有现有数据无法很好应对的案例，则需要在剩下尚未被标注的采集数据中进行Data Mining，或者进一步判断是否要对特定场景下的数据进行采集，这时候就可以为数据采集设计一个trigger，只有达到满足这一特殊场景需求的阈值，才对该场景下的数据进行采集。如此，数据集既能涵盖高效低成本地进行绝大部分常见自驾场景，又能囊括驾驶过程中可能出现的特殊情况。

整数智能在基于主观性的、多元化的多种行业垂类中致力于更加专业的定制化服务，同时不断将生产和服务经验复用到人工智能技术探索的过程中，不断加深、拓宽高质量数据集，并用创新性、综合性的思路进行多方尝试，不断为业界发展提供更具实用性的高效产品与专业服务。

整数智能信息技术（杭州）有限责任公司，起源自浙江大学计算机创新技术研究院，致力于成为AI行业的数据领航员。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员，其提供的智能数据工程平台（MooreData Platform）与数据集构建服务（ACE Service），满足了智能驾驶、AIGC等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。

目前公司已合作海内外顶级科技公司与科研机构客户1000余家，拥有知识产权数十项，通过ISO9001、ISO27001等国际认证，也多次参与人工智能领域的标准与白皮书撰写，也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

点击「在看」

好内容大家分享

http://mp.weixin.qq.com/s?__biz=MzkxMDMwODI4MA==&mid=2247491121&idx=1&sn=87b258fef5779f582e577d8f25c26d8e

整数智能

整数智能作为AI行业的数据合伙人，我们提供专家级的数据标注工程平台与数据集解决方案（数据采集、数据清洗与数据标注）。

最新文章

整数智能荣登“2024 CHINA AIGC 100”榜单

MooreData视频分割标注全面升级：基于SAM2的智能追踪标注工具

整数智能：人工智能行业的数据合伙人

重磅！整数智能荣登东南亚新出海未来独角兽TOP100榜单

锦绣河山，共庆华诞。

ECCV 2024 | 整数智能邀您相约意大利米兰（附大会日程表）

明月寄相思，天涯共此时。整数智能祝愿您中秋佳节团圆美满！

OpenAI o1横空出世，让我们看看都有哪些训练大模型的代码开源数据集

整数智能出席联合国工业发展组织 “一带一路”交流活动并做AI数据要素主旨演讲

你的LLM在胡言乱语？让100个AI重获新生的RLHF工具来了！

当老板问我LLM的落地，数据要花多少钱？怎么答，看这篇文章就够了

整数智能完成数千万A轮融资，长风破浪开启全球化AI数据服务新征程

整数智能入选2024年中国AI基础数据服务产业专业厂商 | 艾瑞咨询

构建高质量数据集与智能数据工程平台 | 播客AI Odyssey深度对话实录

最全大模型数据集分享系列一 | 数学数据集

整数智能智驾4D数据标注工具解决方案分享 | 自动驾驶之心直播回顾

整数智能荣登2024语料风云榜·中国Top10榜单

整数智能4D标注工具再获殊荣｜入选2024全球数字经济大会大模型场景应用「典型案例」

整数家招人啦！

喜报 | 整数智能与上海数据交易所携手，共筑数据要素市场新篇章

推动人工智能民主化：首个高质量双语的开源大语言模型MAP-Neo重磅发布！

整数智能祝大家端午喜乐安康

整数干货 | 数据标注的导出格式有哪些？

整数智能创始人林群书荣登“2024创业邦35岁以下创业先锋榜”

智驾数据的终极标注工具：给Tesla带来800倍提效的4D标注工具

预告 | 今晚七点半：整数智能智驾数据的终极标注工具-4D数据标注工具及经验分享

揭秘DriveLM：首个含图结构“语言+自动驾驶”全栈数据集

共推助力AI大模型行业发展，整数智能与浪潮信息达成元脑计划战略合作

免费！整数家上新MooreData个人版啦

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉