哥大归来的她,在华为成长为数据“天命人”

科技   2024-12-16 21:00   安徽  

| I | T | 报 | 

聚焦IT.互联网.通信.数码揭示科技潮流最新走向

【微信号:ITnewspaper】

从纽约到南京:
哥大归来的数据“天命人”


文 | 刘夷白
2019年5月20日初夏平常的一天,在大洋彼岸的美国加利福尼亚州,我熟练打开谷歌地图,准备导航前往洛杉矶的中国城,但手中的Mate 20手机屏幕突然弹出一行小字:“抱歉,您的服务暂时不可用。
“欸,今天这是怎么回事?”我反复尝试,明明信号满格,却一次次得到同样的提示。
“可是我能正常使用啊?” 朋友将iPhone手机递到我眼前,我更疑惑了,于是用朋友手机上的谷歌浏览器搜索起来,然后,看到了令我震惊的消息——“谷歌宣布从即日起停止对华为手机的服务。
之后的一段时间里,制裁新闻如雪片一般堆在国内外热搜榜上,我逐渐了解到,原来招来技术封锁的是华为的强大、中国的强大,这让身处异国的我感慨万千。
01
从哥大到华为,我一直钟爱着数学

2022年5月,我正式接过哥伦比亚大学的毕业证书,漫长的七年留学长跑就此画上句号。毕业之际,ChatGPT这一现象级产品的横空出世如同投下一颗深水炸弹,彻底改变了行业格局。从深度学习到大模型,模型在数据和参数上的量变终于引发质变,激发了前所未有的智能火花,我眼前一亮,兴奋异常,更坚定地走上了人工智能这条路。
我从小就对数学情有独钟,那些数字和符号像是一个个跳跃的生命体,吸引着我去探寻背后的奥秘。本科时,我选择了统计学和管理经济学双学位,在各行各业实习中不断发现我与数据的契合点,享受着从繁杂数据中洞悉其中奥妙的“灵光一现”时刻……我仿佛天生就是要和数据打交道的。后来,我继续在数据科学-人工智能领域深造,从数据走向AI,并与摩根大通、联合利华的AI研究部门合作,进行CV(计算机视觉)目标检测算法的创新应用。这为我加入华为,从事数据算法的工作奠定了坚实的基础。
所有的铺垫都化作美妙故事的序章,华为服务与软件研发管理部向我抛来了橄榄枝——“AI数据工程师”,如此专业契合的岗位!我喜出望外地踏上回国之路,来到了南京研究所。
毕业合影(左二为作者)
入职后,我从维护大模型应用和开发智能问答特性做起,一步一个脚印地积累了大模型应用框架的基础知识。两个月后,导师蔡博提出:“我们要研究一下怎么用我们的大模型和知识库搭建一个自己的智能助手”,我毫不犹豫地接受了这项新挑战。
“两个礼拜行吗?”
“必须行!”
接下来的两周时间,我没日没夜地阅读论文、写代码,最终成功搭建起了知识库和RAG(检索增强生成)问答应用框架,并WeLink上线,实现了自己的第一个大模型应用。在后续几个月的算法优化探索中,我反复琢磨RAG框架中每一个关键环节。从路由、改写,到融合召回、重排,再到生成和记忆,每每遇到难题和瓶颈,我不断通过学习和摸索找到解决之道。就这样,我们稚嫩的智能助手逐渐成长为一个带有可插拔组件的成熟pipeline(流水线),并成功落地为产品,应用于数字化交付运营领域,为一线工程师提供及时的交付作业相关知识搜索与问答服务,极大提高了知识流转的速度与交付效率。
在这个项目中,我不仅收获了一次完整的大模型技术落地的宝贵经验,更深刻体会到高质量数据在大模型时代的重要性。无论是在检索召回还是在模型微调,数据几乎决定着算法效果的上限。
02
数据质量OK吗?让夷白把把关

2024年3月,部门转型成为AI数据部,承载着为华为ICT服务领域大模型源源不断地提供“弹药”——高质量高价值的领域数据的职责。大模型的领域化训练主要分为两个阶段,持续的领域预训练和专用SFT(有监督微调),其中持续预训练目的为让模型更加深刻地学习领域独有的知识和经验,而SFT目的为面向典型的领域应用场景激活未被通用模型激发的专用对齐能力,在下游任务上完成服务工程师和伙伴工程师日常工作的对齐。为了保证模型不“断供”,项目组决定每周供给一批数据,并根据模型反馈不断迭代优化,实现数据飞轮。
领导找到我:“你有算法和数据两方面的背景,也做过微调和数据质量提升,可不可以试着承接SFT数据的整体交付工作?”
那一瞬间,我忍不住激动,与数据打交道是我喜欢且擅长的事,这时候不挑战,什么时候挑战!我欣然接受了任务,转身成为专用SFT数据质检、数据交付的owner(负责人)。一上任,我遇到的第一个任务就是:提供ICT领域增强的SFT指令数据,用领域数据帮助模型在领域能力上实现提升,同时混合通用数据以保障领域大模型的问答能力不丢失。
接下来的几天,我皱着眉头,和浩如烟海的数据集大眼瞪小眼,不断进行着一个人的头脑风暴:开源的通用数据太多、怎么选?ICT服务领域数据虽然很多,但一直未按照大模型的对齐范式去积累,因此站在LLM视角看还远远不够,怎么补?哪些数据能用、哪些不能用?数据质量怎么把控?......许许多多的问题等着我回答。
为了掌握专用SFT数据的数据构建目标全景,我从下载的开源数据看起,因为开源的SFT数据集具有较好的对齐范式,可以供我学习借鉴。于是,我将一个又一个文件展开看数据样例,并通过数据处理脚本,把可用数据的信息整理归档。在看了三四十个数据集、数百个数据文件后,我从千万级的通用微调数据中的逐步摸索数据构造方法和体系设计,大致掌握了如何去设计一套面向专用领域的SFT数据目标全景,而经手的每个数据集上都有我备注的痕迹。
为了定义数据质量,我翻遍了SFT质量有关的论文和行业领导者对数据质量的定义,博采众长,充分吸收和融合业界数据质量维度定义,并加入领域数据特有的规范,形成了有效性、完整性、安全性等6大维度、57项细则的质量评价体系。
为了验证数据效果,我参考业界的评测指标并与模型训练&服务工程师种子用户实时沟通,获取服务工程师的使用反馈,从工程师使用模型的输出特征中倒推数据的偏向或问题,挖掘每个能力所对应数据的格式特征、质量要求。
“领域模型的服务工具和API调用还是有点问题,是不是数据集里混了些噪声?”
“现在模型的故障经验信息萃取能力的遗忘好像变严重了,是不是要增加下数据占比?”
被各种各样新的问题和思考所包围,我的脑海中也时常出现各种碎碎念,读论文、与同事讨论、向专家请教学习,成为了我的常态。我边学边了解和整理手头的数据,构建之间能力、摸索数据交付流程,一项一项地攻克。
在4月到6月每周一版数据的紧张交付节奏中,不断促使自己深度思考,终于整理出高效高质量数据交付的整体流程框架,数据规划、寻源、采集、优化、混合等9大环节、11项必要步骤,铺就了高质量SFT数据的必经之路。同时我也编写了《服务领域SFT数据接入规范》《服务领域AI数据质量评估规范》并面向周边领域推广,在数据进入SFT数据池之前做了规范的格式和质量把关,从此,交付高质量数据,不在话下!
这期间,我也经手了很多运营、维护等服务场景的下游任务微调数据,但再多也决不懈怠,我依然坚持去了解每一份数据,坚持发现和解决细节问题,一步步让数据集变得更好。面对训练团队的问题时,我从开始的不确定,到后面对数据细节如数家珍,对答如流,逐渐感受到大家对我的信任。我知道,这庞大的巨兽,我已经开始掌握驾驭的方法。
“夷白,这个领域能力在当前的训练集中有多少数据啊?”
“该能力在训练数据集中一共4.2万条,其中两个子能力项分别2万条、2.2万条。”
“夷白,这份数据来源是什么、原始query(提问)是怎么构造的?”
“数据来自某场景,原始query是从应用系统中导出的历史对话。”
“夷白,模型在领域测评上表现不好,是不是训练数据的客观题分布有问题?”
“客观题在筛选时已考虑多样性和均衡性,各选项的占比相差不大,表现不好可能为数据量过少导致的欠拟合,可以再补偿部分数据。”
……
这样的对话数不胜数,直至后来,时常听到训练团队说,“数据质量OK吗?让夷白把把关。”我内心有点小骄傲的同时,也感受到这些信赖背后的责任。
03
攻关渐入佳境

部门架构改变后的初次“大考”来了,正式进入“630”攻关战,这是AI服务产品部成立后第一次发布正式的领域模型产品,也是我们和模型训练团队、服务工程师种子用户的第一次线下联合作战。
我们630要达成的关键目标有两个:模型在服务领域数通能力认证评测上提升20%、保持10余个下游领域任务能力不下降。其中,SFT数据对第二个目标有着至关重要的作用。
六月中旬,训练团队发现模型效果离目标差距很大,几个特性接连亮起了红灯,有完不成产品承诺目标的风险,需要数据提供更多支持并以更快的节奏迭代,因此建议从按周迭代改为按日迭代。这时,平日远程的电话沟通显得吃力起来,过高的沟通成本达不到及时传递信息的需求,眼看着时间分秒流逝,我们与训练团队商量后默契地达成了一致,一不做二不休,我们去东莞集中攻关!
出差当天,我将刚领回家一周、还没混个脸熟的小猫送到宠物店寄养。看着它这么小小软软的一只,孤单地缩在格子间里的模样,我一阵心酸。“很快搞定就来接你回家!”我暗自承诺。
“留守”小猫
“夷白,落地了嘛?等你来我们讨论一下。”一下飞机,我就收到了模型领域增强专家斌帆哥的信息,我马不停蹄地赶往东莞松山湖作战室。不大的作战室中挤满了“网友”,大家来不及互相介绍,打了个招呼就立刻拖来白板开始分析模型问题和后续动作。
后面的每天都是相似的场景,作战室里,数据团队和训练团队一起并肩合作,对着屏幕上的领域工具调用、经验知识萃取、服务手册阅读理解等16个特性目标,一个一个地分析、一点一点地从模型推理输出的字符中抽丝剥茧,寻找潜在的数据缺口。每天晚上11点,作战室里都能听到噼里啪啦的键盘声,预训练数据团队也在连轴攻关,直到凌晨两点大家都还聚在一起解决问题。
攻关期间(右一为作者)
6月17日,负责模型领域增强的吴晨玮博士在攻关群里发出了最新的评测截图,“基于第14版本预训练、第30.1版本SFT数据的模型在数通平均提升幅度达到21.7%。”
平静的一句话激起千层浪,大家立马发来一连串的点赞和祝贺表情包,就连一向沉稳的张豪哲博士都发了两个感叹号。
达标了!连熬了一个周的夜、每天迭代一版数据的预训练数据团队也放下了紧绷的神经,作战室里的气氛一下子轻松了不少。
接下来就剩下游领域任务能力不下降这个目标,“看SFT的了!”
每天1到2版的SFT数据集持续迭代,我和负责数据合成的武斯杰博士在东莞面对着高强度的交付任务。武博部署上了6个LLM(大语言模型)实例全开动,每天生成上千条针对性的补偿数据,源源不断地为交付提供新的弹药;而南京的小伙伴们也远程加入,对不足的特性数据进行紧急寻源和分析,从数据源到数据分布,源源不断地向前线输送准确的信息,帮助诊断数据集的可疑偏向。每次得到准确的结论,我都会在电话里喊“太棒了,就要这个信息!”
6月18日,我们在两小时内紧急攻关两个重要的数据修复算子,修复了18万条问题数据。
6月19日,我们紧急打通多轮对话自动数据合成技术,严密看护风险特性。
6月20日,我们连续发布三个版本的数据集,接近半夜,我将最后一份补丁数据集发布上架,打电话将刚出门的吴博又喊了回来,将新的数据启动训练。
6月21日凌晨一点,和团队的李婧博士、孙志杰在屏幕前等着最后的模型结果出来。同日,模型领域能力和下游任务能力终于全线达标,其中领域工具调用的复杂特性,模型比基线提升300%,可以转测!
PANGU-S数据领域攻关复盘合影(右一为作者)
6月30日,攻关正式结束,我回到南京第一件事就是去接我的小猫。短短半个月,模型成长的同时,我那两斤重的小不点儿已经长到了三斤,茁壮成长中。我重新抱它入怀,摸摸毛茸茸的小脑袋,心里暖暖的。
“我们都表现得很好呀。”
04
道路纵险,路在脚下

西藏冰川徒步
短短3个多月,我交付了18个版本的服务领域专用SFT数据集,总计超过200万条。在这期间,我逐渐加深着自己对大模型的领域增强和工程师对齐的理解,也沉淀了不少对领域AI数据集构建、数据交付的宝贵经验,获得“战地英雄”“团队优秀”荣誉。
虽然数据质量并没有达到100%完美,模型效果也远没有达到领域专家般的胸有成竹,但我们尝试定义了数据质量体系,并依托体系进行数据质检技术的构建和应用,最终落地业务,实现了可见的数据集质量提升和模型效果提升
《黑神话·悟空》背后的游戏科学创始人冯骥说过:“踏上取经路,比抵达灵山更重要。”在大模型求索的道路上,我身处一个充满热爱和追求的“取经团队”,并因缘分和热爱成为了数据“天命人”。面对着无数的技术难题,我也常常感到压力山大,但每当我想到我们正在做的不仅仅是解决一个问题,更是在探索未知的边界,这种信念就让我充满了动力。纵管九九八十一难,尽管前方荆棘丛生、高山重重,路总有人走的。我坚信,“敢问路在何方,路在脚下。”每一次挑战都是一次成长的机会,而我愿意脚踏实地、一步一个脚印地走下去。

欢迎小伙伴在底部发表神评,与我们交流!

IT报:大家都在看的公众号,你关注了没

 因为微信更改了推送规则,推文不再按照时间线显示,如果不点『在看或者没有『星标』,可能就看不到我们的推送了!如果不想错过精彩内容,就赶紧星标我们吧

IT报
聚焦IT、互联网、数码等行业新闻,致力于提供最鲜活的IT产业资讯,第一时间报道行业重大事件。以独特视角、犀利风格揭示IT产业走向,众多IT大佬都关注了!你还在等啥呢?投稿或合作请加V yeqw01 或Q 1945507743
 最新文章