首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

没个985，数据标注员的工作都找不到了？

文摘科技 2024-07-04 20:02 上海

在阅读正文前，先考你三个问题，回答出第三个，将会受到硅基君的膜拜。

Q1：把图片中的猫框选出来

你：这还不简单？

Q2：下面的表情包展现的态度是积极的还是消极的？

你：有点难度，但我可是十级上网冲浪选手！

Q3：把下列图片中有病的地方圈出来，并标明出现了什么问题。

你：？？？

从非常简单，到汗流浃背，这三个问题展现了数据标注行业，在如今的变化，从是个人就能做，到专业性越来越强。

夸张点说，不是专业对口的985，未来连数据标注都做不了。

前不久，Scale AI创始人表示了类似的观点：“我们需要最优秀和最聪明的头脑来贡献数据。”

Scale AI是一家估值138亿美元的数据标注公司，估值都快赶上马斯克的x.ai了。它们的主要的工作就是给OpenAI、Meta、谷歌等公司提供训练AI的数据，被称为大模型公司的弹药库。

从实际行动上来看，Scale AI也的确在“开除”低学历人群。据Rest of World的报道，Scale AI关闭了肯尼亚、尼日利亚和巴基斯坦的承包商站点。

公司的招聘重点转向美国本土，招募高知人士，来帮助标注训练大模型的专业知识。

在传统语境下，数据工人不就应该选非洲、亚洲的廉价劳动力，怎么现在还需要高知人士了？

这其实就是因为随着大模型的不断进化，所需要的数据质量水涨船高，而事实上，数据标注已经分化成了两种完全不同的行业。

首先我们要区分一下，简单数据标注和复杂数据标注有什么不同。

下图是简单数据标注的几种方式，先感受一下。

简单的数据标注也就是我们更为熟悉的“把猫框出来”、“把脸部轮廓线描出来”。

用专业点的话来表述就是：针对语音、图像、文本等通过做标记、框对象、做注释等方式对数据集作出标注，再将这些数据集喂给机器训练和学习。

这类数据标注任务的特点就是，简单但量大，和在流水线上打螺丝类似，是个劳动密集型产业，是个正常人就能做。

比较知名较为简单的数据标注就是，李飞飞开发的ImageNet。在2009年推出时，是人工智能史上最大的数据集，包含1500万张图像，涉及22000个类别。

下图就是一个ImageNet数据标注案例，比如图片中的泰迪熊框出来，并标注上Teddy Bear。

李飞飞的项目借助了亚马逊的mechanical turk平台，众包了来自167个国家的4万9千名工作者，从近10亿张候选图片中筛选出符合条件的数据。

如今类似的数据标注的众包网站，需求很大，像行人轨迹采集，经久不衰的宠物图片采集，人像分析，眼球采集等。

从招聘jd上来看，只需要有基础的计算机操作能力，经过简单培训，人人都可以上手。

而随着技术进步，人们对于AI的要求越来越高，AI可执行的任务也变得复杂，因此AI对于数据的要求也变得复杂。

简单来说，是从简单的“框出某个东西”，变成了给某个数据写一串具体的描述。

举个例子，以前的AI只需要判断一张图片中的动物是不是猫，这个手写数字是1还是2，往往只需要学习二维数据。

而如今AI不光要学习光谱、热成像等数据，还要在专业场景下用术语进行准确描述。就像文章开头那个X光片，没有专业知识如何分辨不同病状？

同时，以ChatGPT为代表的生成式人工智能，还需要AI学会带有逻辑的编程工作，这时，我们就需要投喂AI带有“关系”的数据。

简单来说，简单的数据标注工作只需要告诉机器“1是1，2是2”，但复杂的数据标注工作，要告诉机器“1+1=2”。

具体来说，ChatGPT为代表的大模型所需要的数据标注，可以基于训练过程分为预训练、监督微调、人类反馈三个阶段。

阿里研究院《2024大模型训练数据白皮书》

第一阶段预训练，数据相对简单，用到的就是一些网页、书籍等，OpenAI、谷歌等公司陷入的侵权官司涉及的数据，也主要用在预训练中。

虽然预训练用到的数据很多，但大多未经过滤，存在很多暴力、反话、脏话等“垃圾信息”，此时的预训练模型有一定的逻辑，但回答的内容效果往往不佳。

比如你问预训练大模型，“张三偷税漏税该怎么处罚”，大模型原本应该根据法律条文进行回答，但预训练大模型可能直接使用罗翔讲的段子。

这时候就需要人类（数据标注员）的介入，也就是第二、三阶段。

第二阶段微调，数据标注员会设计问答，编写正确答案，将题目喂给模型让模型学习。

这一阶段，虽然问题形式内容看起来都不难，但真正操作起来需要有一定经验。针对不同功能/形式的大模型就需要不同的微调数据集，如何快速找到/维护合适的数据，如何处理大量数据都有技术要求。

而如果你要做一个垂类行业大模型，微调数据就要更加专业。

同样拿法律大模型为例，Gtihub上有一个LexiLaw - 中文法律大模型项目，项目中的微调数据如下。不说有多难，但起码要是法律科班出生吧，还要懂一点大模型的技术。

第三阶段人类反馈，训练目标是让模型的价值观与人类对齐，需要人类对模型的回答进行打分、排序，让模型知道什么才是好答案。

比如，大模型会针对“人工智能有什么用”这个问题，给出四个答案，数据标注员就需要对这个四个答案的好坏排个序。有时候，针对“张三偷税漏税该怎么处罚”这类专业问题，还需要做进一步的事实核实。

与“把猫框出来”这种有标准答案的数据标注不同，大模型的数据标注没有标准答案，更像是阅读理解。在数据标注员拿不定答案时，就得向有知识储备的数据标注员求助。

如果是行业大模型的数据标注员，在微调/反馈阶段还需要具备行业知识，比如训练法律大模型就需要法律知识，微调古诗词大模型还需要具备文学素养，评价上海话大模型的回答就需要会上海话。

这也就是为什么，随着大模型向着能力越来越强的AGI，专业的垂类模型发展，对数据的要求越来越高，导致数据标注需要高学历高素质人才。

大模型时代的数据标注行业也从劳动密集型转变成知识密集型。

面对数据标注员要求不一的情况，科技公司也采取了不同措施。

比如，OpenAI的前期数据标注员大多在肯尼亚，主要工作是帮大模型过滤掉“有害”内容，标注员月薪在200到300美元之间。

但涉及模型微调的时候，就真是一群名校毕业的博士生上了。

不信，你试试给下面这个甲骨文打标注？

微软亚洲研究院甲骨文校重助手Diviner

全文完。

作者：董道力

编辑：张泽一

视觉设计：疏睿

责任编辑：张泽一

关于「新硅NewGeek」：我们以AI为圆心，追踪科技领域的方方面面，努力用最简单的方式阐述技术是如何改变世界。敬请关注。

http://mp.weixin.qq.com/s?__biz=Mzk0NTU1NDk3Mg==&mid=2247488397&idx=1&sn=2dfebf2927d6098526e5cb951fc16b70

追踪每一个硅基生命的动向

最新文章

福特CEO公开赞扬小米SU7，美国网友痛骂其卖国

营收超越特斯拉，比亚迪的第四次胜利

被中国车企毒打，福特CEO都成“米粉”了

国外专家眼中的Robovan：高端出行专用，很适合接送高管团

2024年了，苹果怎么还想着拿iPad对抗折叠屏？

542天星舰试射5次，为了省钱马斯克用了多少黑科技？

谁说中国人用不了星链？我们的用法马斯克看了都挠头

特斯拉极力讨好中国的RoboTaxi发布会，可大家看完了都觉得失望

六个领导五杯水，给领导送礼他不收...这种难题也能用AI解决？

问了AI几个关于牛市的问题，它们都让我冷静

先学会拧螺丝，再谈通用

为什么大家都不关心OpenAI了？

新上市658款新能源车，怎么我还是挑不到满意的？

尽管TikTok面临封杀，但美国风投觉得字节的估值还能翻五倍

如果我今天一定要买个机器人回家，某宝能提供哪些选择？

建议每位老板都换上华为三折叠

为了卖芯片，苹果专门出了款新手机

看完AI写的歌，我开始怀念被口水歌洗脑的年代

顶级楼市小作文：马斯克1.5亿购买北京豪宅

全球地沟油缺货，都怪中国人留着自己用？

电话手表背后的“上流”社交圈

有多少人为了玩黑神话，咬牙换了新电脑？

买断制游戏为什么是最烂的商业模式？

黑神话最大的成功，在于没人关心它好不好玩

马保国的儿子，也想打“五连鞭”

真正的陪伴式机器人：会打麻将，能取外卖

明知要背刺两代车主，极氪为啥还这么着急？

日本联合体：与时间赛跑的失败者联盟？

都是谁在说比亚迪不智能？

苏州“新概念无燃油机场”：航站楼在苏州，飞机都停在上海

看完这些视频，我总怀疑自己是不是菌子中毒了

能看懂这本书的，去AI公司年薪百万问题不大

当OpenAI的领导层变成空壳，支撑着它的就只剩下阿尔特曼画的饼？

每台价格破万的学习机背后，都有个望子成龙的家长

都2024了，怎么周鸿祎的手还能被车门夹？

雷军的抖音评论区，堪称当代网友最大发癫现场

飞度雅阁思域，本田三神车也卖不动了

给养鲲页游拍广告，可能是AI视频最好的出路

代抢票、帮写作业、代发大厂相亲贴...什么都能卖的闲鱼很难不涉黄

在长视频平台上，VVVIP也尊贵不到哪去

那些早已销声匿迹的互联网公司里，藏着一批最幸福的打工人

宝马的价格战只打了38天

一条减速带，绊倒了多少无人车？

美团直播间里，挤满了想吃穷鬼套餐的都市白领

路上的敞篷车越来越少，真不是中国人买不起

看完美国网约车司机的离谱操作，我才知道为什么美国人更期待无人车

请于谦来拍汽车广告，我隔着屏幕都闻到了大肠刺身的味儿

跑到泰国去，中国车企依然得面对比亚迪的“追杀”

冬天喊臭夏天喊热，网约车司乘矛盾怎么越来越多？

AI走到了治理和发展的十字路口 | AI百业共生

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉