绝对不要怀疑国内大厂对于人才的投入力度,几乎所有的互联网大厂都有这种对于高端人才的招聘计划,特点就是「高薪」+「高要求」。你看腾讯的青云计划提到的,它的目标是面向全球,给高薪、给定制化的培养、做核心业务、目标是解决前沿问题,可以理解这是一个更偏向研究型的工作岗位。特别是这个计划有一个专门针对于大模型的系列,全都是大模型最前沿且亟待解决的问题,比如大模型的文生视频、多模态大模型等等。这些都是非常前沿且开放的问题,现在市面上有一些解决方案,比如OpenAI的GPT4o,但是很难说这就是最终的解决方案。 跟青云计划类似的「大模型」人才招聘计划还有一些,比如字节跳动的“Top Seed”和“筋斗云人才计划”、百度的“AIDU计划”以及商汤的“AI先锋顶尖人才计划”,这些全都是针对于人才的争抢,年薪基本上都在大几十万起。 重要的其实是它的招聘要求,一般分为硬实力和软实力,硬实力一般就是看教育背景和技能,软实力一般就看论文发表以及有没有实际的工程经验。教育背景:普遍要求硕士及以上学历,计算机科学、数学、统计学或相关专业,本科也有直接做大模型的,但是数量相对来说很少。对于高端职位,如多模态大模型算法岗位,博士优先,且有相关领域研究发表者更受欢迎,一般就是N篇一作顶会论文,比如CVPR,NIPS,ICML,ICCV等等,难度可以说很高。专业技能:都是常规的技能,比如AI的理论知识,一些编程语言,常用的框架等等。- 精通深度学习框架,如PyTorch、TensorFlow等,以及模型优化技术。
- 对于多模态大模型岗位,需深入理解Transformer、CNN、RNN等。
工程经验:这部分其实非常能拉开差距,且能看出来是否有实战经验,比如多卡多机的大模型预训练,有没有做过RLHF的实践等等,这个很容易从简历和发布的论文中看出端倪。
我罗列了一些比较常见的技能储备,但一般来说只需要掌握一些核心的技能即可,工作中遇到的问题大多数考验的是学习能力以及随机应变的能力。除了这些需要高度专业化的岗位需要硕士博士且研究性极强外,还有很多的公司做的更多的是基于大模型的应用。 这类型应用的特点就是高度依赖于别家的API,比如市面上很多的写作助手、对话助手之类的AI应用,其实就是在第三方的API上套了一层壳。简单来说,我是对话助手,你把信息发给我,我自己不会处理,我发给你ChatGPT,它处理完的信息回复给我,我再回复给你,我只起到了中转的作用,而核心的处理是OpenAI在做。 而做AI应用的公司要远远多于研究AI的公司,因为后者投资过于大且需要大量的专业人才,而AI应用难度就大大降低了,对于程序员来说,调用API是一件再平常不过的事情,特别是大模型的API非常容易使用。 比如最新的GPT 4o mini的使用,就是非常简单的json格式,稍微改改就行。curl https://api.openai.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gpt-4o-mini",
"messages": [{"role": "user", "content": "Say this is a test!"}],
"temperature": 0.7
}'
这其实是一部分程序员的机会,因为自己的编程经验+AI知识就能做更高薪的工作。特别是我认识的很多人都开始往大模型应用方向转了,这个方向其实要比单纯的写代码有潜力得多,毕竟还在行业的早期。主要有两个方向,一个是大模型本身的训练以及智能提升,这个方向需要的人不多;另一个就是针对已有大模型的应用,特别是对于开源大模型的微调再应用,是一个非常火的方向。如果你关注近期的一些大模型应用,会发现这些应用大多是多种技术的融合。例如,使用RAG技术可以提升生成模型的准确性和信息性,而微调技术则可以使模型更适应特定任务,prompt工程在一些简单场景下也能发挥重要作用。
而在一些复杂的情景,Prompt能做的非常有限,因为它只能改变一点儿输出的模式,而RAG或者微调大模型对于一些复杂任务就是必不可少的步骤。这也是现在主流的LLM应用的主要解决版办法,就是RAG+微调,试图最大程度的控制LLM的输出。