「十字路口」上个月发布的《AI 产品经理指南:我是谁,从哪来,到哪去》是我们历史上最受欢迎的内容之一。于是很多工程师也在我们的群里和评论区呼吁:什么时候做一期《AI 工程师指南》吧!
因此,「十字路口」播客最近邀请到了两位 AI 领域的杰出人物 - 硅基流动创始人&CEO 袁进辉,和独立开发者 idoubi, 与我们分享他们对 AI 工程师这个职业的独到见解。
AI 正在以前所未有的速度重塑各行各业, 而站在这场变革最前沿的, 莫过于 AI 工程师们。
在这一期内容中, 从底层技术到应用开发, 从大公司到独立创业, 袁进辉和 idoubi 为我们全方位解析了 AI 工程师的现状与未来、机遇与挑战,以及如何在这个快速变化的领域保持竞争力。
此外, 两位嘉宾还分享了他们对 AI 未来发展趋势的预测。他们认为, 尽管短期内 AI 工具类应用将迎来爆发, 但从长远来看, AI Native 应用才是未来的主流。无论你是已经身在 AI 行业, 还是正考虑转型成为 AI 工程师, 相信这期内容都会给你带来启发。
微信收听播客:
小宇宙收听播客:
👨🏻 袁进辉的「过山车」和「十字路口」
🚥 Koji
首先我们来介绍袁老师。袁老师的职业经历颇具传奇色彩,特别是他在过去一年的经历堪称过山车。很多朋友也非常了解袁老师在国内大模型市场的地位。恐怕没有谁的 2023 年比袁老师更富戏剧性,正如他自己所总结的,这是「一段坐在过山车上的岁月」。
2023 年初时,袁老师的上一家公司 OneFlow 估值 1 亿美元,被「光年之外」并购后,新公司一个月估值飙升至 10 亿美元以上。而两个月之后,这个数字又骤降为 0。再过了一个月,袁老师创立了硅基流动,重新开始,天使轮即估值数亿人民币。
👨🏻 袁进辉
回顾过去, 我认为最高光的时刻还是在技术上的。虽然从常规意义上来说, OneFlow 被并购时因为社会关注度高可能会被视为高光时刻。
但对我个人而言, 最兴奋的时刻是我们做出 OneFlow 并在技术社群产生影响力的时候。特别是当时我们在整个行业最早预见到大模型的发展趋势, 并为此做了一些技术准备。尽管很长一段时间内行业内并未形成共识, 但当模型规模变大、国内外广泛关注大模型系统架构时, 人们发现中国有一家初创企业 OneFlow 已经在这方面做出了成果。甚至 PyTorch 做类似设计时也参考了 OneFlow 的工作。当我们的技术得到认可时, 那种感觉确实让人心情舒畅。至于最彷徨的时刻, 可能是去年从光年出来的时候。我们仍然坚信大模型是当今时代最好的机会, 但原本手中有非常好的条件, 突然间就失去了。那时我们确实感到迷茫, 不知该何去何从。不过这种彷徨的状态并没有持续太久。
🚥 Koji 彷徨大概持续了多久?
👨🏻 袁进辉
彷徨的时刻持续了一个月。大约在7月份, 社会上开始知道我们公司面临着是否加入美团的选择。那时许多同事已经收到了其他公司的 offer, 我们必须在有限的时间内做出决策 - 是否要重新创业。我们无法拖延太久, 因为每个人手中的 offer 都有期限, 其他选择也可能会失效。我们必须在很短的时间内做出一个大多数人都认同的方向。说得夸张一点, 当时我们大多数工程师都拿到了所谓的 3 倍、5 倍, 甚至有人拿到 10 倍薪资的 offer。在那种情况下,对我们每个人来说都是一个巨大的考验和抉择。
🚥 Koji
所以在那一个月之内,你就决定要做硅基流动?
👨🏻 袁进辉
在一个月之内,最主要的决定是:我们要继续创业。虽然在光年之外的半年时间里, 许多其他公司已经积累了大量资源, 而我们又回到了起点, 但我们认识到整个行业仍处于非常早期的阶段。更重要的是, 我们这个团队在推理 (inference) 方向的战斗力和能力仍然是整个行业最拔尖的。我们拥有所谓的「杀手锏」或「绝活」, 在这个刚刚兴起的巨大浪潮面前, 我们仍然有很大的机会。这是我们的基本判断。我们需要思考的重点是如何利用手中的这个「金刚钻」, 找到合适的切入点, 确保我们能在这个浪潮中坐在牌桌上, 并且在未来有更大的发挥空间。这是我们的大前提。在确定了这个方向后 , 剩下的问题就是找到具体的切入点, 完成融资, 设立公司等一系列实际问题。
🚥 Koji
在我的朋友圈子中, 硅基流动自上线以来获得了很高的好感度和口碑。如果今天袁老师要用一句话向所有的 AI 应用开发者来介绍硅基流动,你会用一句什么样的话来安利大家?
👨🏻 袁进辉
我们的目标是让不懂 AI 的开发者也能开发 AI 应用。我们希望能把应用中 AI 相关的部分都帮大家搞定。
🚥 Koji
最近新世相用硅基流动的 API 开发了一个名为「AI 遗嘱」的应用。
这个应用旨在鼓励年轻人在 AI 的引导和陪伴下思考死亡,写一份模拟遗嘱。我们希望通过这种方式让大家思考生命中最重要的事物,从而做出更好的选择,过好每一天。
这个程序的开发者是晨然,他过去主要是做产品经理的工作。这是他第一个从零到上线的程序。他表示使用硅基流动的开发速度非常快,甚至说用硅基流动去接 DeepSeek 的 API 速度过快。有趣的是,为了营造一个慢一些、冷静一些、严肃一些的思考氛围,我们还特意降低了 AI 的响应速度,没有让回复和 token 的展示像 API 那么快。他当时感慨道,没想到硅基流动可以把 DeepSeek 已经很快的响应再提升一倍。
独立开发者 idoubi 的 AI 之路
🚥 Koji
接下来我们来和 idoubi 聊聊。idoubi 是独立开发者圈子里被视为神一样的存在。我想请你先简单介绍一下自己作为独立开发者做过哪些项目,以及你自己最喜欢、最引以为豪的项目是哪一个?
👦🏻 idoubi
去年 10 月我从腾讯辞职后,就一直在独立开发的圈子里。最早做的是 GPTs 的应用导航,即第三方应用商店。去年快过年的前三天做了一个 AI 红包封面,这个项目在星巴克花了 1 小时就写好了,却意外地火了一段时间。之后又陆续开发了 其他项目:1 月份做了 AI 壁纸网站,2 月份开发了 AI 音乐播放器,3 月份开源并推出了 AI 搜索引擎,4 月份做了 AI 试衣。
从去年 10 月到今年 5 月,我基本保持每月发布一个新作品的节奏。5 月到 7 月暂停了新项目的发布,主要是因为 AI 搜索项目需要投入大量精力。8 月我又开始做一个新项目—— AI landing page generator:一键生成网页的落地页,预计不久后会发布。
在我所有的项目中,最印象深刻的有三个:
GPTs 导航站:这是我第一次用全栈开发方式做的独立产品。之前在腾讯我主要做后台开发,负责 Go 语言开发、KYS、集群架构等。
AI 红包封面:这是一个意外成功的项目。在星巴克仅用一小时就完成了开发,却获得了很高的热度,给了我很大信心。从这个项目开始,我在即刻圈、Twitter 等平台上的知名度慢慢积累起来。
AI 搜索引擎 ThinkAny:这可能是大家最熟知的项目。很多人惊讶于一个人就做出了 AI 搜索引擎。这个项目也为我带来了许多以前没有的体验。
🚥 Koji
所以就是在你做独立开发之后,做的项目又快又多,而且看上去是完全不可能完成的任务,对吧?一个人做了一个AI搜索引擎,那在你的这个开发过程当中,AI帮上了多大的忙呢?
👦🏻 idoubi
我发现 AI 确实在开发过程中提供了很大帮助。以实现音乐播放器为例, 之前如果要开发类似网易云音乐的播放器组件, 没有 AI 辅助可能需要花费很长时间。但是借助 AI, 只需告诉它我需要实现一个具有三种切换模式的播放组件, 不到 1 小时就能完成开发。
我认为 AI 最大的优势在于它有一些标准化的东西, 像音乐播放器这样的组件是有标准答案的, 通过 AI 辅助可以极大提高编码和实现速度。
🚥 Koji
我的背景是计算机专业, 在北航读完本科和研究生后, 一直从事产品经理工作, 已经有十年没写代码了。最近 Claude 这个工具的出现给了我一个需求。我一直在为十字路口公众号排版的问题困扰 - 交给他人排版后总是不满意, 需要花大量时间调整, 但不调整又觉得无法发布。
有一天我突发奇想, 决定用 Claude 帮我写一个排版器。令人惊喜的是, 只用了不到 10 分钟就完成了。现在十字路口公众号每篇文章的排版非常统一, 而且效率极高 - 只要我在 Notion 里把格式写好, 5 秒钟就能完成一篇公众号的排版。
那一天,就那一刻,我感觉自己插上了代码的翅膀,过去学习的计算机专业知识仿佛复活了。虽然之前因为缺乏细节技巧而不会写代码,但程序思维一直存在于我的脑海中。作为产品经理,我最擅长的就是下指令写需求文档。现在我可以直接将这些需求文档交给 AI。
当我第一次尝试时,代码如行云流水般在屏幕上呈现,即使在配置 Python 开发环境时遇到困难,AI 也能给出详尽到令人惊叹的指导。
AI 工程师的分类
🚥 Koji 我们开始来聊一聊当我们在聊 AI 工程师的时候,我们究竟在聊些什么。首先这个 AI 工程师好像并不是一个有明确定义的职业。那我们说到 AI 工程师的时候,往往是一个非常宽泛的一个含义和指向。所以第一个问题也想请袁老师来给我们讲一讲,在现在的 AI 公司里面有哪几类典型的 AI 工程师?
👨🏻 袁进辉
我的理解是,我们可以说和 AI 相关的工程师都叫 AI 工程师。其中,我较为熟悉的是专注于产出 AI 技术的这一类工程师。关于如何使用 AI 的工程师,idoubi 更有发言权。接下来,我将主要讨论如何产出 AI 技术的工程师。
在 AI 能力的生产过程中, 主要有两类工程师: 算法工程师和系统工程师。
算法工程师专注于提升 AI 的效果, 例如提高语音识别的准确度、改进图像识别的精确性、生成更清晰且符合需求的图片等。他们的目标是提高模型的智能水平和准确率。
系统工程师 ( infrastructure 工程师) 则致力于提升 AI 的效率。即使模型效果已经不错, 如果计算过程过慢, 可能会导致成本过高或用户体验欠佳。他们的工作是在保证模型准确率不受影响的前提下, 让 AI 在底层算力或芯片上运行得更快、规模更大。
系统工程师的工作还包括优化模型的训练过程, 使其更快、更稳定、规模更大。比如, 他们需要解决如何将模型扩展到数百甚至上万张 GPU 上的问题。此外, 他们还负责模型的线上部署, 确保在高负载 (如每日活跃用户数达到几千万) 的情况下, 推理速度仍然很快。
总的来说, 算法工程师负责 AI 能力的质量, 而系统工程师则负责 AI 能力的效率和规模。在算法工程师这个大类下, 还有许多细分的专业方向,我们一会儿可以补充一下。
在 AI 能力生产出来并应用到端上或云端后, 又衍生出一些新的工种。
比如说 Prompt 工程,我们在研究如何设计更优质的提示词,让大模型更好地理解并满足我们的需求。为了解决模型的「幻觉」问题,我们开始使用检索增强生成(RAG)技术,这也催生了新的工作岗位。以及还有 Agent 和 Workflow 的概念,需要专门的工程师来搭建这些应用开发框架。像 Dify 和 Coze 这样的项目,其开发者我们通常称为 Infra 工程师。
Infra 工程师的工作范畴正在不断扩大。最初,他们可能专注于如何在 GPU 上高效实现 Transformer 等深度学习模型。现在,他们的工作已经延伸到开发各种应用框架,让模型能力更易于使用。比如,他们开发了各种 Workflow,涵盖了文生图领域,还有 ComfyUI、SD Web UI 等工具的开发。这些都属于系统工程师或 Infra 工程师的工作范畴。
再往上一层,就是如何应用这些 AI 能力来开发具体的应用和产品了。这方面 idoubi 最为熟悉,也许我们可以请他来详细讲解一下。
AI 工程师的职业发展
👦🏻 idoubi
在 AI 应用开发领域,我主要专注于上层应用这一块。让我用一个实际例子来说明如何开发一个 AI 应用。
最简单的 AI 应用,比如像 「哄哄模拟器」这种,可以被称为零代码 AI 应用。它们通常基于 Coze 或Dify 等平台,或者之前使用的一些智能体,通过嵌入一段提示词来实现功能。这些应用会在接收用户输入后,与模型进行多轮交互,最终产生结果。这是最基础的一层应用。
要开发一个 AI 应用,首要任务是设计一套优质的提示词。在过去一年多里,提示词工程已经发展成为一个专门的领域,甚至形成了类似方法论的体系。这些方法告诉我们如何写出更好的提示词,比如使用 「总-分-总」结构,先定义角色,然后分步骤指导模型,甚至让模型主动追问。现在甚至有专门的书籍来讲解如何编写提示词。
我认为,提示词已经成为开发 AI 应用的地基。
对于一个 AI Native 的应用来说,第一步几乎都是建立在提示词的基础上。无论是开发 AI 搜索引擎,还是像 Artifact 这样的 AI 艺术创作产品,作为 AI 应用,它们都离不开提示词。我们必须告诉模型如何理解、处理和交互我们给它的信息,以及最终应该以什么形式呈现结果。
除了提示词工程,我注意到 AI 应用开发正朝着低代码方向快速发展。
虽然低代码概念已经存在多年,但 AI 的出现无疑加速了这一趋势。以 Vercel 为例,它最近发布了一个名为 v0 的聊天工具。用户只需通过简单的对话,就能快速生成代码并渲染成组件,就类似于 Claude 的功能。
我最近也在开发一个 AI to Landing Page 的配置工具。用户只需输入他们想要创建的项目,比如做一个名为 ThinkAny 的 AI 搜索引擎,系统就能一键生成完整的网页。这包括整个页面结构、相关术语、内容,甚至 SEO 优化等所有元素。这大大减少了用户在页面构建上所需投入的时间。
所以我认为除了提示词工程外,低代码开发也是上层应用领域的一个重要研究方向。这种趋势使得 AI 应用开发变得更加高效和便捷,让更多人能够参与到 AI 应用的创建过程中。
我想再举一个最近很热门的例子来说明这一趋势。前不久,Wordware推出了一个名为 Roast 的吐槽功能,迅速走红并大幅提升了其主产品的热度。这个功能本质上也属于零代码或低代码范畴。虽然可能需要写一些代码,但它的核心仍然是建立在提示词之上的。我相信未来这类产品会越来越多。开发者们会充分利用各种基于 AI 的工作流,让创建应用变得更加快速和简单。这与过去需要投入大量时间编写代码和设计页面的方式形成鲜明对比。
👨🏻 袁进辉
我想补充一个重要的观察和感悟。回顾移动互联网浪潮,我们可以发现,那个时代最终成功并产生重大影响力的产品,往往是由应用层工程师或产品经理创造的。在那个时期,成功并不一定取决于对底层技术的精通程度。相反,拥有敏锐的产品洞察力(product sense)才是关键。可以说,那是应用工程师和产品经理的黄金时代。具备这些素质的人最有可能开发出具有广泛影响力的产品,就像我们今天看到的 Super APP 一样。
在 AI 时代之前,系统工程师或 Infra 工程师这类角色就已经存在了。那时,他们主要关注高并发、分布式系统等领域。作为一直从事这个工种的工程师,我深有感触。我们这类工程师往往是在一个产品已经取得成功后才真正发挥作用,可以说是在做 「锦上添花」的工作。只有当一个产品已经崭露头角,日活用户(DAU)不断攀升时,我们的专业技能才显得尤为重要。比如,随着用户量激增,产品才真正需要高并发和分布式系统来支撑。
但是在产品初期,特别是在刚刚出圈或开始火爆的阶段,真正起决定性作用的是那些具备出色应用开发能力和产品洞察力的人。
他们能够准确把握用户需求,开发出引人注目的产品功能。
回想起那个时代,我们常常听到像张小龙、张一鸣这样的产品经理成为传奇人物。作为一名系统工程师,我不得不承认,这让我心里有些不是滋味。我经常在想,我们这些专注于系统底层的工程师,什么时候才能走到前台?什么时候我们才能创建出一家公司,开发出一款能影响整个社会的产品?那时候这种想法一直萦绕在我心头。
当 AI 兴起时,我曾一度认为,专注于底层技术的工程师终于迎来了他们的黄金时代。这个领域涉及许多技术,包括如何让模型训练和推理更快等算法效率问题。但是事实证明,这些底层技术仍然停留在基础层面,还没有真正触及产品层次或直接解决我们的需求。
回顾过去十年,确实有很多同行前赴后继地投身 AI 领域。但客观来说,从纯技术角度出发的成果并没有达到我们最初的预期。
即便是在大模型兴起之后,尽管技术门槛很高,我们以为技术人员的黄金时代终于到来,但现实情况却有所不同。
以 OpenAI、DeepMind 等为例,它们拥有许多传奇科学家和顶尖系统工程师。我们曾以为这些人终于站到了舞台中央。但事实上,这些核心技术仍然只是产品中的一个组成部分或模块。它们需要通过成为一个完整的产品才能发挥出最终价值。
更重要的是,这些技术正在快速商品化。比如开源模型的兴起,许多大模型训练技术也在迅速追赶。结果是,即使开发出了优秀的技术,单独作为一个商业模式也面临挑战。
我发现,我们似乎又回到了之前的状态。当这些技术刚出现时,我们对它们抱有很高期待。但随着它们逐渐成为商品化的工具,就像今天我们使用 JavaScript 或 React一样,它们变成了产品开发中的一部分而已。
那些专注于底层技术、算法和基础设施的同事们,现在似乎又回到了「锦上添花」的角色。说得不客气一点,他们的贡献虽然重要,但可能不再是决定性的。
要做出真正具有影响力的产品,我感觉机会和想象空间更多地存在于应用层面。在这个层面上,我们可能更有机会创造出改变行业甚至社会的产品。
🚥 Koji
你的观察让我想到了「幕后英雄」这个概念,而且在很多领域都存在类似的现象。
我们常常记住电影导演和明星的名字,因为他们创作了为人所知的作品,甚至可能在维基百科上留名。但在这些光鲜亮丽的表面之下,还有许多默默无闻的贡献者,比如索尼摄像机的发明者或胶片的开发者。虽然我们可能说不出他们的名字,但他们才是真正为行业铺路搭桥的幕后英雄。这个现象也让我思考到职业选择的问题。当我们在选择职业道路时,我们的动机会极大地影响最终的决定。有些人可能渴望在维基百科上有一个显著的条目,这种愿望可能会引导他们走向台前,比如成为电影导演或与公众直接对话的角色。而另一些人可能追求的是不断超越自我,持续创造出更优秀的技术基础设施。对他们来说,在专业圈子里获得认可已经能带来巨大的满足感。从我们几次交流的观察来看,我觉得其实袁老师您是对 to C 的 impact 有着较强的追求。我觉得这种追求是很好的,因为我也是这样一个人。所以你刚才那个感慨的原因其实是来自于自己内心想法的优先级的,你觉得呢?
👨🏻 袁进辉
我认为最终无论是从事算法研究、基础设施开发还是应用层面的工作,我们所有人都在追求创造价值和产生影响。
客观来说,越接近实际应用场景的工作,其产生的杠杆效应和直接影响可能更加明显,这也使得这类工作更具吸引力。
当然,我也理解有些同行追求在技术上的突破创新,或是在某个专项领域追求极致,力争做到世界第一。这种追求同样能带来巨大的满足感,反映了不同的个人价值取向。如果我们希望看到自己的技术能够直接帮助他人,创造实际价值,那么在产品端工作可能会更有成就感。在这个位置上,我们能更直观地感受到自己的工作对用户生活的影响,这种体验是非常令人兴奋的。
🚥 Koji
所以 idoubi 对这一点是不是深有体会?
👦🏻 idoubi
我感觉每个做工程师的,大部分就是会享受那种创造的快乐。就像袁老师可能会因为创造了一个广受欢迎的深度学习框架而感到自豪。作为框架的创造者,看到自己的作品被广泛使用,并促成了许多优秀产品的诞生,无疑会带来巨大的成就感。而对我来说,尽管可能无法开发出如此高级的框架,但我发现在 AI 的帮助下,我的产品创造能力得到了极大的提升。以前可能一年只能开发五个应用,现在借助 AI 技术,只需添加一些提示词或调用 API,我可能一周就能完成一个产品,一年可以创造几十个不同的应用。每个产品都能解决不同群体的特定问题,这个创造产品的过程给我带来了持续的成就感。不断收到的正面反馈让我深深陶醉于产品创造的过程中。我非常享受这种持续创造产品的快乐。
我认为,在当前这个时代,获取这种创造快乐的方式比过去更加多样化了。
👨🏻 袁进辉
我还想补充一下,做那个底层技术的快乐来自哪里。底层技术或产品的魅力在于它的通用性,能够应用于多种场景和产品中。如果能够真正做到这一步,确实会带来巨大的满足感。
但是一般来说,底层技术领域不具备多样性并且往往遵循 「赢者通吃」的法则,这使得竞争异常激烈。在这个领域,多样性通常不会长期并存,最终只有最优秀的技术才能脱颖而出。我们可以从一些例子中看到这一点:
在算法方面,Transformer 模型超越了之前的 RNN,现在几乎成为了行业标准。
在深度学习框架中,PyTorch 逐渐成为主流选择。
这种竞争环境非常残酷,只有最终胜出并被广泛采用的技术才能带来真正的成就感。对于其他参与者来说,他们的工作可能只是成为了进步过程中的垫脚石或中间环节。
我认为这种现象在产品和应用领域也同样存在。只有最终胜出,才能体会到这种成就感。在应用领域,我发现它的多样性非常丰富。无论是 to B 还是 to C 的场景,从生产力工具到娱乐应用,每个领域都可能诞生独特的产品。但是在技术层面,能够长期保留下来的成果往往很少,这也是这个行业残酷的一面。但是当你创造出一个被整个行业广泛使用的产品时,那种成就感是无与伦比的。比如发明搜索引擎的人一定会感到非常自豪,因为他们创造的东西如今已经成为全世界人们日常生活的一部分。我想,TikTok 的开发者们也一定有类似的感受。再比如 Google 的 Jeff Dean,他在 AI 和信息检索领域被视为传奇人物。我相信他也一定感到非常快乐,因为他开发的 MapReduce 为 Google 的整个系统奠定了基础,之后他又开发了 TensorFlow 等众多重要项目。
所以这个不同工种确实有一些这样的乐趣的不同。离价值更终端更近的还是应用这一块。这个是我觉得是给人带来的快乐不同的地方。
大模型带来的变化和挑战
🚥 Ronghui 接着袁老师提到的做底层技术被认可,以及角色身边发生的变化,我想问一下硅谷跟国内的情况,就袁老师了解到的话,是一样的吗?
👨🏻 袁进辉
三月份我去了一趟硅谷,最近主要通过媒体了解那边的情况。当时在硅谷期间,和朋友闲聊时发现了一个有趣的现象:身在硅谷的人对当地的了解反而不如国内的人。这种情况的原因很有意思。每当硅谷发生什么事,国内媒体当天晚上就已经翻译并广泛传播了相关信息。相比之下,在硅谷的朋友可能还不知道发生了什么。特别是华人群体,他们往往需要通过朋友圈或中国媒体,才能了解到当地发生的事情。这个还是挺有趣的。
我注意到行业内最近发生了几起引人注目的事件,比如做底层模型的公司被并购,以及 DeepMind、Anthropic AI 等公司的动向。这些事件引发了一个明显的趋势:越来越多的人开始公开讨论大模型发展是否放缓,以及现有的大模型技术是否能够通向通用人工智能(AGI)。现在人们似乎更加关注 AI 的应用和投资回报价值。这种趋势变化非常明显。举个例子,之前只有红杉资本的投资人提出 AI 是否能创造 2000 亿美元价值的问题,而现在这个数字已经被提高到 6000 亿美元。这反映出一个现实:目前 AI 领域的投入非常高,已经达到几百亿甚至上千亿美元。为了让这些投资有意义,必须能够产生 2000 亿或 6000 亿美元的回报。最初这种观点可能只是个别声音。但现在,越来越多的人开始认同这一观点。这代表了一种思维潮流的变化。人们开始意识到,技术的传奇和神话最终必须在实际应用中体现出价值。我们正在进入一个新的阶段,开始追问 AI 技术如何真正创造价值的问题。
🚥 Ronghui
两位能不能结合自己的经历讲一讲对 AI 工程师这个工作的观察变化?
👨🏻 袁进辉
在我读博士时,我的研究重点是算法,可以说我当时是一名算法工程师。但毕业后开始工作,我逐渐转向了工程领域,特别是 Infra 这一块。这两个领域有很大的区别,而我选择从算法转向 Infra 的原因也很有趣。我发现算法领域的竞争异常激烈。就像我们常说的,底层技术是 「赢家通吃」,但算法领域更是如此。如果你无法提出该方向最先进的想法,你的工作就很难被采用。一个算法科学家能否想出 ResNet、VGG、RNN 或 Transformer 这样的创新,往往带有很大的偶然性。每年,全世界发表成千上万篇论文,但只有少数算法或想法能被保留下来,得到行业认可并被广泛使用。
这些突破性想法的产生,当然需要持续不断的探索和勤奋投入,但我认为还有一部分是灵感的眷顾,就像产品经理那种灵光一现的感觉。
因此在算法领域,只有少数人能体会到真正的成就感,比如那些创造出 ResNet 或 Transformer 的人。大多数人的工作虽然也有价值,但很难达到这种程度的成就感。这使得算法领域变得非常残酷。同时,算法领域的创新往往依赖于聪明的 「巧思」。一旦一个想法被提出,就像捅破了一层窗户纸,所有人都能理解。比如现在大家都知道 「Attention is all you need」这样的理念。这种想法一旦出现,传播速度就非常快。如果我们想用这种算法创建一家商业公司,就会面临一些问题。因为一旦这个创新被公开,就很难作为商业壁垒。这就是算法领域的一个特点,也是它与 Infra 领域的一个重要区别。
我发现 Infra 领域与算法领域有着显著的不同。虽然 Infra 也需要一些灵光一现的创意,但更多地依赖于长期的工程实践和积累。这不是一个简单地想到了 idea 或突破了某个概念就能立即被他人复制的领域。相反,它需要工程师们的才智和持续不断的投入,通常以年为单位来计算。就像我们今天讨论的 「黑神话悟空」游戏需要四年开发时间一样,许多 Infra 系统的开发也需要数十人甚至上百人连续投入几年的时间。即使其他人有类似的想法,如果没有几百甚至上千人年的投入,也难以取得成功。这正是我从算法转向 Infra 的原因。尽管两者都属于底层技术,但系统软件更有可能发展成为一个商业产品或公司。就像过去的大数据系统、数据库产品等,比如 Snowflake、Databricks、Oracle 等,都成功地建立了商业公司。还有一个变化是,大模型的出现也为底层技术带来了变化。与过去的模型相比,大模型最显著的特点是它们需要密集的计算资源。过去,算法工程师只需要一两块 GPU 就能进行实验或发明新算法。
但现在,如果没有一个大模型团队和几千块 GPU 的实验条件,很难开展这样的工作。这导致能够继续从事算法工程师工作的人数比过去少了很多。
除了资源密集的特点,我注意到还有一个重要的变化趋势:模型结构已经高度收敛。过去,我们经历了一个百花齐放、百家争鸣的时期,有很多种算法和模型结构。比如在卷积神经网络(CNN)领域,我们有 ResNet、VGG、Inception 等多种变体。但现在,几乎所有人都在使用 Transformer 结构,而且这些结构看起来都非常相似。在这种情况下,算法工程师面临着一个巨大的挑战:如何再次突破,甚至超越或推翻 Transformer?这个任务变得异常艰难。因为目前已经有大量资源投入到 Transformer 架构中,探索了它在各种条件下的表现,以及最优的超参数设置。
新的想法很难获得同等规模的资源支持来进行充分的探索,因此很难再有重大突破。
随着模型结构逐渐收敛,且已经投入了巨大资源,许多算法工程师发现再做出 「神作」或颠覆性成果变得越来越困难。大多数人只能在 Transformer 架构下做一些渐进式的改进工作。在这种情况下,我们的工作重心开始转向数据。因为在模型结构固定的情况下,模型效果的提升主要来源于数据的优化。比如,我们需要考虑使用多少数据,使用什么样的数据,以及如何配置这些数据。中文、英文、代码数据,甚至是各种私域数据如何组合,都成为了关键的诀窍。
🚥 Ronghui
我注意到最近在湾区有一个有趣的变化,尤其是在人们谈论工作时的口吻上。这个变化让我想起之前和一个朋友的对话,以及我自己在湾区听到的一些对话。以前,当人们谈论高收入的工程师时,并不会特别强调某个人是数据科学家。但现在,情况似乎有了显著的变化。如果两个工程师都有很高的收入,人们会特别指出其中一个是数据科学家,仿佛这个头衔让人脑袋上冒金光一样。
👨🏻 袁进辉 我想补充一点,这种情况并非绝对。在大模型公司中,算法工程师的数量确实相对较少,他们甚至以人均 GPU 数量作为一个重要指标。例如,一家拥有 1 万张 GPU 卡的公司可能只有 10 个算法工程师在使用这些资源,这意味着人均可能达到 500 或 1000 张 GPU 卡。
这些公司衡量生产效率的标准不是算法工程师的数量,而是拥有多少顶尖的算法工程师。
他们认为,每个工程师应该能够驾驭大量的 GPU 资源。然而,我意识到这种情况对大多数人来说可能很遥远,因为毕竟我们中的大多数人并不在这些大模型公司里从事相关工作。同时,我注意到学术界仍然有大量的工作在进行。比如研究如何更好地微调模型,如何改进对齐(alignment)技术,如何解决幻觉(hallucination)问题等。此外还有一个重要的挑战是解决模型的 「黑盒」问题。目前大家普遍认为神经网络是不可解释的,但如何探索出一个理论来解释为什么深度学习和大模型能够如此有效,仍然是一个谜。这些还仍然需要这些搞算法、搞理论的同行去攻克。
🚥 Ronghui
袁老师你觉得从这个大模型,从它以 ChatGPT 出现到现在,你觉得它的这个能力的演化,对工程师的能力的要求有什么特别明显的变化呢?
👨🏻 袁进辉
对于算法工程师来说,跨界能力和交叉学科知识确实非常重要。他们的创新想法往往不局限于传统的计算机工程领域,可能来自物理、生物等其他学科。比如在 OpenAI 这样的公司里,有不少算法背景的人原本是从其他学科转过来的,其中不乏物理学背景的人才。而对于 Infra 工程师来说,尤其是那些负责支持大模型训练的工程师,他们需要精通分布式系统、大规模集群管理和高性能网络等领域。这要求他们具备非常强的动手编码能力,能够快速解决复杂的底层系统问题,并对这些问题有敏锐的洞察力和直觉。总的来说,对这类工程师的首要考察标准是卓越的工程能力,他们必须能够迅速上手并解决那些极具挑战性的底层问题。随着 AI 技术的发展,我们看到了一个有趣的趋势。起初,AI 相关的技能是非常稀缺的。但随着它被越来越多的人认可和使用,AI 正逐渐成为一种基础设施,就像水和空气一样,变得普遍存在但又不被特别察觉。这种趋势也正在影响着行业的分工方向。在这个背景下,我认为像 idoubi 这样的全栈工程师这样的角色变得越来越重要。这类工程师不仅要有扎实的技术功底,还需要具备强烈的产品意识和洞察力。他们能够将技术能力与产品思维结合,渗透到行业中去,各个场景中去,变成我们这个工作生活中离不开的产品。
超级个体
自从我辞职成为独立开发者后,我的工作方式发生了翻天覆地的变化。——idoubi
🚥 Ronghui 我其实下一个问题也想问 idoubi,你在之前在大厂里面工作的时候作为工程师,跟现在自己完全可以说是一个一人公司的话,你觉得自己的工作方式有什么样特别大的变化?
👦🏻 idoubi
在上大学之前,我基本没有接触过个人电脑,更不用说计算机了。由于对专业不了解,我选择了武汉大学的核工程专业。然而,在大二时,我偶然接触到了 IT 领域,立即被它深深吸引。我开始在网上观看视频,自学编程。每次做出一些东西时,那种成就感给了我极大的动力。这种持续的自学和对行业的热情一直伴随着我。如果现在有人想走我这条路,比如学了一个不感兴趣的专业,或者刚入学的大学生想自学编程,我认为现在的门槛其实低了很多。现在资源丰富,加上有 AI 辅助编程工具如 Copilot,学习变得更加便捷。当遇到不懂的问题,只要把问题贴上去,AI 就能给出透彻的解释。因此,我认为现在是一个非常好的时代。无论是学习全栈开发、Python 还是其他技术,门槛都变得更低,学习进度也更快。在短时间内,你可以学到更多的知识。这是我的第一个观点:借助现代技术,我们可以学到更多东西。第二个关于工作方面的变化,我想分享一下我的经验。以前在腾讯这样的大厂工作时,通常有明确的分工。正如袁老师所说,从底层到上层有水平的分层。但实际上,每一层又有很多垂直的切分。在大型科技公司中,应用层的分工确实非常细致。
以我在微信做海外支付系统的项目为例,我们的团队结构清晰地展示了这一点:前端开发、后台开发和数据库工程各有专门的工程师。作为后台开发工程师,我们的工作聚焦于特定领域,比如钱包账户金额的变动、编写 API 和 RPC 接口,以及部署系统供前端调用。前端工程师则不需要了解后台的数据设计细节,他们只需按照接口文档进行对接,确保整个流程能够顺利运行。我曾担任过架构设计和运维的角色。作为运维工程师,我不需要关心具体的业务逻辑,我的职责是搭建 k8s 集群,规划微服务的切分,选择合适的 IPC 框架,决定网络通信是走内网还是 VPC 私有网络等。我的目标是确保每个人开发的组件能在这套集群上顺利运行,所以我不需要关注它的业务逻辑。总结一下,大型公司的每个工种都划分得非常精细。你只需在自己的专业领域做到足够优秀即可。在晋升体系中,我们有不同的晋升通道。例如,即使我完全不懂前端开发,不会写应用程序或产品,我仍然可以成为后台开发的专家。同样,一个前端专家可能对后台开发知之甚少。
自从我辞职成为独立开发者后,我的工作方式发生了翻天覆地的变化。作为一名全栈开发者,我不再需要与他人协调接口对接,也不用商讨数据链路的设计。文档编写和数据传输的细节都由我一人负责。我只需选定一个全站开发框架,就能快速编写接口并自行调试。这种转变带来了效率的显著提升。以前,一个系统的开发可能需要一个月时间,还要投入五个人的团队。而现在,同样的系统我一个人就能完成,可能只需要三天,有时甚至一天就能完工。工作方式的改变主要体现在两个方面:1. 我不再需要大量的协作,这极大地提高了工作效率。2. 我摆脱了对固定组件的依赖。在微信工作时,我们常常依赖于公司内部的架构团队开发的组件,如事件中心、消息队列和数据库等。现在,我可以利用 AI 为我推荐合适的组件,然后直接根据接口文档进行对接。这种方式大大提升了开发效率。
个人开发和公司开发在工作流程和模式上是有非常大的区别的。
👨🏻 袁进辉
idoubi 这种全栈的工程师非常需要,很多公司都非常需要这样的人才。因为在 AI 出现后,它的产品机会在哪里是这个答案有很多不确定性的。它需要有很多 idea,需要快速的迭代。这个时候如果是用一个正规军大部队,然后就分工来配置的话,它那个速度太慢了,就是我们见效也太慢了。大家有的时候会说这个程序员即使都很厉害,但是大家互相之间协作沟通,传输的带宽还是比较窄的。所以你如果是我们一个全栈工程师,他自己和自己沟通,脑子里的带宽就好像是无限的。但是如果是两个人,其实现在的沟通还是用语言,语言的带宽还是很窄的。
🚥 Ronghui 像 idoubi 说的,曾经大厂的工作流程是这个样子的,但是其实已经出现越来越多想你这样的超级个体户。你会觉得未来有什么工作会消失吗?
👦🏻 idoubi
我认为某些岗位的消失不会是绝对的,更可能是比例的降低。回想我在大公司工作的经历,一个产品通常涉及多个角色:设计师、产品经理、测试工程师、前端和后台开发等。每个角色都有明确的职责,比如测试工程师会根据接口文档或产品需求文档(PRD)来验收最终的完整流程。但是在微信工作时,我注意到一个有趣的管理理念:工程师要对自己的代码负责。这导致微信实际上没有专门的测试工程师这个岗位。每个开发人员都需要自行测试代码,然后自己负责发布上线。现在作为一名独立开发者,情况又有了新的变化。我不仅没有测试工程师,可能连产品经理、前端、后台这些明确的角色划分也没有了。实际上,我在一个人身上融合了多个角色的职责。我觉得,随着越来越多的人选择成为独立开发者或自由职业者,许多传统工作岗位的界限会变得越来越模糊。我们可能不再需要那么细致的分工,而是要求每个人都具备多方面的能力。
👨🏻 袁进辉
个人开发者和超级个体的兴起确实是当前国内外的一个重要趋势。这种趋势的背后有几个关键因素:首先是分工的日益明确,以及开发者工具和平台的不断完善。现在,很多原本需要自己搭建的基础设施都可以通过云服务轻松获取。比如,我们不再需要自己搭建 Kubernetes 集群,因为云平台已经提供了托管的 K8S 服务。如果需要使用 AI 技术,我们可以直接调用各种大模型的 API,如 OpenAI 的 API 等。甚至网站托管、服务器租赁、CDN 等服务也变得非常便捷。这意味着开发者可以将更多精力集中在核心业务逻辑上,而不是被基础设施所困扰。我最近看到 idoubi 写的一篇博客,讲述了他把网站从 Vervel 转移到 Cloudflare 的经历。刚开始大家都用 Vercel,其实 Vercel 已经帮大家省了很多事情了。后来发现这样做的成本还是很高,需要更自主化一些,用 CDN 去实现的,然后就发现了 Cloudflare 这样的产品。这些 IT 基础设施、云产品和服务为个人开发者创造了良好的条件。
现在,一个全栈工程师可以利用自己的能力,再辅以外部的产品和服务,就能够打造出一个完整的产品。这大大降低了创业的门槛,也为超级个体的出现提供了可能。
前段时间我们也看到了一些成功的案例。比如 Midjourney,据说只有二十来个人,却能创造出每年几亿美金的收入。还有很多小型公司在各自的细分领域取得了不错的商业成果。
创业的挑战
🚥 Ronghui
我突然想到一个问题是,其实感觉像袁老师也比较想要招到 idoubi,就是具有这种比较全面能力的人。但是像他这样拥有全面能力的人,自己就可以搞一个一人公司,可以自己赚钱。这其实是一个矛盾,这个矛盾对袁老师这样的雇主要怎么解决呢?然后以及 idoubi怎么想?
👨🏻 袁进辉
我非常理解像 idoubi 这样的一些有创业精神的人喜欢折腾的心态,因为我自己就是这样走过来的。以前我也总想着如何做成一件事情,产生影响力,然后不断尝试。这个过程确实充满挑战和困难,但如果内心有那份渴望和热情,这些困难都是可以克服的。这种人无论是创业公司还是大公司是招不到的。人才的特质可以用两个维度来衡量:能力和冒险精神。那些既有能力又特别喜欢冒险的人,最适合创业;而有能力但不喜欢冒险的人,可能更适合在大公司工作;介于两者之间的人,则可以考虑加入其他创业公司。当然,还有一些折中的方案。比如像字节跳动的很多业务,是通过并购进入的。这也是一种解决思路:虽然加入了一个大公司,但是作为被并购的单位,仍然可以相对独立地运营一个新业务。例如,抖音就是被并购进字节后发展起来的。所以在创业和就业之间,还存在着多种可能性。
👦🏻 idoubi
我有一个很朴素的想法,那就是尊重自己的个性。我是一个非常喜欢自由的人,属于那种随性而为,想到什么就做什么的类型。在腾讯工作的五年,对我来说已经是一段相当长的职业经历了。在此之前,我在两家公司的工作经历都不到一年就跳槽了。所以,我觉得在腾讯待了五年,已经达到了我的职业极限,所以去年我决定裸辞。主要是因为我每天脑子里有太多想法,却没有足够的时间去实现它们,这让我上班感到非常痛苦。裸辞后,我感觉这段时间其实非常快乐。虽然你提到个人创业可能会赚到很多钱,不需要打工,但对此我持保留态度。至少目前来看,我还没有在商业价值方面有什么突出表现。但在产品开发和积累个人影响力方面,这九个多月的自由职业生涯让我收获颇丰。我最大的感受是,我可以每天按照自己的想法行事。当突然有灵感时,我能迅速将其付诸实践,上线发布,被很多人看到,这种感觉特别棒。也有一些像袁老师、莫妮卡、小红哥等人邀请我加入他们的团队。我很尊敬这些创业者,觉得他们身上有很多值得我学习的品质。但目前,我还有太多想法没有完全实现,我想把自己很想做的东西做得更好一些。之后再看看有没有其他机会。如果能靠自己的努力赚到钱,那当然是最理想的方向了。
🚥 Ronghui:
我觉得就像你说的,你会根据当下的优先级别,根据自己个性里最需要的东西去做一个调整。
👨🏻 袁进辉
我最初也是一名不甘于现状的工程师,觉得不应该局限在有限的能力和影响力范围内,于是踏上了这条创业之路。创业的一大优势在于没有天花板,你可以尽情发挥,影响力和成就的上限完全取决于自己。相比之下,在大公司工作往往需要服从整体规划,受到各种限制。创业确实对个人成长有巨大帮助。从掌握单一技能到发展全面能力,这个过程涉及方方面面。现在创业不仅要进行研发和产品开发,还需要处理运营增长、融资商业化等事务,要具备商业思维,形成一个完整的闭环。这就是一个全面成长的过程。成长的背后往往伴随着挑战,创业过程中面临的困难确实很多。但是如果一个人非常享受实现自己想法的过程,这些挑战似乎都不足为惧,都能够克服。尽管如此,创业的确是一条艰难的道路。我相信每一位创业者在整个过程中都会亲身体会到这些挑战带来的酸甜苦辣。困难和问题会层出不穷。但是既然选择了这条道路,想必心里都有所准备。毕竟创业之路虽然充满挑战,但也蕴含着无限可能。
🚥 Koji
我比较好奇的是,对你来讲最难的事情是哪些事情?
👨🏻 袁进辉
从表面上看,许多人会认为融资是创业过程中最大的难题。的确,融资是一个重大挑战,但我认为这只是表象。最困难的其实是改变自己,或者意识到自己的局限性。无论遇到什么困难,总有人能够解决,但如果不能改变自己,那么很多问题自己不一定能解决。以融资为例,它有其特定的规律。有些人在融资过程中顺风顺水,而有些人则举步维艰。这时候的关键是要找到其中的规律,这可能需要我们挑战自己,反思是否太过固执或自以为是。我们需要思考哪些方面的能力需要提高,放下自我,意识到可以改进的地方,并努力补全这些能力。这个过程可能需要自己独立完成,也可能通过团队协作来实现。所以我认为最大的挑战还是自己的成长。如果自己跟不上形势的发展,无法及时调整和进步,这将是创业路上最大的障碍。创业不仅仅是关于业务的发展,更是一个不断自我革新、自我突破的过程。
🚥 Koji 这一次其实你还是义无反顾又开始了一次新的创业。然后在知道了有千难万难之后,那你觉得这个内心最大的动力来自哪里?
👨🏻 袁进辉
我一直以来的追求始终没有完全实现。从创业之初,我就专注于踏实搞技术、搞研发,希望能做出对他人有价值的东西,创造价值,产生影响力,获得成就感和回报。尽管这个愿望一直没有完全实现,但如果现在放弃,将来一定会后悔。
考虑到前期付出了那么多,坚持了那么长时间,现在正是一个更好的时机。大家普遍认为大模型 AI 是一场堪比移动互联网甚至 PC 革命的变革。这样的机遇可能一辈子也难遇到几次。我们已经做了很多积累,团队也在成长,如果此时放弃,将来一定会后悔。所以为了不留遗憾,我们必须继续追逐未实现的梦想。
从始至终,我都希望探索自己的极限,看看自己能够做到什么程度,能够创造出怎样的事业。早期我关注的是在研究上能达到什么水平,能有多大的创造力,比如论文能发表在哪里,能获得多少引用。后来我更注重产品和业务对公司的影响,比如能为公司带来多少收益。
现在我希望在整个行业前景尚不明朗的情况下,通过自己的研究和思考,做出一些超前的预判。为未来可能发生的重要事件提前做好准备,无论是技术还是产品层面。归根结底,这一切都是为了产生更大的影响力。
我一直在追求这个目标,希望依靠自己和团队的力量,看看能产生多大的影响力,能够成就怎样的事业。这就是我坚持的动力所在。
🚥 Koji
你是什么时候意识到自己是有如此强的 impact 的驱动的?👨🏻 袁进辉
这种追求的历程可以追溯到很早。从小到大,这种追求的范围和深度不断扩大,直到现在,我觉得它变得更加宏大了。在很小的时候,我一直在追求所谓的 「卓越」。比如说,追求学习成绩优秀,追求发表高质量的论文。那时候的眼界可能比较局限,关注点集中在一些实际意义并不太大的问题上。随着时间推移,我的追求逐渐转向了更具实际意义的方向。我开始更加关注如何给人们带来正向的推动作用。比如说,如何让人们的生活更幸福,如何提高工作效率,如何推动世界朝着更好的方向发展等等。
🚥 Koji
idoubi 其实你做的事也是有蓬勃的创造力。就在很多人看来是难以想象的,怎么可以有那么多的idea,并且有那么强的执行力。所以你自己如果看自己内心的话,你觉得这个驱动力是来自于和袁老师一样的,对影响力的追求,对卓越的追求,还是有来自不一样的角度?
👦🏻 idoubi
我觉得一方面也跟袁老师一样,也是希望自己能够有更大的影响力。第二就是当你做出来的产品,真正解决某些人的问题,然后别人很喜欢的时候,其实是有非常大的成就感的。我一直是一个被成就感驱动的人,无论是最早自学计算机,还是现在自己做产品,本质上都是靠成就感驱动的。这种持续的成就感是我前进的动力。
另一方面,我也在不断探索自己的能力边界。以前我主要做后端开发,后来我尝试了前端开发,发现对我来说并不太难。因为有了一些积累,学习新技术变得相对容易。我通常只需要过一遍官方文档,了解一下技术架构,就能很快上手做出东西。
比如今年三月份,我开始做 AI 搜索。起初我认为这是一个很大的领域,像谷歌、百度这样的公司已经做了几十年,我觉得不是我这种人能轻易进入的。但当我深入了解后,发现它其实在我的能力范围内。因为我不需要重走传统搜索引擎的老路,而是可以在现有的 AI 能力基础上进行开发。我发现我甚至可以在一两天内就把基本功能做出来。
随着探索的深入,我对这个行业逐渐 「去魅」。我发现基本上我看到的每个行业似乎都没有特别高的技术门槛。
基于这个认知,我有了更多尝试的欲望。我觉得只要在我能力范围内,我经常会用到的软件,我都想自己动手写一遍。
这样做能让我接触到不同的产品,获得不同的成就感,也能接触到不同的人群,对每个行业有更多的认识。这些元素让我不断有新的学习欲望,不断补充我的知识库,并通过实际产品将所学付诸实践,覆盖到不同的领域。这就是我持续创作的动力所在。
👨🏻 袁进辉
其实我现在已经不再是一名工程师了,因为我已经不写代码了。我觉得这是一件很遗憾的事情,我特别羡慕像 idoubi 这样的状态——有什么样的想法和产品构思,就能立即着手实施,很快就能看到效果。回想起以前写代码的时候,我非常享受那种状态。现在如果有什么想法,自己做起来没那么快了。需要找同事去做,还要讨论半天,他们也不一定完全按照我的想法来执行。在这种情况下,我更加意识到作为一个工程师的自由是多么令人向往。那种能够直接将想法转化为现实的能力,确实非常宝贵。
🚥 Ronghui
那你会考虑到会用 devv 这样的 agent 吗?
👨🏻 袁进辉
虽然我还没有亲自使用这些 AI 编程工具,但我听说它们可以解决一些初步的问题。不过我仍然相信人类工程师的价值。这让我想到了 AIGC 在绘画和写作领域的发展。有人说 AI 已经能在某些方面超越画家和作家了。但我还是觉得,AI 还无法超越最顶尖的人类创作者。同样的道理也适用于编程领域。我相信,那些最优秀的工程师所具备的能力,目前的 AI 编程助手还是无法完全匹敌的。这里面还是包含了蛮多我觉得 AI 现在还理解不了的智慧的。
🚥 Ronghui
我们的听众中有些人对进入这个行业感兴趣,有的人身在其中。袁老师对这种从过去是古典工程师然后进入 AI 公司,有什么最先上岸的领域?
👨🏻 袁进辉
基于大模型或生成式 AI 的 API,使用 Prompt 或类似 Dify 的方式来创造一些有趣的东西,这是一种相对快速的方法。现在有很多开源项目可供学习和参考。下载开源代码,进行修改和定制,将其改造成自己想要的形式,这种方式可以让你更快地动手实践。当然,现在也有大量的教程、教材和视频资源可供学习。对于那些想要深入理解背后原理,对 AI 技术充满好奇心的工程师来说,这些资源可以帮助他们学习所谓的深度学习、梯度下降、矩阵运算、attention 机制的具体计算方法等,有一些正规的课程可以选择。例如,斯坦福大学的 CS231 系列课程就培养了一代人,影响深远。网上的学习资源现在非常丰富,无论是 B 站还是 YouTube 上都有很多优质内容。但是,最直接有效的方法还是从代码入手,从开源项目开始。通过实际操作和修改代码,你可以更快地理解和掌握这些技术。
🚥 Ronghui
袁老师你作为雇主的话,你们公司在招人的招在招工程师的时候,你最看重什么?
👨🏻 袁进辉
在创业公司中,我认为有两个关键素质特别重要:首先是自驱力。创业公司通常团队规模小,组织结构扁平,需要员工能够独立处理各种任务。自驱力强的人有持续学习和进步的动力,充满好奇心,能够主动解决问题。这种特质让他们在面对挑战时不会轻易放弃,而且发展潜力巨大。其次是过往经历中的亮点。这可以体现在多个方面:优秀的学习成绩可以说明一个人自律且投入;即使成绩不突出,也应该在其他领域有所建树,比如写得很好的博客或制作精良的视频。重要的是要有一个热爱并且擅长的领域。
🚥 Koji
问一个残酷的问题。因为很多这个人,包括我自己在内,我们招这个新同事的时候,都希望说他自驱力强。越创业公司越希望自驱力强,但其实这个世界上很多人自驱力他就不强。袁老师,你会给这些人什么样的建议?
👨🏻 袁进辉
我认为自驱力和兴趣这两个要素的根本其实是找到自己真正的热爱。当一个人对某事充满热情时,无论前方有什么障碍,他都会努力去克服,一定要把事情搞明白。这种源自内心的好奇心和兴趣是最强大的动力。现在,大多数人已经脱离了温饱阶段,我们有了更多追随内心的自由。
「Follow my heart」 这种理念变得越来越重要。
如果能够按照自己的兴趣和热爱去发展,不仅能够解决生存问题,还有可能在专业领域达到更高的成就。所以还是要有自己的爱好和兴趣,按照自己的兴趣和的职业去发展。
🚥 Koji
其实自驱是一个结果,对吧?自驱是热爱的结果。Paul Graham,Y Combinator 的创始人,去年写了一篇前所未有的超长文章,探讨如何成就伟大事业。他强调的第一点就是要回归自我,发现自己异于常人的热情所在。
举个例子,假设你对毛毛虫有着异乎寻常的兴趣。在别人眼中,这可能显得有些古怪。但如果你沿着这个兴趣深入研究,你可能会成为毛毛虫领域的专家。这不仅能解决你的温饱问题,还可能成为你成就伟大事业的起点。👨🏻 袁进辉
AI 虽然能做越来越多的事情,看似能取代人的很多能力,但它无法取代人的个性化和内在的创造性追求。我认为未来的趋势应该是鼓励人按照自己的个性和兴趣来发展。从世俗和个人生存的角度来看,这也是更为合适的做法。
给 AI 工程师的建议
🚥 Ronghui
刚才那个问题没有问完,后半个问题是问 idoubi。我刚问袁老师那个关于 AI 工程师的工作,我在想可能也有很多人想要走你这条路,就是更自由更 freestyle。当然也需要冒很多风险。我想问问,如果对想要走你朝着你这个方向发展的工程师,有什么样的工程师背景的人,有什么样子的建议?
👦🏻 idoubi
作为一名在 AI 应用开发领域有经验的工程师,我想为那些想要进入这个行业的人提供一些建议。无论你是有工程背景还是零基础,做 AI 应用层的开发相对来说都是比较容易的。当然,如果要做底层开发,难度会更大一些。
我认为,进入AI应用开发行业主要有三个途径:
零代码开发:现在有很多像 Dify、Coze 这样的零代码平台。只要你有创意,就可以通过这些平台的流程做出一个能让朋友使用的应用。比如之前的哄哄模拟器或者吐槽应用,这些应用能迅速获得大量流量,给你带来正反馈,激发你创造更多的热情。零代码开发让你能够快速进入 AI 应用行业。
低代码开发:现在有很多低代码框架,如 Gradio 和 streamlit。你只需要会用 Python,不需要精通前端开发写很多的 HTML 代码,就可以创建出功能强大的应用。例如,你可以开发一个让用户上传图片,然后看到自己穿红色T恤效果的应用。这不仅能带来成就感,还可能有一些经济收益。
有代码开发:这对基础要求会高一些,但比起十年前,现在学习编程也变得容易多了。GitHub 上有很多开源课程和资源。我自己从去年 12 月开始也在做一个全栈开发课程,有些产品经理加入我的社群后也学会了编程。
对于零基础的人,我建议从一个完整的从 0 到 1 的项目开始。你不需要一开始就理解所有原理,先把项目复刻出来,能运行起来就行。遇到不懂的可以问 AI。通常一个零基础的产品经理在一两个月内就能实现自己编码开发创意的过程。
对于有一些技术背景的人,比如之前做算法或后台的,学习起来会更快,可能一周内就能自己做东西。因为现在有太多开源资源,再加上 AI 辅助编程,做一个应用变得非常简单。
总的来说,我建议可以根据自己的情况选择零代码、低代码或写代码的路线。如果你看得懂代码,可以学习不同类型的编程。如果你只想做出自己的东西,有很多低代码或无代码工具可以使用。
最关键的是保持持续的热情。
你需要有一个自己想实现的想法,一个市面上还没有人做的东西。有了这个动力,你才会去寻找各种实现的方法。所以我的建议是:先有自己的创意,再去寻找各种工具来实现它。
在当前阶段,只要有自己的想法和一点自驱力,进入 AI 应用开发行业其实是非常容易的。
🚥 Ronghui
对已经有一定经验的工程师,他要怎么样精进自己,来提高自己的竞争力呢?就是在你们分别所在的这种 Infra 层面跟应用层面做事的人。因为现在环境也比较挑战,我们之前也听说整体市场会有一些波动,也有一些人会被淘汰。
👨🏻 袁进辉
在讨论未来工程师的竞争力时,我认为有两种主要的发展方向:
专精方向:这是指在某个特定领域做到极致,成为世界顶尖的小群体之一。例如,我有些同事专注于研究如何让算法矩阵在 GPU 或华为昇腾芯片上运行得更快。这需要他们深入了解 GPU 底层的系统结构、指令集、共享内存、带宽、内存库等诸多细节。这类工程师的知识深度甚至要超越原厂,甚至不能比英伟达的工程师理解要弱。这种专精可以做得非常深入,成为该领域的顶尖专家。
全面发展:另一种方向是广度发展,能够融会贯通,驾驭复杂系统。尽管 AI 可以完成部分代码工作,但在整体系统架构层面,我认为目前的 AI 还无法完全胜任。因此,行业非常需要像 a16z所倡导的全栈工程师这样的技术人才。他们能够从整体角度思考和设计系统,这是当前 AI 难以替代的能力。
👦🏻 idoubi
在袁老师的基础上,我想补充一些关于工程师发展方向的看法。
深度确实是必要的,它对应着一些专业领域。以全栈开发为例,做一个简单的产品可能很容易。比如Monica 最近上线的 AI 吐槽功能,或者之前的 Worldware吐槽功能,对于我们这样的人来说,可能一天甚至半天就能做出来。
但是如果这个产品突然火了,比如 Monica 的项目在五天内就跑了几千万的 PV、几百万的用户,那么问题就来了:我们能否扛住这样的流量?这就涉及到袁老师所说的专业深度问题。
只有经历过大流量项目的经验,才能真正懂得如何做高并发、分布式、容灾、多集群抗压等。
关于广度方面,最重要的是要有一个全局视野。很多人对全栈工程师的理解可能还不够全面。过去人们认为全栈工程师就是自己写 API、自己写页面、自己对接,或者用 Node.js 一把梭完成整个项目。但我认为这样的理解是不够的。
要真正做到广度延伸,你必须要有全局视野。这不仅仅是能够前后端自己把项目搞定,还包括:
知道如何设计数据库,使其具有更好的扩容能力。
了解 k8s 集群的部署。
比如说,我以前在微信做系统架构时,做任何项目都会考虑如何更好地部署。一开始可能为了方便,直接使用云托管或 Vercel 快速上线。但后来我意识到这种方式虽然便利,却很贵,而且几千万流量进来后这套架构绝对扛不住。所以我会考虑迁移到自己搭建的 k8s 集群。
在设计代码时,我就会考虑如何用 Docker 快速部署,如何在集群中实现类似托管平台的运行方式。有了全局视野,你不仅知道应用如何做出来,还知道如何更好地部署运行,以及在流量增加时如何快速、平滑地扩容而不需要宕机。
如果一开始设计不好,比如所有组件都依赖于 Vercel,不容易在 Docker 中运行,那么应用一旦做大,就需要花很多时间去改造迁移,可能会影响用户体验。
所以对于应用层开发,除了深度外,广度方面最重要的是要有视野。这种视野不是一蹴而就的,可能与工作经验和项目经历有关。如果你做过前端、后台、运维、架构,对这些事情的理解就会更透彻。
🚥 Ronghui
你们是不是同意初级一些的 AI 工程师会被取代这个观点?
👦🏻 idoubi
在讨论工程师的竞争力时,我认为初级工程师可能面临的挑战是视野局限和能力单一。例如,只会调用别人的 API,或者只会套用现成的模板。虽然这种方式可以快速验证想法,但如果你想在公司中获得更好的发展机会,仅仅会这些是不够的。
作为雇主,如果要招聘一个人,只会套用模板、调用 API 或编写简单页面是不足以满足需求的。因为未来的产品形态可能更加多样化,需要考虑扩展性和应对更大的流量。一个更合格的候选人应该不仅仅会使用这些工具,更重要的是理解为什么要这样做,如何做会更合理,或者是否有其他方式可以做得更好、更完善。
我不能说这类初级能力的人会完全被取代,但他们可能会逐渐失去竞争优势。如果只局限在某个领域,不了解技术背后的原理,只是知道表面的使用方法,那么在未来的就业市场中可能难以脱颖而出。
要提升自己的竞争优势,我建议:
了解更多可用的技术方案和工具。
深入理解所使用技术的背后原理。
例如,如果要求你不使用现成的解决方案,而是自己搭建一个系统,你至少应该知道为什么要这么做,以及如何去实现。具备这样能力的人在职场中会更有优势。
👨🏻 袁进辉
除了纯技术方面的完善和视野的拓展,我想补充一个重要的角度:跨领域学习或跨界融合的重要性。
在当前的软件开发环境中,我们看到越来越多的应用是由模型和人工编写的代码组合而成的。直接使用模型可以完成一些通用能力,但在特定领域知识和行业应用方面,目前的 AI 模型还存在许多不足。
所以如果一个工程师除了具备扎实的技术基础,还对某个特定行业有深入了解,就能在竞争中脱颖而出。例如,我不仅在工程领域有专长,同时对法律行业也有深入的了解。这种跨界知识使我能够更好地将通用的 AI 模型能力和软件架构工程能力应用到法律行业中,从而创造出比其他人更出色的解决方案。
AI 趋势展望
🚥 Ronghui
从一些趋势的判断来看,你们觉得接下来会发生什么?
👨🏻 袁进辉
在 AI 行业中,我们可以将技术分为应用层和底座两个主要部分。这一段时间大量的投资资源主要集中在底座上,包括建设计算集群、训练模型等。然而,许多分析都指出,如果应用层不能蓬勃发展,这种投资模式是不可持续的。
未来的重心应该转向应用层面,关注技术在实际应用中创造的价值和发挥的作用。我也相信 AI 技术的进步是实实在在的,它一定会在许多应用场景中发挥出我们意想不到的作用。
只是这个过程需要时间,也需要一些前提条件。比如:
模型能力的提升
模型使用成本的降低
参与度的提高
我们希望 AI 模型能像过去的一些技术模块一样,变成人人都可以使用的,触手可及的工具。它应该成为几乎所有人都可以参与的技术,而不是仅限于一小群 AI 工程师才能接触和使用的神秘领域。
当有数百万、上千万的开发者都能参与其中时,我们就可能看到一些意想不到的创新或化学反应。
因为很多产品的诞生都有一定的偶然性,可能与某个人独特的成长或发展经历有关。只有当这个人能够接触到、使用这项技术时,这种化学反应才可能发生。
我们需要通过完善基础设施,让更多的人有能力、有机会参与其中,能够基于这些技术来创造有趣的事物。当这种情况发生时,应用的爆发以及所谓的 「超级应用」的出现,我认为都是水到渠成的事情。我对这个总体的未来发展还是非常乐观的。
👦🏻 idoubi
我认为尽管有些人可能认为 AI 是一个即将破灭的泡沫,但实际上 AI 可能才刚刚起步。在未来 5 到 10 年内,AI 很可能仍然是一个主流趋势。
很多人喜欢将 AI 的发展与移动互联网时代相比较,但我认为这种比较并不十分恰当。移动互联网主要是因为满足了许多以前从未被满足的新需求,从而产生了大量新机会,出现了许多 「超级应用」。但是 AI 时代并没有太多全新的需求,更多的是对现有体验的提升。
我觉得 AI 的发展更应该类比于云计算时代。在云计算出现之前,企业通常使用独立机房,部署Oracle 或 IBM 等系统来运行自己的应用。云计算出现后,「上云」成为了一种趋势,企业开始将业务迁移到云端。随后,这种趋势逐渐演变为 「云原生」(Cloud Native)的概念。
在云原生时代,新项目从一开始就在云上部署和开发,采用微服务架构。这种方式改变了传统的开发范式。类比到 AI,我们可能会看到更多的 「AI Native」应用出现。这些应用从一开始就使用 AI 来构建整个产品流程和开发体验。
我相信未来 AI 应用必将蓬勃发展,尤其是这些 AI Native 的应用。它们的所有功能都建立在 AI 的基础上,利用 AI 来不断提升应用体验。我们可能会看到许多传统应用被 AI 重新改造,体验得到显著提升。
这种趋势可能不会在 1 到 2 年内完全实现,但在未来 5 到 10 年内,我们很可能会朝着这个方向持续发展。
🚥 Ronghui
那你觉得未来 1 到 2 年短期内会发生什么呢?
👦🏻 idoubi
从短期来看,我认为我们将迎来 AI 工具类应用爆发的时期。所谓工具类应用,包括网页 UI 生成、设计海报、设计元素生成等。这些应用的核心在于利用 AI 技术来全面提升各个方面的效率。
我个人认为,这种 AI 赋能的工具应用将成为一个重要趋势。记得之前李开复老师提到过 AI 应用发展可能会经历几个阶段,从工具类应用开始,然后是娱乐应用,接着是电商应用等等。虽然具体顺序我可能记得不太准确,但这种阶段性发展的观点很有启发性。
根据我的亲身体验,在最近一两年里,AI 工具确实是发展最快的领域。