复盘大模型的一次成功落地,代替了百万年薪的人

文摘   2024-04-07 09:16   爱尔兰  

先说下背景,再回顾下过程,然后总结成功落地的五大要素,最后说说怎么凑齐全部要素。

一、背景

我创立的 AGI 课堂的课都是直播。当直播间人数超过 500,互动区消息就刷得飞快,授课老师已完全不可能进行有效互动。

为解决此问题,我们尝试每次课安排助教值班跟课,职责是:全程跟踪互动区,把和课程相关的有效提问拷贝粘贴到飞书文档里,并去重

这样老师只需要看这份飞书文档,就能完成互动了。

运行了几次,效果不错,就是太消耗助教。

这些助教都在大模型领域有丰富的实操经验,本职工作动辄管着几十人,不乏百万年薪者。跟课这非常没有技术含量,非常机械的工作,他们内心肯定是不愿意做的。

但我也没办法找低薪酬低水平的人来代替他们,因为技术不够,就没能力判断哪些问题是与课程相关的有效提问。

果不其然,我正在考虑要不要给助教加薪的时候,一名助教就发难了……

二、过程回顾

第一版

这名助教叫拐爷,他主导开发了国内第一个基于大模型的智能工作/生活助手。

他发难不是要钱,而是跟我说,他逆向分析了直播页面,做了实验,可以把互动区消息都爬下来,所以打算开发个 AI 跟课助手。问我如果成功了,能否帮他要来知乎(我们的课是在知乎知学堂上课)的官方接口,这样更稳定。

有人愿意研究,愿意开发,还没提半个钱字,我当然支持了!

拐爷大概用了个把周末,就鼓捣出第一个版本,实现了两个能力:

  1. 1. 调用 GPT-3.5 来判断每一条消息是否是提问,以及是否和课程大纲的内容相关

  2. 2. 把有效提问写到飞书文档里

经过几次和真人跟课并行使用,确认稳定后,助教开始不再自己盯互动区,而是只看 AI 生成的文档,做做人工编辑,删除重复的、错判的。

助教们非常喜欢这个 AI 助手,工作量大减。于是跟课工作从一人跟一课,变成一人同时跟两课(同时会有两场不同期不同内容的直播课)。

助教们自嘲要下岗的同时,还热切提供反馈和方案建议,期待早日完全被 AI 替代。第二版的迭代开始了。

第二版

第二版主要做了两件事:

  1. 1. 拐爷增加了去重功能,用 GPT-3.5 判断新问题是否在旧问题中出现过

  2. 2. 首席讲师王卓然博士标注了两次课的数据,然后调试筛选问题的 prompt,使判断的准确率大幅提升

最后的 prompt 如下,其中用到了思维链:

*********
你是AIGC课程的助教,你的工作是从学员的课堂交流中选择出需要老师回答的问题,加以整理以交给老师回答。

你的选择需要遵循以下原则:
1 需要老师回答的问题是指与课程内容或AI/LLM相关的技术问题;
2 评论性的观点、闲聊、表达模糊不清的句子,不需要老师回答;
3 学生输入不构成疑问句的,不需要老师回答;
4 学生问题中如果用“这”、“那”等代词指代,不算表达模糊不清,请根据问题内容判断是否需要老师回答。
 
课程内容:
{outlines}
*********
学员输入:
{user_input}
*********
Analyse the student's input according to the lecture's contents and your criteria.
Output your analysis process step by step.
Finally, output a single letter Y or N in a separate line.
Y means that the input needs to be answered by the teacher.
N means that the input does not needs to be answered by the teacher.

另:调试 prompt 的过程,王卓然老师还做成案例,放到了课程中

助教继续人工监督跑了一段时间,只在几次 AI 助手崩溃时动手干预,其它时候基本不需要人看着了。

这个 AI 跟一次两小时的课要花多少 token 钱呢?不到 2 美元。

第三版

页面接口爬取稳定性差,还必须有人开着浏览器,无法无人值守。所以找知乎的研发要专用接口,他们非常配合,很快提供了。

拐爷又花了些时间做迁移和对接,测试了几次课,系统基本稳定住了。

然后,迎来了历史性的一刻:百万年薪的助教,被 2 美元一次的 AI 跟课助手完全替代了!

我查了下,从拐爷发难起,到这一刻,正好过去三个月。中间还跨了个春节假期。项目进度不算快,但合情合理。

但是,学员抱怨自己的问题没被上墙的声音也越来越多了。我们需要分析下原因是什么。

第四版

这一版其实还没开发完,但数据验证已通过,不影响本文结论。

助教西树接到一个任务,人工对 3000 条真实数据做分类标注,评测 AI 的效果,找出问题。

评测结果是,去重的准确率只有 11%。大量有效的提问,在去重环节被过滤了。原来如此!

之前的方案是把所有已上墙的旧问题和新问题一起发给大模型,让大模型判断是否有重复。看来这活儿大模型不太行,得换个方案。

经过讨论,我们试验了 embeddings 方案,直接拿新问题和每一个旧问题算向量距离,非常近的才判重。在人工标注的 3000 条数据上,这个方案表现良好。

估计等上线后,不仅效果会更好,延迟能更小,费用也能大幅下降,有望降到 1 美元。

三、总结

AI 跟课助手完全代替了人。一次跟课只需要 2 美元,远低于人工成本,还消灭了管理成本。

开发量也不大,飞书文档解决了所有用户侧的工作量,助教和老师们捎带手就做完了,ROI 是非常足够的。(此处我露出了资本家的微笑)

所以,这是一次成功的大模型落地案例。总结来看,五个成功要素缺一不可:

  1. 1. 业务人员的积极

  2. 2. 对 AI 能力的认知

  3. 3. 业务团队自带编程能力

  4. 4. 小处着手

  5. 5. 老板的耐心

1. 业务人员的积极

我一直反复检讨,为什么我没想到可以用 AI 解决跟课问题?

当然不是因为我不懂 AI,而是在我的位置,面对新发生的情况,我首先是要找到确定性强、能马上实施的方案,成本合理可控就好。

出钱,堆人,先把场面控制住,再找更优方案,是正确的思维。

也许稳定一段时间后,我会思考 AI 方案。但到了那时,如果助教们反对,我也很难推进落实。

所以,和数字化转型项目一样,老板积极固然好,但业务人员本身就积极,才是成功不可或缺的要素。

跟课助手这个项目有特殊性,助教们真是不愿意干这种体力活。但更多情况下,业务人员都很担心自己的利益受损。

所以,目标是降低人力成本的项目,必须用各种手腕解决积极性问题。这个非常重要。

2. 对 AI 能力的认知

我们是大模型应用开发课程团队,人人懂 AI,所以一个业务问题是不是值得尝试 AI,能做出基本靠谱的判断。

跟课助手这事,一想就是大概率能成的,区别只在于最后能代替多少人力。

但我们从未想尝试数字人直播讲课这种酷炫的东西。当前太不切实际了。

正确地理解 AI,并能随着 AI 能力的进化调整自己的认知,既不高估也不低估,很重要。

3. 业务团队自带编程能力

为什么不是知乎来做这个功能呢?

其实在初步验证可行时,我就和知乎的大产研团队沟通过这件事。当时想法是万一知乎有兴趣弄,我们就不自己搞了。

「万一」当然没发生。是知乎不懂业务,不懂 AI 吗?当然不是!换我过去,我也不会做。

站在整个知乎知学堂的立场,这样一个功能,首先只有大直播间需要,适用范围立刻打了好几折。

知乎做就不能借助飞书文档了,也不能单搞个后台,得考虑如何同现有产品结合的问题,甚至还包括外采模块的配合。牵连多,工作量多,决策就更难。

做就需要人力,但已有几百个需求排在哪等待开发,孰轻孰重?

知乎产研是愿意支持我们的,只是身不由己啊。所以提供只读接口这种工作量不大,也不对大系统有侵入性的事情,他们很快就帮忙完成了,并很好地配合了联调。

所以,不能指望大产研和外包团队。像我们这样,自己就能写代码,短平快先搞起来,很重要。

4. 小处着手

跟课在整个授课环节中并不是个大事。当前代码甚至没通用性,纯粹自产自销、自娱自乐。

按传统做产品的思维看,这是没有开发价值的。软件产品都要奔大用户量才能赚钱啊。

但大模型出来后,逻辑变了。细微之处也能创造足够的价值。反倒大处着手,面对的变数更多,风险更大,极难落地。

所以想实在落地,就别先贪大。从小场景开始做尝试,很重要。

5. 老板的耐心

即便是我们这样有丰富 AI 经验的团队,也不是一下子就能把实现方案搞对的。

为什么拐爷没一开始就让我去要接口?因为他不十分确定行得通。我也不笃定,所以先试试看更稳妥。

在业务里引入大模型,就像招来一个名校毕业生,看简历很厉害,但实际干具体的活到底怎样,只有用过一段时间才知道。

所以,大模型落到每个新场景都是新课题,效果如何很难提前预知,只能边尝试边调试,不断收集真实数据反馈,再决定下一步优化方向。

这个过程不仅长,而且有很多不确定性。所以老板的耐心,很重要。

四、如何搭一个能落地大模型的团队

怎样凑齐这五个要素呢?

关键是要有一个懂业务、懂 AI 、懂编程的团队,再加上一个有耐心的老板

团队人不用多,像拐爷这样一人集「三懂」于一身的最好不过。但这可遇不可求。

建议组个两人的特战团队,一人懂业务和 AI,一人懂 AI 和编程。快速沟通灵活协同。足够落地火种,再慢慢扩大影响,成燎原之势。

懂业务非常关键,重要性远超技术。这个人必须从本公司出,找业务团队里的积极分子,提供学习和试错 AI 的机会。

如果公司有程序员,找乐于学习好奇心强的,提供学习和试错 AI 的机会,尤其要掌握用 AI 编程完成全栈开发的方法。

如果公司没有程序员,那就要招一个既懂 AI 又懂编程的。临时外包也行,但一定确保他得和懂业务懂 AI 那位,天天厮混在一起。


以上五要素是基于这一次项目的总结。但我惊奇地发现,我们经历的其它大模型项目,包括调研学习的别人的项目,也都符合这五个要素。

所以总结出来,希望能为更多的大模型项目落地,提供参考。

期待 2024 年,真的能大模型应用遍地开花!


下面是带货环节,不喜欢就直接跳到文末赞赏吧。

如果自己想学 AI,或者想派员工学 AI,建议加入我们的《AI 大模型全栈工程师》课程。详情访问 agiclass.ai,或者点击阅读原文了解。

前面的复盘,就是课程教学教研团队部分实力的展示。

第 6 期课程将于 4 月 9 日开课,现在加入刚刚好。

如果你想招聘 AI 全栈工程师,前 4 期有数千已毕业的学员可以挑选。发送你的需求到 liuzhichao@agiclass.ai 吧。

AGI01
专注AGI技术研究、最新AGI技术分享给大家,欢迎来讨论AI业务需求、及落地方案。
 最新文章