AI大神贾扬清离职阿里首次受访(下):计算机视觉没有死 |硅谷徐老师

文摘   2023-05-08 13:51   美国  


编者按:

在官宣离开阿里之后,贾扬清的去向也一度引起热议。在不少媒体报道中,他是因为时下大模型的热潮而选择创业。但贾扬清本人在本期节目中正式回应,ChatGPT 并非是推动自己创业的主要原因。


如果做大模型不是创业的主要动力,那么什么才是呢?本期节目,硅谷大佬系列节目再度启动,硅谷徐老师邀请他的好友在离职阿里后第二天进行一场及时而真诚的对话。AI 框架大神贾扬清在第一时间分享了他关于这几年来关于职场成长、平衡技术和客户需求、离职阿里的动力、以及如今创业方向的深度思考。


本文为  AI 大神贾扬清离职阿里首次受访:创业为什么不做大模型(上)| 硅谷徐老师的下半部分,欢迎阅读!


完整音频

▲文字有删减和整理,欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频

职业成长中的角色转换


硅谷徐老师:简单介绍一下过去的职业成长经历,以及每次开启一段新经历的契机?


贾扬清:我最开始在 Facebook(现 Meta)做开源的 AI infrastructure,当然也支撑 Facebook 内部的大量的 AI 应用等等。在 Facebook 的几年中,和团队一块做了 Caffe2、 在手机上的 Caffe2Go、开源神经网络标准 Onyx、Pytorch,以及一系列的上层工作。


▲图片来源:Alibaba Cloud


从 Facebook 出来是因为看到了一个比较大的机会点。Facebook 对内支撑做的比较好,但自身业务的缘故也让它并没有对外提供 ToB 的服务。我在 2018 年的时候跟阿里有沟通,最吸引我的一点是在云上能看见 AI 用的越来越多,也有越来越多的 ToB 客户需要更加可扩展的、更加高效的 AI 平台。


跳到阿里,从纯技术岗位变成技术、商业、产品都要涉足的团队管理者角色,既是给自己的挑战,也能给社会做出更大的贡献。


▲图片来源:贾扬清


从最开始在学校、研究院做研究,到后来在谷歌大脑(Google Brain)、 Facebook 做工程师,到后面在阿里做产品,进一步接触到商业,这是一个不断扩展的过程,也是一项新技术从实验室被孵化出来,到最后成功落地的完整过程。


硅谷徐老师:转换角色的过程中,遇到过哪些困难?当时是如何克服的?


贾扬清:第一,要考虑从一人吃饱全家不饿的研究环境,如何切换到与非常多聪明人共事的环境。第二,如何解决技术落地和商业中的各种挑战。


在硅谷有非常多优秀的华人工程师,对于自己的技术能力有非常强的把握。所以工作时,我们经常处于一个「自己写代码,自己是上帝」的状态,在最熟的领域写代码比谁都快。而一个大的团队,通常又涉及到很多不同的专业方向,比如大数据、运维 SRE、AI 计算、硬件等等。所以团队成员在合作时,需要识别自己的边界,与其他人共同定义合作中的交互模式。


自己在带团队的时候,我本人更多是在 AI 方面发挥作用,大数据方面显然就不如团队里的大数据专家。这时候就会有一个问题,是我去学大数据,然后我比他们更牛,替代掉他们,还是说我和他们找到一个能够互补的方式来实现更加紧密的协同。


我们团队有非常强的系统工程师跟系统架构师,他们对于大数据系统的理解非常深刻,但他们也需要我作为基础力量提供一些帮助,比如用户体验、产品成熟度,BI (Business Intelligence,商业智能)与 AI 结合的新趋势。因此我可以站在一个用户的角度,与他们的专业能力形成互补,然后让团队做更多决策。


做技术有时候会陷入一个两极分化的状态。在自己熟悉的领域会极度自信,在自己不熟悉的领域又会陷入一定的自卑,好像没法做什么贡献。在自己熟悉的领域,其实反而更需要外部视角,听一听用户的真实需求,防止观点固化。在不熟悉的领域,早晚还是要面临各种各样的技术融合跟技术协同,反而应该比较自信地说,从我的角度有没有可以帮助其他领域的专家来相互印证、相互迭代的一些想法?从心态上来说,会得到很好的锻炼。


我在阿里的时候,曾有过几段比较有意思的经历。


第一个故事跟追求技术的先进性有关。我们做技术的时候,都会追求技术的先进性,但技术太先进也可能意味着普适性会降低,于是会出现一种情况,团队做了一个非常牛的东西,但是用户用不起来。前几年 AI 编译器非常火热,我们团队内部也有一个 AI 编译器团队,之前也经历了相对艰难的转型阶段。


比如说,团队实现了一系列的编译算法,优化对应的软件库;然后团队会发现用户很难把我们团队的产品,和 TensorFlow、Pytorch 这样他们已经熟悉的软件站很好地连接起来,用户需要适应新的语法开发习惯,把他们的模型转变为我们要求的格式才能将产品用起来。用户一看就说,太麻烦了。我们后来就逐渐改变业务的优先级,从最初要设计最精巧、性能最好的 AI 编译器,变成要让用户能够无感地用起来,增量价值需要在用户熟悉的环境中实现。


第二个故事是关于技术团队对用户需求的敬畏心。当时我们团队有一位非常优秀的 90 后工程师,有一天他给我发了一张照片,一个烈焰红唇的照片,左边是一个红色嘴唇,右边是一个紫色嘴唇,说他在做超分辨率(super resolution)。超分辨率是指,比如我有一个 540P 的图片或者视频输入,要在手机上面实时做到 1080P 或者 4K,可以用深度学习的方式去实现。


然后我们团队的这位工程师说,我发现这个深度学习的算法分辨率很好,但会把口红的色号给改了,他去跟客户一聊,客户觉得说那这不行,本来就是卖口红,分辨率好不好不重要,色号一定要准。以前做科研的时候,我们常常会有一些测试指标;但是到了实际应用的时候,用户的真正需求和我们定义的指标也许有偏差,最终其实是用户在乎的指标最重要。


很多事情没法从头重新再做一遍。如果说有什么地方可以做得更好一点,我可能会从第一天开始就更加强调产品经理和解决方案的团队重要性。


几年跑下来,我有一种反向开发的状态。用户到底需要什么样的应用,或者说怎么样的场景,然后我们再反过头来说,这个产品应该如何设计,解决方案应该如何设计,然后再跟研发一块去想系统架构、产品架构。


很多时候在大厂,研发天生有一定优势,因为专业性更强。在组织架构上,有时往往会忽略了产品解决方案团队的重要性。如果再来一遍的话,我会把产品解决方案团队的重要性拉得更高,产品跟市场的适配性也会更高。


人类与 AI 共同的未来


硅谷徐老师:Meta 发布了图像分割基础模型 Segment Anything Model (SAM),对此你有怎样的看法?


▲图片来源:The AIGRID


贾扬清:从一个用户的角度来看, SAM 在做的事情是使得我们以前需要花大功夫去解决的基础问题标准化了,让我们的应用变得更加简单。举一个例子,我前段时间给我们家小孩更新护照,需要白色背景的照片,我就随便拍一张照片扔到分割模型里面,大概写了 1 分钟的 Python 代码就让它帮我搞定了。


所以我不太同意媒体上说「计算机视觉死了」这样的观点,我觉得倒不如说基于计算机视觉的应用会变得更加的多样。


SAM 最有用的一个应用就是在各种各样的内容生成上了。就像 ChatGPT 使得我们今天的对话能够达到非常智能的程度,SAM 使我们对图像的理解也得到了一个巨大的进步。现在像腾讯会议等 APP 在做会议背景分割的时候,效果并不是最理想的。


因为 SAM 对于图像的分割更加接近于人的思考,更加有物体语义,将来物体的分割,比如开会人的屏幕分割,都会变得更加高效果和低成本。


电影的内容生成,以前要做虚拟背景需要用绿幕,但是 SAM 出来了,可能这些麻烦的事情都不需要做了。做 CG,混合现实等等,也变得越来越容易了,这些核心技术让我们离元宇宙更近了一步。


硅谷徐老师:现在的 AI 发展速度非常快,几乎每周都有技术和产品上的突破,你觉得这是一件好事吗?


贾扬清:我觉得是一个好事,我可能偏达尔文主义者一点。这个问题的背景是大家会担心技术的迅速发展是不是会带来社会和伦理的角度的问题。我觉得那么多年的历史中,我们会发现技术进步到最后都是一个好事。一定程度上,我们可以相信,我们的人性和社会制度是能够让我们在发展当中不断的来思考怎么兜底的问题的。


举个例子,计算器刚出来的时候,我们会觉得,完了,将来小孩都不会加减乘除了,但其实并没有。技术的进步会使得整个社会的生产力提高,蛋糕做得更大,这是我们每一个人能够分到更多蛋糕的基础。蛋糕做大了,我们总能够找到一个更加合理的分配方式,让大家都开心起来。改革开放时说,发展才是硬道理。技术也是一样,发展是硬道理。


▲图片来源:Forbes


我最近在看各种关于 ChatGPT 文章的时候,我看到的一个比较有意思的逻辑,它提到今天我们都担心 AI 会替代人,但是其实是会 AI 的人会替代掉不会 AI 的人。最后大家都能够有更强的学习心来学习新技术,再把这些新技术用到自己的工作、生活上去,就能够获得更大的红利。


如果我们把 ChatGPT 当成一个更加有效的工具的话,教育的方式也需要改变。往回数 40 年,基本上国内是没有计算机课程的。现在我们与其担心 ChatGPT 会不会形成作弊,不如思考我们怎么样来更加高效地让这些新技术更好地揉到我们的整个教育体系里去。


硅谷徐老师:你如何看待 OpenAI 公布的 ChatGPT 插件,也就是「应用被吸收到大模型里面去」这件事?


贾扬清:回到我最开始观点,一个基础模型是不够的,百花齐放的各种应用其实是更加有意思的事儿。我个人的希望是在这一段时间扎堆发布大模型后,后面有更多基于大模型的应用能够像雨后春笋一样迸发出来。我觉得这才是大模型产业能够蓬勃发展的核心因素。


最近 HashiCorp 的创始人 Mitchell Hashimoto 写了一篇文章,我觉得挺值得读的。他说一个颠覆性的技术真正要落地的时候,都会需要有一个渐进式变化的道路。ChatGPT 如果只是一个 Chat Bot(聊天机器人) 的话,它和今天的应用怎么样顺畅迁移跟结合是不太清楚的,但是插件是在寻找一个现有的应用和人工智能的算法之间的一个顺畅迁移的一个点。


▲图片来源:Twitter


我可以首先拿 ChatGPT 用自然语言的方式来识别用户的意图,再通过插件用传统的编程结构化的方式来实现最后的功能。和以前不一样的是,交互变得更加自然了,虽然最后各种各样的决策过程依然都还是需要来编程实现的,但就有一个比较顺畅的迁移过程。


我觉得与其说是各种应用被吸收到了 ChatGPT 里,不如说是大模型的算法变成了应用里面不可或缺的一部分。


接下来几代大模型出来后,其实还有不少事情开发者可以去做。比如 Zoom 的聊天机器人,仍需要开发者把实际逻辑搞清楚。我会用一个 ChatGPT 的 API 来识别用户发给这个聊天机器人的一句话,但是我是否要再打开一个 Zoom 的一个链接,或者开一个 Zoom 的会议?


整体的应用的逻辑还是要靠人来想。所以我觉得不会出现所有的应用都被一下吸收到一个工具里去,永远是工具为应用服务,而不是应用为工具服务的。



欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频


硅谷云
职场、创业、投资 | 小红书:硅谷徐老师
 最新文章