在本期专访中,我们特别邀请了郭振宇博士,一位在AI与自动化领域中兼具学术深度与创业敏锐度的佼佼者。他的职业旅程从对自动化和人工智能的浓厚兴趣开始,在全球顶尖的学术和工业界取得了卓越的成就,并且在博士在读期间参与创业并使公司后期成功成为特斯拉的一级供应商。作为Postmates AI总监,振宇曾参与领导自动驾驶送餐机器人的研发项目,后来他加入阿里达摩院,负责主导小蛮驴自动驾驶项目,成功推动了这一技术在全国百余座城市的落地。
振宇的职业历程不仅仅是技术上的突破,更体现了他在多个领域的跨界能力,从电气工程、计算生物学到自动化和AI。他不但在学术研究中成果丰硕,在创业和产业化应用中也展现了卓越的商业敏感度。此次对话中,振宇不仅分享了他在Postmates、阿里达摩院等全球顶尖企业中的丰富经验,还深入探讨了他在创业过程中面临的挑战与机遇,特别是在AI领域推动创新的心得。
我们的目标是将这些统一的工作方法和逻辑应用于不同的产业,以实现更广泛的价值创造 我们的目标是要在美国市场,让一个中国的代工企业有机会品牌落地,让中国企业的marketing策略不是简单地复制别人已有的产品,用更低的价格或者更有效的渠道。 我们不会害怕失败,而是通过系统化的方法论来实现......这并不是在办公室里闭门造车可以讨论出来的,而是需要一种纪律性的方法论来实现。 我们不会追求一个一劳永逸的完美系统,而是更注重系统的自学习能力,快速解决case、以及如何发现case的能力。 我们要从细节做起,不能空谈概念......我们应该从具体的工作中提炼出一些抽象的概念,而不是一开始就想试图做大而全的解决方案。 随着技术改革,AI搜索的普及,广告的形式必将发生巨大变化,广告市场也将随之变革。 我们的愿景是成为数字化工作者,而不仅仅是AI营销的参与者。
Fig1: 初创成员来自于阿里巴巴达摩院、苹果、微软、百度、Giorgio Armani等。
01 边读书边成功创业的博士,毕业后成为Postmates AI 总监和阿里达摩院资深技术专家
ZP:请先简单介绍一下自己的背景,可以先从求学时的一些经历、成长和映射到现在的价值观开始?
郭振宇:大家好,我是郭振宇。我本科毕业于浙江大学,大一的时候读的是土木工程专业。我原本以为这个专业能让我参与到建筑的创造中去,因为建筑是人类在地球上留下的最明确而持久的作品。但后来我发现,土木和建筑之间有很大的差距,更注重规则和确定性的流程,而少了创造和创意。
后来我转到了电气工程自动化专业,这个转变奠定了我一直以来的研究兴趣,包括我的工作和创业方向。从经典的控制理论到强电,我逐渐深入到自动化领域。
读博士的时候,我对自动化与人类大脑结构的关系产生了兴趣,所以我申请了计算神经学专业。我在UBC的实验室里发现,当时大家用的统计学习方法在样本数量有限的情况下并不有效,这促使我转向了非参数化贝叶斯的研究,解决小样本的问题,并且寻找能够落地的更广义的应用。
在德国马克思普朗克研究所的计算机所访问结束的时候,在离开Saarland的火车上,我沮丧的认为计算机视觉可能很久都不会“有用”。回到学校后,我接受了同学的邀请,加入创业项目, Neurio, 把machine learning应用到太阳能和电力领域,我们获得了政府的资金支持,我是第五个加入的成员。
在我博士求学的后两年,我一边读书一边做创业公司。成为了Solar City和Tesla的一级供应商,最终被Generac 收购。我在博士期间发表的工作包括电力、生物医学工程、信号处理和计算机视觉等不同的应用领域。
我一直把系统自动化作为工作的主线方向。我做过IoT、机器人、自动驾驶,现在也在做AI数字员工,率先落地在市场和营销场景。我们的目标是将统一的“系统化”的工作方法和逻辑应用于不同的产业,以实现更广泛的价值创造。
ZP: 请分享一下您的工作和创业经历?有什么样的心路历程?
在Neurio结实的伙伴,也不断地影响着我之后的职业选择。后来Ali Kashani去了硅谷被Postmates收购,也邀请我一同加入他在Postmates创立自动驾驶机器人部门。当时Neurio的产品经理 Chris Geo, 后来加入了一家只有15个人的公司--Zapier, 他现在是Zapier的VP product, 继续从“软件机器人”的角度去自动化更广泛的任务,给了我一些启发。
Fig2: Tesla Solar 系统中的Neurio 产品。
后来,我有幸参与了一家国内LED制造企业Sengled的国际化项目。我们面临的挑战是如何在成熟的消费市场中获得品牌影响力,这不仅仅是简单地将代工产品贴上自己的品牌标签。我们通过为LED灯泡加入传感器、音箱、摄像头,来实现产品的差异化。这个时候我不再仅仅负责算法和软件,也开始面对直接的市场和销售反馈,对如何在美国市场构建新的品牌有了朴素和懵懂的经验。我们的product marketing策略不再是同质化产品靠低价和渠道取胜,而是开始强调差异化的价值创造。比如,我们把PoE有线网络监控摄像头和户外照明灯的结合,一个灯泡拧到原有的socket就解决了供电和通信两个困扰,而其他户外监控产品不容易找到供电插座而且wifi信号也很难稳定。
Fig3: Sengled 智能LED灯。
Ali Kashani 自己被Postmates收购签约的当天,开车回家的路上打电话邀请我加入。其实这次工作选择仍然有点被动,也不是自己主动去争取的。我一开始非常犹豫,原因是读书的时候我经常去楼下机器人实验室找同学玩,也会去IROS开会,机会没有人会带着机器人去开会,都只能展示剪辑过的视频。因为机器人很少有能持续稳定工作的。包括当时我也被Gary Marcus邀请在他的robust.ai参与在人形机器人Atlas上的一些测试研究。我对这个行业能否从纯粹的研究跨越到实际应用是持怀疑态度。不过,在我收到Ali的邀请后,我去了加州参观了Google,当时已经叫Waymo了。试乘了自动驾驶小车,同时,AlphaGo的成功,加上深度学习在感知上的突破,让我看到了深度强化学习、决策和智能化规划的潜力。最终决定参与到Postmates的人行道送餐机器人项目--Serve。让我没有预料到的是,除了我们要面对复杂的城市环境,还需要理解并解决跟城市居民相处的问题,这也让我未来对于“自动化”的工作多了一个独特的角度。
Fig4: Serve Robtics 快速迭代过程。@ WIRED
疫情期间,Postmates被Uber 收购,Ali 带着团队从Uber成功的从Uber spin-off, 成为Serve Robotics, 今年4月在纳斯达克正式挂牌。我在Uber收购完成后就离开了,回国加入阿里巴巴。
我的第一份工作有很大的偶然性,后面的几次工作也是在熟人的劝说下加入的。回国,是我的第一次主动选择;AI数字员工应用创业,是我现在的主动选择。
ZP:您在阿里达摩院的自动驾驶项目以及在小蛮驴项目上的成就令人印象深刻。能否分享一下您在这些项目中的经历?
郭振宇:我和团队主要负责小蛮驴的产品化和规模化:如何在一百多个城市落地一千多台小蛮驴无人车。在这个过程中,我们确定了两个核心目标:a. 全生命周期成本 和 b.时间货币化;而不是仅仅定义成自动驾驶问题。
全生命周期成本包括硬件的生产制造成本,还涵盖了运维、运输、地图采集、人力运营等所有相关成本。有了这个目标,各个团队可以更好的明确任务,互相配合,真正实现商业落地。
其次,作为一个配送机器人,其固定成本在全生命周期内是固定的。在这种情况下,我们的目标是最大化其运行时间,最小化停机时间,并确保满载比例最大化,空载比例最小化。同时,我们希望其有效运输时间最大化,而等待人工操作或用户交互的时间最小化。这样的思考帮助我们更清晰地定义了调度系统和人工交互流程。比如我们做学生下楼取件或者智能外呼,利用车辆的高ETA(预计到达时间)确定性,提前通知学生取件。这样,学生的下楼时间减少,等待时间也相应减少。我们甚至可以基于楼层来安排通知时间,因为我们有历史数据支持,知道学生从宿舍楼走到停车点需要的时间,从而可以更精确地提前通知。
我非常自豪的一点是,是在全生命周期成本里面,我们如何利用最低成本的硬件实现更高的运行效率和能力。我们没有追求硬件的高性能,硬件的指标越高,成本也越高。相反,我们通过智能和算法上的能力来弥补硬件的不足。例如,在重庆这样的城市,我们的车辆需要应对许多坡道和减速带。如果角度和位置不对,车就会陷在那里。很多人可能会想到研发更好的扭矩分配系统或者四驱系统,但这会大幅提升底盘的研发周期和成本。我们没有没有进行复杂的研发,而是通过感知和规划能力来判断这些场景,尽量把车先摆到垂直于减速带和坡道的位置,然后通过惯性冲过去。这听起来可能很幼稚,但市场效果非常好。我们通过智能解决方案来弥补硬件上的缺陷,因为这些智能解决方案在复制时成本很低。诸如此类的事情,我们做了很多。
02 开启Multi Agent之旅,打造差异化的自动化的数字员工
ZP: 您现在的创业和之前的一些方向都不太一样。这次创业,为什么选择在这个时间点,并且还跳入了AI agent领域。是看到了什么样的AIGC机会呢?
郭振宇:去年春天,当GPT技术逐渐被广泛关注时,我就非常明确自己要创业,并且想要专注于“自动化的数字员工”这个方向。主要原因也很朴素----被震撼到了。
第一,技术层面上,我经历了“统计学-深度学习-GPT”的长期周期,感受到技术进步的加速。
第二,在产业上,我经历了自动驾驶和配送机器人在美国和中国市场的落地。算是经历了从诞生到非常火热,再到回归理性和谨慎的周期性。
第三,我在IoT智能家居也完整地经历了在美国和中国落地的过程。
最后,过往的经历让我对于在技术早期不成熟的时候通过“系统化”设计和巧妙的寻找“需求匹配”更加舒适。基于这样的思路,我现在AI应用创业中每天遇到的技术、产品、市场问题,总有似曾相识的感觉。
过去硬件项目做的更多,让我开始觉得纯软件机器人有可能会比自动驾驶车辆和具身智能机器人更早实现规模化。而软件数字员工的进步,也会推动智能机器人领域的进步。当然,也可能是硬件人对不熟悉的软件领域的一厢情愿。
可能跟其他人创业动机有点不同的是,我并没有营销背景,也不是从小热爱。我们是通过方法论,作为外行人,验证出来的方向。
ZP:再聊聊您此次创业的Agent产品的灵感来源?
郭振宇:今年年初,我在北美买了一套房子。在购房的过程中,我注意到每个环节都需要有执照的专业人士参与。包括房地产经纪人、过户律师、搬家公司、水管工、装修工人等。这些专业人士通常不是大型集团公司的一部分,他们大多是自雇者或个人企业。他们面临的一个共同挑战是如何吸引新客户。
我观察到,他们中的许多人都有自己的网站,并采取了谷歌搜索引擎优化(SEO),甚至使用了传统的广告方法,如户外广告牌、报纸广告,或在餐厅分发传单。然而,我注意到他们很少利用Facebook等社交媒体平台付费广告来吸引客户。
Fig5: 地产经纪在公交车上的广告。
我最初的直觉是,这并非因为Facebook无效,而是他们不会,也没有人服务。Facebook广告不仅涉及素材制作,还需要完整的广告策划能力。你需要清楚自己的产品服务特点,并找到合适的人群标签,然后根据不同人群制定不同的广告策略,并实时调整以观察效果。而且,在不同阶段要关注拉新,再关注现有受众的再运营,最后要尝试破圈,然后开启新一轮循环。显然,这不是一个个体户能够完成的,他们招不起全职员工来做这件事。市场上也没有合适的工具和合理的服务。因此,看似越来越重要的社交广告渠道,对于内容创作者和小型商业主体,是关闭的。
“谁会需要数字员工?” 招不起员工的人可能才需要“数字员工”。所以,我们选择这样的中小企业甚至个人企业作为我们数字员工应用的起点,营销是第一个职能。
Fig6: Tina成立了个人设计工作室,由于负担不起专业的营销雇员,只能利用空闲时间自学数字营销来推广生意。
ZP:我们为何没有选择像Jasper、Writer、Copy AI等专注于内容营销工具产品的道路呢?
郭振宇:人们从事某项工作的动机通常源于个人兴趣和理性分析。对我而言,我一直对L4级别“全自动”充满兴趣,特别是在任务链路越长、越复杂的情况下,我的兴趣也越浓厚。
同时,业务链路的复杂性越高,统计套利的机会也就越多。只要结果能够满足客户需求,过程中一些小的误差是可以接受的或者被掩盖的,这样也能规避当前技术水平下某些环节单表现不足的问题。
通过这种思路,我们可以通过复杂任务最终的交付满足客户的商业需求。尽管市场上有许多优秀的辅助工具,但它们通常只解决单一任务。而每个任务的用户体验要求要更高,这并不是我在自动化工作中优先关注的角度。
ZP:对,我们还是要选择差异化的场景,并且要使我们感兴趣的场景来去做比较好。
郭振宇:我还想补充一点,对于这些专注于文字创作和内容创作的工具,我有一些自己的看法。我坚信人类在自我表达及其所使用的手段和形式上具有极大的独特性。回顾艺术史,我们可以看到,那些最重要的艺术家之所以在他们的时代显得重要,是因为他们创造了新的表达方式。他们打破了过去表达方式对人们情感和思想的限制。例如,从印象派到高更、塞尚、毕加索,再到康定斯基;中国的绘画也从文人青绿山水发展到了更广义的写意。每一次这样的表达方式的转变,都是人类智慧的巨大展现。因此,我并不认为在创作方面,尤其是形式的突破上,AI能够超越人类。
ZP: 从阶段性来看,作为初创企业的CEO,您需要的人才应该具备哪些特征?
郭振宇:这个非常明确,和现在大多数AI应用公司的需求相似,我们首先考虑的是有NLP、机器学习或模型研究背景的同学。然后,基于我的个人背景,我们倾向于招募那些能够在机器人或者自动驾驶领域构建系统工程的人才。此外,我们还需要专注于效率工具产品和面向C端市场的营销型产品人才。
实际上我们希望招募从技术角度是全栈的人才。在大模型时代,除了预训练之外,应用层面的研发工作需要一个人能够独立完成快速迭代和构建、甚至部署、发布、和用户反馈收集。应该具备具体的动手能力、强烈的创造东西的冲动,并且能够理解产品的目标和用户需求之间的关系。
初期阶段,我们还没有把业务或者产品指标当成重点,首先关注的是团队能否在有限的时间内以最低的成本最有效的验证足够多的假设。例如,一个团队在两个月内能测试10个不同的<用户,需求,产品>pair,非常具有挑战性,因为要保障验证有效。如果验证不充分,可能错过的正确的假设;如果验证投入过多,浪费资源。希望有更多同学喜欢我们这样的工作方式,愿意一起来加速ideation->verification->production->go-to-market.
ZP:所以我们希望新加入的同事或未来团队成员具备发散思维,勇于尝试,并且能够迅速行动。
郭振宇:你说得非常好,这正是我的想法。我们的工作方法和体系与我们phd做研究是非常相似。我们强调的不是空想,而是通过假设去验证。我们不会害怕失败,而是通过系统化的方法论来保障成功概率。这意味着我们需要形成足够多的高质量想法,然后快速排序并验证它们。这并不是在办公室里闭门造车可以讨论出来的,而是需要一种纪律性的方法论来实现。
ZP: 现在我们的技术发展已经到了什么阶段?
郭振宇: 目前,我们的技术发展尚未进行全面系统的总结,但我可以提供一些具体的案例来说明我们的进展。比如说,在海外市场投放广告的时候,会面临广告法的审查。这些审查很多是自动化或者半自动化的。广告法对产品宣传的功效描述有明确限制。而商家和广告商则希望在遵守法规的同时,最大限度地吸引消费者并突出产品特性。然而,客户有时会忽视这些限制,导致广告被审查系统拦截甚至下架。我们的系统能够迅速学习并理解广告法规的边界和尺度,以及如何在制定卖点和广告语时妥善处理这些问题。
另一个例子是,有些产品的目标受众并非主流群体,而是传统意义上的边缘或弱势群体。在传统广告中,可能会使用一些带有歧视性的标签和描述词。尽管如此,我们的客户仍需要针对这些特定群体进行广告投放。我们的系统能够通过更正面、更描述性的方法来精准定位目标受众。
这些案例表明,我们的系统需要解决众多已知和未知的具体问题。对我来说,我始终把这个行业看作是跟自动驾驶和机器人很像的一个领域。也就是说,我们不会追求一个一劳永逸的完美系统,而是更注重系统的自学习能力,快速解决case、以及如何发现case的能力。
另外,广告投放后,我们需要每小时进行一次观测,但不会过于频繁地进行调整。这样的调整不是单步优化,而是需要在一定时间跨度上进行全局优化。为了解决这个问题,我们采用了类似于德州扑克中的GTO(Game Theory of Organization)理论,并结合博弈排序的方法,结合的推理时的策略搜索。
ZP:底层模型的发展对我们的产品会带来哪些变化?我们未来怎么预测这些语言模型厂商和开源模型的发展,对我们这个方向会有什么影响?
郭振宇:为了实现我们的目标,我们需要在多个环节进行:搜索、调研、数据分析,用户意图理解,多模态理解,策略的生成,策略的执行等等。这些环节都需要自动化完成。我们的数字员工系统也是建立在基础模型上,配合一部分自有模型,所以,随着基础模型的进步也会带来我们的系统表现的提升。
进一步说,我们构建的实际上是一套统计套利系统,随着技术的进步,我们的胜率和期望值收益也会提高。因此,技术发展对我们而言无疑是一大利好。
从威胁的角度来看,大家可能会担心,大模型技术的发展是否会压缩AI应用的生存空间。我们的想法是,即便有强大的推理能力和理解能力,在面对我刚才提到的广告法案例、特殊人群标签案例,营销的三个阶段不同策略的问题时,需要解决的东西是非常具体化的。这些复杂问题又只存在于狭窄的具体应用中,短时间内不会被基础模型能力泛化到。这是需要我们来解决的。
ZP: 数字员工和营销广告方向的AI竞争自2021年就开始了,到现在依然激烈。那我们怎么在这行里做出自己的特色,解决用户的长期痛点呢?又打算怎么改变这个行业?
郭振宇:关于竞争,尽管市场看似活跃,但我认为竞争尚不激烈。这种活跃主要是由于大型语言模型和成熟的基础设施的普及,使得开发语音助手、销售助理、文案生成应用变得很容易。看似开发周期缩短,参与者突然增多。但是大部分仍然没有满足真正的需求。因此,尽管市场活跃,但竞争并不激烈。这一过程中,市场噪音仍然较大。
而且从用户和市场规模的角度来看,我们的目标客户群体是那些传统营销科技公司和服务公司忽视的个人企业、关键意见消费者(KOC)、关键意见领袖(KOL)以及在线内容创作者。但我认为他们将变得越来越重要。随着社会经济结构的演变、个性化趋势的兴起以及AI技术的推动,越来越多的个人能够单枪匹马地做出成绩,赚到钱。我们服务的可能就是这些之前被市场忽视的用户群体。因此,未来市场有很大的增长潜力。这两点都表明,市场正在扩张,带来了新的需求和增长点,竞争可能不再是主要问题。我们的差异化优势可能不仅体现在产品上,还体现在市场定位上。
关于行业的未来变化,我觉得随着技术改革,AI搜索的普及,广告的形式也会发生变化,广告市场也会不同。
另一个趋势是,如果AI搜索、AI助理真的普及,原有的广告渠道就会失效,新的广告渠道会产生。市场需要快速适应多变的广告渠道的服务,我们的产品可能是解决这一问题的有效方案。
长远来看,随着个体化企业越来越多,商品和服务的供给会极大丰富。从标准化消费主义转向多样化供给,人们的选择将更加多样化。广告需求不会减少,形式会增加,总量会增加。AI应用可能是唯一解法。
ZP:从您决定创业的那一刻起,一直到公司成立和产品初步打磨,您在这个过程中遇到了哪些挑战?又有哪些收获?
郭振宇:创业是一项充满挑战的任务,不可能完全按照既定计划进行。每天都会有不可预见的事件出现。例如,在与投资者沟通时,我们至少需要清晰地阐述我们的业务。惭愧的是,这对我并不容易。因为一旦提到AI营销,人们往往会将我们与Jasper等文案创作公司相提并论。这造成了一种印象,即该领域竞争激烈,市场饱和。此外,大家对于社交媒体的付费广告生态也不了解,我需要花费大量时间来梳理我的叙述逻辑,以确保故事线清晰明了。
我的工作方式很具体,你会发现我所讲述的内容大多是实际的例子。我们团队对内部文档的要求是,任何一位团队成员看了文档,都能复现我们要做的事情。这也意味着,我的故事可能不宏大。并不是我们没有大局观 ,只是要从细节做起,不能空谈概念。所以,我面临的第二个挑战就是,如何让大家看到更大的想象空间。所以我总在刻意强调,我们的愿景是成为数字化工作者,而不仅仅是AI营销。
ZP: 数字员工的发展可以沿着两个方向进行:拓宽应用范围或深化专业能力。如果数字员工的应用范围得到拓展,理论上可以替代多种职位的员工,覆盖广泛的岗位。然而,这种广泛的应用也带来了显著的挑战。毕竟,AI并非万能,如果它真的无所不能,那么大家可能都去专注于ChatGPT或Open AI了。因此,我们真正需要做的是深入挖掘数字员工的潜力。但如何清晰地向公众展示这种深入的价值,同样是一个难题。
郭振宇:我完全理解这种困惑,并且认为这种困惑是合理的。例如,我从2016、2017年开始涉足自动驾驶领域,算是较早入行的。我一直坚持不做乘用车和卡车。因为我觉得,不成熟的技术应该先在要求宽松、反馈密集的环境里落地,而不是反馈稀疏,要求严苛的场景。
我们想从具体的工作中提炼出抽象的概念,我们并不想一开始试图做大而全的解决方案。我们也不知道那要怎么做。从市场发展来看,数字员工比较合理的角度是编程和电话销售。在编程领域,像Copilot这样的工具表现不错,哪怕不做全自动化 ,仍然商业价值巨大。
在营销这块,大家基于过往类似项目的回报率会有一些上限的担心。接下来,我们也需要展示我们可以从市场营销领域扩展到新的场景,不过我们需要先把当前的数字员工做好,通过产品和数据来讲这个故事。
ZP: 您平时有没有什么爱好或者读的书,能帮您静心和缓解创业的压力?
郭振宇:最近老出差,完整的读书时间少,我就改读中短篇的小说集了。我最近在看博尔赫斯的《莎士比亚的记忆》,博尔赫斯的故事结构精巧,虽然是文字,表达的却像几何符号的美感,推荐给大家。
最近我还开始画画。画画的时候,你只能什么都不想。而且画画要先大面积颜色铺底,再从暗到亮,从远到近堆色块,最后勾勒细节。每一笔画完还要观察,矫正,修改。这个过程很有趣。做产品做企业也是,要先做粗略的MVP,然后测试,再观察“这一笔”,再不断打磨细节,最后带来增长。
文章来源:Z Potentials
往期回顾
Z科技|浙江大学AFM:多组织自适应止血海绵
Z科技|入选ECCV 2024!浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI,打破医学数据异构化藩篱
Z动态|一家融了15轮的成都公司,要被浙大系半导体并购了
—— Angel For ZJU