感知与视觉革命:我在AI时代的十五年探索与洞察

文摘   2024-11-14 16:22   江苏  

在十五年中我学到了什么?

2008年秋天,我正在从事我的第三个创业项目,ReTel Technologies。我们的目标是分析杂货店中购物者的行为,并利用这些数据帮助商店和品牌改善顾客体验和商店盈利能力。但我们面临一个挑战:如何在商店中匿名追踪每天数百名购物者?

我们认为我们找到了答案:在每个购物车上安装活动RFID标签。我们投入了25,000美元购买了一台大型定制的Oracle服务器和50个活动标签,并为我们的第一个测试商店进行了装备。结果揭示了购物者在哪里花费时间的迷人洞见,以及改变商店以改善体验的机会。连锁店的管理团队印象深刻——直到我们问他们是否愿意购买并实施这个系统。

“安装所有这些设备?在我们的商店日常使用中,这绝对不可能持久!”我们感到沮丧,但我们并没有气馁。我们知道必须有更好的方法来做这件事,以适应他们现有商店的运营——就在那时,我们注意到他们所有的地点都充斥着安全摄像头。

而我们碰巧遇到了一个相对较新的开源库,它掌握着将这些摄像头从被动安全设备转变为主动数据源的关键:OpenCV。将摄像头连接到云端,使用OpenCV的运动检测算法来检测购物者,并分析行为——我们又回到了业务中。就这样,我的职业生涯突然转向了感知领域。从那以后,我再也没有回头。

自从在2000年代末幸运地发现OpenCV以来,我已经在感知和计算机视觉领域工作了超过十五年,我觉得我有资格分享一些关于这些变革性技术及其在世界中地位的观察。让我们深入探讨!

观察1:计算机视觉已被人工智能所吞噬。

十五年前,专注于计算机视觉的学术实验室和早期创业公司关注的是与今天流行的完全不同的一系列问题。

如果你在2010年或2012年在TUM或ETH等顶级视觉实验室工作,你很可能正在研究一个关于3D场景重建、多传感器校准或SLAM新技术的难题。在学术界之外,对虚拟现实和增强现实的热情达到了高潮,导致业界的工程师专注于与位置跟踪和屏幕刷新率相关的视觉任务。

你不太可能关注的是人工智能或机器学习。当然,在那个时候,确实有公司和学者专注于从传感器源提取训练数据以用于人工智能驱动的应用,但他们是例外,而不是常态。今天,这种情况似乎已经发生了变化。

虽然仍有许多公司和研究实验室专注于解决或改进核心计算机视觉和感知任务(例如Tangram Vision和多模态校准),但现在有更多的公司专注于人工智能驱动的计算机视觉应用。

这不一定是坏事,但对学术界和业界的人来说,认识到那些曾经流行的感知和计算机视觉核心领域仍未完全解决,对于好奇的工程师和研究人员来说,有机会推动领域向前发展是很重要的。

而且,将人工智能技术和库应用于这些领域确实可能产生突破性的结果。人工智能的兴起应该提升所有计算机视觉和感知的船只。

观察2:一些根深蒂固的问题可以通过人工智能解决,但它们不够性感,无法吸引开发者的注意。

与前一点相关,研究人员和工程师对人工智能驱动的计算机视觉应用的关注使一些研究领域受益更多,而其他许多非常有趣的挑战则较少被探索。我们需要更多的场景分割或面部特征跟踪研究吗?当然,但更重要的是,行业可能会从对尚未得到充分解决的棘手问题的更多关注中受益。

立即想到的例子包括在自相似表面上的特征检测(对于自主仓库机器人来说,这是一个非常棘手的问题),或者为极端光照条件下的高动态范围感测开发更好的算法(对于农业自动化来说非常重要)。

这些看似平凡的挑战可能不会产生引人注目的视频,但它们可以通过为导航和障碍物避让等重要任务增加鲁棒性,从而根本上改变机器人技术和自动化领域的可能性。

观察3:一些资金最充足的机器人初创公司只部署了少量设备。

与构建移动应用或SaaS公司不同,构建机器人带来了完全不同的风险、时间线和资本要求。因此,机器人公司传统上需要相对较大的资金和时间才能进入市场。

对于那些不了解机器人世界的人来说,可能会合理地假设,筹集了5000万美元、1亿美元、2.5亿美元甚至5亿美元的机器人公司现在必须已经向客户部署了数百甚至数千台设备。

在极少数情况下,这是真的。然而,这主要是规则的例外。在过去的几十年里,一些高调的机器人初创公司在筹集了数亿美元后崩溃了,但未能运送超过几台单位。除了需要更多的资本来构建原型和部署客户单位外,机器人公司还遭受了一些自我拥有的问题。让我在下面进一步解释……

观察4:首次深度技术创始人坚持从头开始构建一切。第二次创始人知道得更多。

那么,为什么机器人公司筹集了数千万甚至数亿美元,却只部署了几十个机器人呢?我认为部分答案在于一些机器人创始人过于积极地倾向于“非此处构建”的心态。

在首次原则思维和看似无尽的数百万美元风险资本资金的支持下,想要从头开始构建整个机器人硬件和软件堆栈,尽可能少地依赖第三方供应商,这是很诱人的。简而言之,这可能是徒劳的。

现在,公平地说,有一些强大的开源工具(例如ROS)和非常发达且普遍的技术,它们发展得如此之好,以至于在它们之上构建而不是从供应商那里购买解决方案是完全有意义的。

事实上,我敢打赌,大多数机器人和自动驾驶公司都会将某种形式的这种集成到他们的堆栈中,他们也应该这样做。在某些情况下,根本没有其他选择,因为还没有一个发展良好的第三方工具或系统可以减轻否则需要的努力。

因此,我赞扬找到一个合理的平衡,着眼于快速、成本效益高且遵循最佳实践的构建。

然而……以传感器校准为例。即使在Tangram Vision,我们已经聚集了一些最有才华的感知工程师,但仍然需要数年时间来开发和完善我们的多模态校准系统,以支持数千台机器人的部署。我继续看到资金充足的机器人公司坚持自己承担这项任务,我祝他们好运。如果它花了我们三年时间,他们可能需要十年……这比需要的时间多了九年。

相反,我们知道我们最好的潜在客户来自那些创始团队不是第一次创业的公司。他们在之前的机器人初创公司中尝试从头开始构建完整堆栈的错误,并未能实现他们的目标。

在他们的第二次尝试中,他们选择与我们这样的公司合作,以更快地进入市场,并保留宝贵的内部工程资源,专注于真正区分他们在市场上的设备的核心产品路线图项目。

观察5:感知和计算机视觉现在无处不在,未来只会变得更加普遍。

十五年前,当我开始我的感知生涯时,软件可寻址的摄像头和其他传感器相对较少。Axis等公司正在引入一类可以通过互联网访问的IP摄像头,并使用OpenCV等工具进行处理。

像戴姆勒奔驰这样的汽车行业技术领导者正在高端车型如梅赛德斯S级上部署首批传感器驱动的ADAS功能。好莱坞工作室正在通过匹配移动等技术推进特效艺术。

快进到今天,世界充斥着摄像头、计算机视觉和感知技术。这个星球上绝大多数人口都携带着一部智能手机,配备有非常高质量的摄像头、大量的计算能力,并能够随时访问复杂的计算机视觉和感知能力。

几乎每辆新售出的汽车都配备了多个摄像头和传感器,使高级ADAS功能能够提高道路安全和驾驶体验。在娱乐领域,摄像头甚至可能不再必要,因为人工智能驱动的系统可以在几乎没有人类干预的情况下生成整个电影作品,这些系统已经接受了数百万小时的现有真实世界图像的训练。

感知和计算机视觉现在发现自己是触及人类体验各个方面的多元化行业的中心参与者:医学(医学成像分析)、金融(财务图表运动的视觉解释)、国防(自主无人机)、食品生产(视觉驱动的除草、施肥和收割)、交通(生物识别护照),不胜枚举。

结论

在感知和计算机视觉领域工作了十五年之后,我只看到它在重要性和应用的丰富性上继续加速。这就是Tangram Vision这样一个令人兴奋的公司的一部分原因。虽然,目前我们主要关注移动机器人和自主性,但我们对看到其他行业围绕传感器和感知构建和塑造自己感到兴奋。如果过去十五年的任何迹象,可能性是无穷无尽的。


编程悟道
自制软件研发、软件商店,全栈,ARTS 、架构,模型,原生系统,后端(Node、React)以及跨平台技术(Flutter、RN).vue.js react.js next.js express koa hapi uniapp Astro
 最新文章