感知与视觉革命：我在AI时代的十五年探索与洞察

文摘 2024-11-14 16:22 江苏

在十五年中我学到了什么？

2008年秋天，我正在从事我的第三个创业项目，ReTel Technologies。我们的目标是分析杂货店中购物者的行为，并利用这些数据帮助商店和品牌改善顾客体验和商店盈利能力。但我们面临一个挑战：如何在商店中匿名追踪每天数百名购物者？

我们认为我们找到了答案：在每个购物车上安装活动RFID标签。我们投入了25,000美元购买了一台大型定制的Oracle服务器和50个活动标签，并为我们的第一个测试商店进行了装备。结果揭示了购物者在哪里花费时间的迷人洞见，以及改变商店以改善体验的机会。连锁店的管理团队印象深刻——直到我们问他们是否愿意购买并实施这个系统。

“安装所有这些设备？在我们的商店日常使用中，这绝对不可能持久！”我们感到沮丧，但我们并没有气馁。我们知道必须有更好的方法来做这件事，以适应他们现有商店的运营——就在那时，我们注意到他们所有的地点都充斥着安全摄像头。

而我们碰巧遇到了一个相对较新的开源库，它掌握着将这些摄像头从被动安全设备转变为主动数据源的关键：OpenCV。将摄像头连接到云端，使用OpenCV的运动检测算法来检测购物者，并分析行为——我们又回到了业务中。就这样，我的职业生涯突然转向了感知领域。从那以后，我再也没有回头。

自从在2000年代末幸运地发现OpenCV以来，我已经在感知和计算机视觉领域工作了超过十五年，我觉得我有资格分享一些关于这些变革性技术及其在世界中地位的观察。让我们深入探讨！

观察1：计算机视觉已被人工智能所吞噬。

十五年前，专注于计算机视觉的学术实验室和早期创业公司关注的是与今天流行的完全不同的一系列问题。

如果你在2010年或2012年在TUM或ETH等顶级视觉实验室工作，你很可能正在研究一个关于3D场景重建、多传感器校准或SLAM新技术的难题。在学术界之外，对虚拟现实和增强现实的热情达到了高潮，导致业界的工程师专注于与位置跟踪和屏幕刷新率相关的视觉任务。

你不太可能关注的是人工智能或机器学习。当然，在那个时候，确实有公司和学者专注于从传感器源提取训练数据以用于人工智能驱动的应用，但他们是例外，而不是常态。今天，这种情况似乎已经发生了变化。

虽然仍有许多公司和研究实验室专注于解决或改进核心计算机视觉和感知任务（例如Tangram Vision和多模态校准），但现在有更多的公司专注于人工智能驱动的计算机视觉应用。

这不一定是坏事，但对学术界和业界的人来说，认识到那些曾经流行的感知和计算机视觉核心领域仍未完全解决，对于好奇的工程师和研究人员来说，有机会推动领域向前发展是很重要的。

而且，将人工智能技术和库应用于这些领域确实可能产生突破性的结果。人工智能的兴起应该提升所有计算机视觉和感知的船只。

观察2：一些根深蒂固的问题可以通过人工智能解决，但它们不够性感，无法吸引开发者的注意。

与前一点相关，研究人员和工程师对人工智能驱动的计算机视觉应用的关注使一些研究领域受益更多，而其他许多非常有趣的挑战则较少被探索。我们需要更多的场景分割或面部特征跟踪研究吗？当然，但更重要的是，行业可能会从对尚未得到充分解决的棘手问题的更多关注中受益。

立即想到的例子包括在自相似表面上的特征检测（对于自主仓库机器人来说，这是一个非常棘手的问题），或者为极端光照条件下的高动态范围感测开发更好的算法（对于农业自动化来说非常重要）。

这些看似平凡的挑战可能不会产生引人注目的视频，但它们可以通过为导航和障碍物避让等重要任务增加鲁棒性，从而根本上改变机器人技术和自动化领域的可能性。

观察3：一些资金最充足的机器人初创公司只部署了少量设备。

与构建移动应用或SaaS公司不同，构建机器人带来了完全不同的风险、时间线和资本要求。因此，机器人公司传统上需要相对较大的资金和时间才能进入市场。

对于那些不了解机器人世界的人来说，可能会合理地假设，筹集了5000万美元、1亿美元、2.5亿美元甚至5亿美元的机器人公司现在必须已经向客户部署了数百甚至数千台设备。

在极少数情况下，这是真的。然而，这主要是规则的例外。在过去的几十年里，一些高调的机器人初创公司在筹集了数亿美元后崩溃了，但未能运送超过几台单位。除了需要更多的资本来构建原型和部署客户单位外，机器人公司还遭受了一些自我拥有的问题。让我在下面进一步解释……

观察4：首次深度技术创始人坚持从头开始构建一切。第二次创始人知道得更多。

那么，为什么机器人公司筹集了数千万甚至数亿美元，却只部署了几十个机器人呢？我认为部分答案在于一些机器人创始人过于积极地倾向于“非此处构建”的心态。

在首次原则思维和看似无尽的数百万美元风险资本资金的支持下，想要从头开始构建整个机器人硬件和软件堆栈，尽可能少地依赖第三方供应商，这是很诱人的。简而言之，这可能是徒劳的。

现在，公平地说，有一些强大的开源工具（例如ROS）和非常发达且普遍的技术，它们发展得如此之好，以至于在它们之上构建而不是从供应商那里购买解决方案是完全有意义的。

事实上，我敢打赌，大多数机器人和自动驾驶公司都会将某种形式的这种集成到他们的堆栈中，他们也应该这样做。在某些情况下，根本没有其他选择，因为还没有一个发展良好的第三方工具或系统可以减轻否则需要的努力。

因此，我赞扬找到一个合理的平衡，着眼于快速、成本效益高且遵循最佳实践的构建。

然而……以传感器校准为例。即使在Tangram Vision，我们已经聚集了一些最有才华的感知工程师，但仍然需要数年时间来开发和完善我们的多模态校准系统，以支持数千台机器人的部署。我继续看到资金充足的机器人公司坚持自己承担这项任务，我祝他们好运。如果它花了我们三年时间，他们可能需要十年……这比需要的时间多了九年。

相反，我们知道我们最好的潜在客户来自那些创始团队不是第一次创业的公司。他们在之前的机器人初创公司中尝试从头开始构建完整堆栈的错误，并未能实现他们的目标。

在他们的第二次尝试中，他们选择与我们这样的公司合作，以更快地进入市场，并保留宝贵的内部工程资源，专注于真正区分他们在市场上的设备的核心产品路线图项目。

观察5：感知和计算机视觉现在无处不在，未来只会变得更加普遍。

十五年前，当我开始我的感知生涯时，软件可寻址的摄像头和其他传感器相对较少。Axis等公司正在引入一类可以通过互联网访问的IP摄像头，并使用OpenCV等工具进行处理。

像戴姆勒奔驰这样的汽车行业技术领导者正在高端车型如梅赛德斯S级上部署首批传感器驱动的ADAS功能。好莱坞工作室正在通过匹配移动等技术推进特效艺术。

快进到今天，世界充斥着摄像头、计算机视觉和感知技术。这个星球上绝大多数人口都携带着一部智能手机，配备有非常高质量的摄像头、大量的计算能力，并能够随时访问复杂的计算机视觉和感知能力。

几乎每辆新售出的汽车都配备了多个摄像头和传感器，使高级ADAS功能能够提高道路安全和驾驶体验。在娱乐领域，摄像头甚至可能不再必要，因为人工智能驱动的系统可以在几乎没有人类干预的情况下生成整个电影作品，这些系统已经接受了数百万小时的现有真实世界图像的训练。

感知和计算机视觉现在发现自己是触及人类体验各个方面的多元化行业的中心参与者：医学（医学成像分析）、金融（财务图表运动的视觉解释）、国防（自主无人机）、食品生产（视觉驱动的除草、施肥和收割）、交通（生物识别护照），不胜枚举。

结论

在感知和计算机视觉领域工作了十五年之后，我只看到它在重要性和应用的丰富性上继续加速。这就是Tangram Vision这样一个令人兴奋的公司的一部分原因。虽然，目前我们主要关注移动机器人和自主性，但我们对看到其他行业围绕传感器和感知构建和塑造自己感到兴奋。如果过去十五年的任何迹象，可能性是无穷无尽的。

编程悟道

自制软件研发、软件商店，全栈，ARTS 、架构，模型，原生系统，后端(Node、React)以及跨平台技术（Flutter、RN）.vue.js react.js next.js express koa hapi uniapp Astro

最新文章

Rust 编程秘籍：深入 Vec::drain 与内存安全的奥秘

C++中结构体属性秒变数组元素：高效访问技巧揭秘

探索同构服务器端渲染之道

好！这么玩是吧？Rust正则库玩坏了谁背锅？-野！

这么玩是吧？Rust正则库玩坏了谁背锅？【乱翻篇】-上

htmy --异步，纯 Python渲染引擎。

Cell Broadband Engine: 革命性的架构还是计算史上的歧途？

Rill：解锁Go语言并发编程的新维度，构建高效、可重用并发程序的利器

导入前端JavaScript库而不使用构建系统

我开发的开发者助手web端上线！复刻了92.3% developer Tools 插件的功能

感知与视觉革命：我在AI时代的十五年探索与洞察

基于TS 等语言集合、类型和类型检查的研究

在非Rust服务器中提升性能的策略与实践

Rwf 框架全解: 如何无痛从 Python 迁移至 Rust 的新 Web 开发？

C++反射下的简单重定位实现与探索

算法性能优化策略：RaBitQ 的演进之旅

Dito-能否网络之巅的高级反向代理黑马？部分源码浅析与分享

掌握数据的齿轮： sq 数据整理员查询之美

Mitmproxy 11: 一款兼具性能与温度的代理软件，全面支持 HTTP/3

长文：我为何青睐 Haskell？【探究 Haskell 的哲学】

Qustar: 探索高效SQL数据库查询的现代JavaScript工具

代码库对话：揭秘如何与你的代码智能互动

Notan: 跨平台多媒体应用开发-简单、强大、无限可能

网页保险箱：如何用StatiCrypt打造坚不可摧的数字堡垒

RunCVM：容器与虚拟机的融合艺术 - 搅拌均匀--

Dasel 挑战 jq 与 yq，一键玩转 JSON、YAML、TOML、XML 和 CSV

Zngur 指南：Rust 与 C++的跨界桥梁

音频深度学习工具库：audioFlux 功能概览与应用指南

Blitz：一个轻量级、模块化、可扩展的 Web 渲染器

释放存储空间，提升系统效率：探索 Duperemove 的去重能力

人工智能并不智能，而这正是系统性风险

httpmock Rust 的 HTTP 模拟库。

Funzzy，你的代码监控与执行的得力助手

TiKV：云原生时代的数据库革新者

终极安全守护：cotp 双因素认证神器

【linux】一站式脚本管理神器：Pier，让你的命令行生活更高效！

流量控制秘籍：网络优化的终极指南-四层负载均衡器，支持动态配置

网络侦探必备：sniffglue，你的数据包追踪利器

日志分析不再难：fblog工具全面解读

解锁 Rust 异步编程：深入探索 Mio 库的高效 I/O 之道

宇宙解码器：Aladin Lite v3 揭秘星空深处

一码在手，天下我有 —— m2cgen 让机器学习模型跨语言无缝转换

Rust 与 egui 联手打造：下一代图形可视化神器 egui_graphs

Bartib：一个易于使用的命令行时间跟踪工具

探索 LibAFL，高效可定制的跨平台模糊测试框架

云原生可观测性平台OpenObserve：简化操作，降低成本，助力大规模数据处理

探索 Gabriel2，基于 Tokio 的高性能 Actor 模型库

无缝融合：Rust 与 C#的高效 FFI 互操作指南 -- csbindgen

Rust 开发者助手：release-plz 自动化发布工具详解

Rust 开发加速神器：用cargo-chef打造极速 Docker 构建流程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉