点击⬇️图标关注 抓住你的灵感💡瞬间
Andrew Bosworth 是 Meta 的首席技术官。Bosworth 加入 Big Technology Podcast,讨论 Meta 的新型 Orion 增强现实眼镜和人机交互的未来。请收听他对 AR 技术能力、人工智能潜力以及这些技术如何在未来几年重塑我们与计算机和彼此交互方式的见解。我们还介绍了计算范式的演变、Meta 在 AI 和 AR/VR 领域的战略,以及高级 AI 的哲学含义。与处于 AR 和 AI 革命前沿的顶级技术高管之一进行精彩对话。
一些常见的AI行业话题也在访谈中涉及,相信你能从中收获对未来趋势的灵感。比如,Orion如何与苹果的vision pro竞争?AI时代新的人机交互模式会是怎样?
访谈金句大赏
"更专注于当下,更紧密地连接" - 这是 Meta 眼镜开发的口号,体现了其设计理念。 "眼镜能够时刻感知周围的环境。这也是人工智能为我们这些眼镜的发展带来的巨大推动力。" "从过去那种'事务性'的互动,变成现在这种'无缝整合'的体验。" -新技术带来的交互方式变革。 "在增强现实中,你不会有直接操作的界面,没有键盘、鼠标或者触摸屏。这实际上是我们首次遇到的没有直接操作界面的计算平台。" "随着时间推移,我们认为我们甚至可以不需要任何手势,只需要想法,就能通过你的控制系统表达你的意图。"
增强现实和人工智能集成简介
Alex: 所以,对于我们会与 AI 融合的这个想法,你不认同吗?
Bosworth: 不,我不认为这在短期内会发生。我并不是说你能做到这一点,只是这样做就显得有点奇怪了。我很感谢你的邀请,欢迎来到 Big Technology 播客,这是一个冷静理性地讨论科技及其他话题的节目。我们今天在门洛帕克,和 Meta 的首席技术官 Andrew Bosworth,也就是大家熟知的 Bos,一起聊天。很高兴见到你,欢迎来到节目。
Alex: 我刚刚体验了你们的新产品 Orion 全息增强现实眼镜的演示。首先,它们真的很酷!
Bosworth: 这就是我们想要达到的效果,酷!我喜欢 Mark 在他的剪辑中展示的一些片段,连续好几个人都在说"这真是太酷了"。这很神奇,因为你原以为这样的体验只能通过 VR 头显来实现。
Alex: 为了让我们的听众更好地了解情况,这些眼镜并不重,戴起来就像普通眼镜一样,但它们是增强现实眼镜,你可以通过它们打电话、看视频、玩游戏。你必须时刻提醒自己:哦,原来这真的是眼镜,而不是护目镜。
Bosworth: 这个项目已经在 Meta 内部进行了十年,但从我和你们团队的交流来看,尤其是过去一年中,它确实取得了很大进展。没错,硬件去年这个时候已经完成,而软件直到几个月前才逐步完善,之后取得了巨大的进展。
Meta Orion 眼镜的演变
Alex: 这些功能确实有点疯狂。以前,如果在与 Mark Zuckerberg 开会时,我拿出手机查找参考文献,那显然是不礼貌的行为。而现在有了这个"现实中的后台频道",这种情况就完全不同了。
Bosworth: 当然,我们也不必把它想得太复杂,这也是一个很好的方式用来刷 Instagram 或观看 Reels 视频。视频通话也是一个意想不到的亮点。
这有两个方面:首先,当你四处走动时接到视频通话的体验非常酷,你可以清晰地看到对方,同时还能自由行动。而反过来,对方看到的是你的 Codec 头像,有些人甚至被这种虚拟形象给骗了,没意识到那只是个虚拟形象,还以为是真人。
Alex: 所以,现实体验会发生什么变化呢?你刚才提到了这一点。如今我们很难真正专注于当下,很多时候你跟人交谈时,对方会突然看手机说:"等一下,让我看一下这个。"
Bosworth: 这是一个非常重要的问题。我们有一个口号:"更专注于当下,更紧密地连接"。我们希望能减少人们经常感受到的那种割裂感。实际上,我一直在提醒大家,眼镜不应该只是一个通知界面。通知是邀请你离开当下,去关注别的事情。而我们希望,眼镜不仅仅是发通知,而是能为你添加更多有用的信息。
这些眼镜和手机最大的不同在于,它们能够时刻感知周围的环境。这也是人工智能为我们这些眼镜的发展带来的巨大推动力。我们一开始以为,眼镜会先应用全息技术,人工智能会在后续加入。但实际上,情况正好相反,人工智能先行,已经被应用到 Meta 的 Ray-Ban 眼镜中。
现实世界的应用和情境意识
Alex: 说到底,计算技术的核心是解决问题。我还有一个问题是:我们为什么需要这些眼镜?它究竟解决了什么问题?难道我们用手机不就够了吗?
Bosworth: 这是个非常好的问题,它反映了我们社会如何迅速把旧技术视为理所当然,而把新技术看作多余。道格拉斯·亚当斯对此有一句名言,我就留给听众作为练习了。举个例子,当手机刚出现时,很多人都觉得"谁需要随时带着手机呢?"结果发现,我们每个人都需要。
我觉得眼镜也是类似的道理。有些功能看起来微不足道,但它们确实能帮上忙。比如,Meta 人工智能的应用就是个好例子。我作为 Meta 员工,已经在手机上使用 Meta 人工智能一段时间了,非常实用,我可以随时提问。而现在,我在 Ray-Ban Meta 眼镜上使用它,结果发现使用频率提高了十倍,因为使用眼镜比掏出手机要方便得多。
你可以直接提问,甚至不用主动问,人工智能可以预测你的需求。比如,当我在翻找口袋时,AI 可以提醒我:"你的钥匙还在桌子上。"这些功能整合之后,眼镜能主动感知周围环境,理解你在做什么,从而提供帮助。而且,这一切都是私密的,由你掌控。这是手机无法实现的功能。我认为,这让我们与数字技术的关系迈进了一大步——从过去那种"事务性"的互动,变成现在这种"无缝整合"的体验。
Alex: 所以,这基本上是一个更无缝地提供 AI 平台的方式吗?
Bosworth: 不仅仅是 AI 平台,AI 平台的确改变了我们与技术互动的方式,从过去的完全被动,到现在的主动互动。同时,这也是一种更加方便的方式,来管理沟通和处理其他手机功能。再拿视频通话举例,戴着眼镜比起手持手机显然要轻松得多。我现在举着手机,几秒钟后我的胳膊就已经酸了。尽管我经常锻炼,但还是受不了。所以,有些功能在这个平台上确实做得更好。
计算和人类交互的未来
Alex: 当然,有些事情在手机上也可以做,但如果你已经戴着眼镜了,为什么还要掏出手机呢?我确实有过在纽约一边视频通话一边撞到人的经历,真的发生过,我也曾撞到过柱子,哈哈,这可不是什么值得骄傲的事。
为什么 Meta 觉得开发这款产品很重要?Meta 的使命一直是"连接人们",公司改名为 Meta 后强调了 Metaverse 概念。那么,为什么这款设备对公司如此重要?
Bosworth: 对此有两个不同的答案。第一个从战略上讲大家可能能理解,Meta 从移动时代开始就受制于平台。我们最初是一个网页公司,网页是一个开放的平台,你可以直接与用户互动,开发者有很大的自由度。然而,自从进入移动互联网时代以来,我们在应用开发上一直受到平台的限制,尤其是苹果。苹果的政策决定了允许我们做什么、不允许我们做什么。有些本可以为用户提供的价值因为这些限制而无法实现,这让我们感到很受束缚。
不仅如此,我们还建立了一个应用安装业务,而苹果通过应用追踪透明度(ATT)政策来打击这个业务,他们对自己进行了一定的自我优待。这样做实际上遏制了一个正在快速增长的游戏行业领域。
所以,我认为平台控制对我们非常重要,这也是大家都公认的战略原因。虽然这说得通,但老实说,这只是个漂亮的故事,可能是部分原因,但这并不是背后的真正动机。
真正的原因是,我们是一家技术公司,而马克是一个技术狂热者,他希望不断推动最先进的技术发展,并通过这些技术将人们连接起来。我们早就知道这些技术是未来的大趋势。作为一个行业,我认为我们都明白,特别是 AR,我们不用说服大家,增强现实未来肯定会存在,而且会很棒。
我们的首席科学家 Michael Abrash 曾说过,这是一个"技术终将实现的迷思",他指出,技术并不会自然而然地出现,总有人得坐下来真正去实现它。而马克在这方面的远见和承诺值得赞扬——我知道这样说有点像拍马屁,但他在很多方面确实值得批评,不过在这件事上,他的确有远见,并且在面对过去几年的巨大压力时,仍然坚持对这项技术的投资,并最终推出了 Orion。
我认为这是我们技术发展中的一个分水岭,它标志着这项技术已经来到我们面前,虽然尚未广泛普及,但它确实已经出现了。在我们有生之年,甚至在未来十年内,我们都能够使用并享受这项技术。我想,马克只是想把它实现。
Alex: 值得一提的是,这些眼镜目前还处于内部使用阶段,随着时间的推移,它们可能会公开发布,但目前还没有正式推出。不过我认为,我们应该更多地讨论一下平台的方面。
Meta的战略愿景和平台控制
Bosworth: 抱歉,我刚刚戴上了一副透明的眼镜。我们实际使用的眼镜是带有不透明镁合金外壳的,而这些透明款只是为了展示效果,佩戴起来确实很有趣,但它们只能工作大约半小时,然后因为塑料材质散热不够快就会过热关闭。但真正的眼镜不会因为过热而关闭,它们可以一直运行,直到电池耗尽,大约可以持续两到三个小时。所以,我刚才展示的这些演示道具很有趣,只可惜我不能戴着它们。
Alex: 那么,让我们来谈谈平台风险和操作系统。你们是否需要为这些眼镜构建自己的操作系统呢?
Bosworth: 是的,有几个不同的故事可以说。当我们谈到操作系统时,我以前的一位同事 Fus Kirkpatrick 曾说过,操作系统实际上是对开发者和消费者所做的一系列承诺。比如在 iOS 系统中,无论应用程序在做什么,滑动手势都会带你回到主屏幕,这是对消费者的承诺,应用程序无法干涉。对开发者来说,操作系统承诺了内存的分配权,这个 API 将会触发某个功能。
我们确实在底层使用了 Android 作为操作系统,但实际上,用户在混合现实或增强现实中与之互动的界面并不像 Android。原因有很多,其中之一就是交互范式不同。
在增强现实中,你不会有直接操作的界面,没有键盘、鼠标或者触摸屏。这实际上是我们首次遇到的没有直接操作界面的计算平台。回顾历史,从斯坦福研究所的研究,到施乐帕克的键盘和鼠标时代,再到多点触控屏幕,每一个应用程序都是通过直接操作来使用的。
但在这个平台上,我们不再有这些工具,因为你不可能随身带着触控设备。因此,我们正在使用的是手部动作,有时我们可以像在混合现实中一样,通过激光指示器来模拟直接操作,但更理想的是使用语音、眼动追踪和肌电图(EMG)来模拟这种操作方式。
所以,当交互范式发生改变时,操作系统的一半就是在解决消费者如何与机器互动的问题,而另一半则是机器如何将信息反馈给消费者。在这里,除了显示器是叠加光源的特点之外,我们与传统操作系统类似。显示器需要感知周围的环境,才能有效地显示信息。因此,当你构建新的交互范式,尤其是与新颖的显示技术结合时,实际上你就是在构建一个新的平台。
AR眼镜和操作系统的未来
Alex: 谁有可能构建这个平台?你提到了苹果的Orion眼镜,它们是全功能的AR眼镜。苹果有能力构建类似技术并限制其兼容性。这是否完全避免了平台风险?
Bosworth: 这当然不能完全避免平台风险,特别是在移动设备仍然主导的情况下。苹果可能也在开发类似产品,但我不了解内情。我认为他们肯定想做,但我们在这方面投入更长时间,也更加坚定。这要归功于扎克伯格的信念和我们团队多年的努力,我们在很多技术领域拥有实质性领先优势。
不过低估苹果这样的公司是天真的。他们有强大的手机和定制芯片,可以继续增加功能。但这也可能成为劣势 - 苹果是否愿意放弃现有的巨大利润去追求可能颠覆其利润结构的产品?
如果他们把更多体验放在手机而不是眼镜上,是否会影响开发者平台和交互设计的创新?我们发现很多只依赖手机的应用模式效果并不好。这将是一个动态的格局,我们在早期展示这些产品时确实承担了一些风险,但我们希望激发开发者和工程师社区的热情,同时展示我们在Reality Labs十年来的成果。
应用程序和AI集成的未来
Alex: 关于应用程序 - 这曾是使用手机的主要方式,但现在这些眼镜可以感知环境,还可以通过AI语音交互。马克提到语音将成为比文本更自然的AI交互方式。你认为这是趋势吗?我们还需要应用程序吗?
Bosworth: 这是个好问题。其实应用程序并不是一直存在的。最初系统运行的软件就是它本身,而不是通过应用程序实现。我经常想到JCR Licklider第一次坐在实时重编程终端前的场景。这是历史上首次进行人机交互式计算,以前都是通过大型机和分时系统完成的。这是一种巨大变革,最终通过他在DARPA和施乐帕克的工作,发展出了窗口化模型,应用程序的概念由此诞生。
我认为这种"人在回路中的计算"可以类比于今天的ChatGPT,它让AI实现了实时适应用户需求的能力。未来,我们是否会进入一个没有应用程序的世界?也许我们会回到一个更加互联的网络世界,通过服务深度链接各个功能。
如果我有了这个AI,我希望它能在用户级别工作,就像AI是我在机器里的化身。我认为你可能最终仍需要各种应用程序。长期以来,我们整个行业构建了很多有价值的东西,它们与数据安全以及数据和模型的交互方式有关。这些模型描述了数据如何与计算机本身、网络以及其他用户交互。所以我认为拥有这些东西仍然很有价值,更不用说我们该如何实现它,以及如何防止这些系统互相干扰。因此我认为应用程序模型不会消失,但我确实认为你最终会在它之上添加一个新的潜在层级,那就是智能体层。
Alex: 那么,开发者该如何考虑为这类技术构建应用呢?它更多地变成了你提供什么样的API,以及你通过API底层的软件提供什么样的独特价值。这是否意味着主要的交互层将通过某种语音AI?
Bosworth: 现在下结论还为时过早。我认为语音是一种很棒的交互方式,但它也存在很多模糊性。即使在人与人之间,很多时候都需要根据上下文才能理解。很显然,即使是非常厉害的AI智能体,如果它和你在一起,在很长一段时间里也不会有这样的上下文理解能力。所以我认为语音可能不是唯一的交互方式,语音和文本都会是其中一部分,我相信在未来很长一段时间内,我们仍然会有很多非常直接的操作界面。
AR眼镜取代手机的潜力
Alex: 但你可以想象,随着语音技术的发展,开发者创造价值的能力才是真正重要的,而不用再考虑如何通过某种界面将其传递给消费者。那么,在这个世界里,AR眼镜会取代手机,或者以某种方式超越手机吗?
Bosworth: 我无法想象手机会消失,至少在很长一段时间内不会。有一种观点认为,当AI眼镜变得非常流行,成为你与设备交互的界面时,特别是如果你有一个显示器,无论它是在AR眼镜上,还是在你的手机、手表或其他设备上,当你需要直接操作某些东西,或者进行非常精准的输入时,你就不再需要手机了。
但我们离那一步还很遥远,原因之一是技术还没有准备好,另一个原因是应用生态系统和用户行为的转变都需要很长时间。所以我认为这需要很长的时间,但我确实认为,对于很多至少是高端用户以及消费者来说,AR眼镜取代手机是可以想象的。
Alex: 那么,在那个世界里,计算会是什么样子?
Bosworth: 希望它会更加自然,更加智能。今天的计算其实很笨。我们都觉得计算机很神奇,令人印象深刻,因为它们可以进行非常快速的数学运算。但是,如果我在手机上输入我想看"Instagrab",它会说:"抱歉,没有叫'Instagrab'的应用"。我想说的是Instagram,它却说:"我不明白'Instagrab'是什么意思,它只是一个拼写错误"。计算机在这方面很笨,它们不明白我的意图是什么。
人类的小孩在很小的时候就能理解成年人的意图,这太不可思议了。我最近和一个人聊天,他告诉我他们正在研究人类幼儿甚至是婴儿的行为,他们观察自己的母亲与其他人互动,如果互动很友善,他们就会开始建立一个关于母亲正在与其互动的人的模型;如果互动看起来只是单纯的交易,那么他们就会完全忽略另一个人的存在。
就像在很早的时候,我们就会想,好吧,世界上正在发生一些有目的的事情,关于其他人心智的理论,他们存在,并且他们在努力达成什么目标,而我又想达成什么目标。计算机完全没有这些能力,但这却是人与人之间互动的基本方式。我们能够理解彼此的目标,并做出相应的反应。
所以我认为这是关于未来计算最值得期待的事情,那就是如果你有一台设备,它不再受限于你输入信息的多少,而是相反,它对你的一切了如指掌。它知道你一直在做什么,你现在想做什么,什么是可能的,你有哪些工具可用,然后它有足够的智能来做一些有用的事情,通过屏幕、声音或触觉反馈给你一些提示,帮助你顺利达成目标。这种感觉不再像是"我是一个拥有强大工具的人",而是感觉像拥有了超能力,感觉就像"哦,我比以前的能力强太多了"。
神经接口和脑机交互的未来
Alex: 你谈到人类和计算正在越来越紧密地联系在一起,彼此之间也更加了解。AR的发展是否只是我们最终目标的一步,最终我们会通过脑机接口将计算能力植入我们的大脑?
Bosworth: 这是一个好问题,你其实已经拥有了对手腕上设备的神经控制能力。手腕上的神经接口已经非常成功了,我们认为这只是一个开始,随着时间推移,我们还可以做更多。
Alex: 对听众朋友们解释一下,你手腕上戴着这个腕带,你捏一下它就能进行选择,敲击中指就能回到主屏幕,你还可以通过拇指在手上滑动来滚动屏幕,这太不可思议了。
Bosworth: 没错,这只是一个开始,随着时间推移,我们认为我们甚至可以不需要任何手势,只需要想法,就能通过你的控制系统表达你的意图。
8年前,我们和加州大学旧金山分校合作进行了一项侵入性神经植入研究,对象是一位因为外伤性脑损伤而失语的病人,我们成功地通过植入物为他们提供了一个包含400个词汇的词典。
我们进行这项研究的原因是,当这位病人使用控制系统时,我们在他们头上放置了超灵敏的肌电传感器,看看我们能否在不进行侵入性操作的情况下检测到任何潜在的神经活动模式。但我们失败了,你的头骨是一个非常棒的电活动绝缘体,它会把电信号混在一起。
神经植入的挑战在于,我们研究这个的时间比这还要长,你知道,第一个通过神经植入控制鼠标进而控制计算机的人,可以追溯到2010年初,甚至更早。这里有几个挑战,其中之一是大脑会对植入物产生髓鞘化反应,所以它们在电信号传导方面会随着时间推移逐渐失效。
所以它们必须被移除并更换。如果你把它们留在那里太久,它们可能会致命,或者至少会导致非常严重的并发症。所以,以我们现有的技术、材料和对大脑运作机制的了解,我们谈论的不是一次性脑部手术,而是每年都要进行脑部手术。
对我来说,每年做一次脑部手术作为消费级产品是绝对不可接受的。我认为事情不会朝着这个方向发展。
Alex: 嗯,所以相较而言,我宁愿戴眼镜,对吧?
Bosworth: 是的,我认为眼镜会更受欢迎。我们也一直在密切关注神经接口领域,当然,也很高兴看到人们投入大量资金,试图解决这些问题。但我们不断发现,你未必需要走到那一步。
眼镜已经很不错了,一旦你能做到全天佩戴,它们会变得更轻,而且电池续航时间也更长,能够随时摘下眼镜其实也挺好,能够回归到那种,专注于自身的感觉。它最终会发展成植入物吗?也许吧,但我认为这不太可能,我不觉得在我有生之年会实现,即使以我的标准来看,这也太遥远了。我认为我们,嗯,也许AI是解决这个问题的关键,我本科时学过很多神经生物学的知识,这也是我对人工智能和计算感兴趣的原因之一。我们理解大脑所面临的挑战,感觉比我们目前所了解的任何事物都要复杂一个数量级。
Alex: 所以你并不认同我们会与AI合并的想法?
Bosworth: 不,我不认为这在短期内会发生,我没有说你会不会这样做,如果你能的话,那就太不可思议了。
Alex: 我非常喜欢霍夫施塔特的《我是个怪圈》,它提出了意识是足够自我参照的系统的涌现属性这一观点。
Bosworth: 嗯,这是一本很棒的书,而且,它也是对意识的深刻思考,作者是这个领域最厉害的人之一。同时,它也是对他已故妻子的深情怀念。他认为,他意外去世的妻子,她的意识的某个版本仍然在他的大脑中运行,就像上传到他的大脑一样,因为他可以非常清晰地回忆起她,这又回到了我之前说的,理解他人的意图和能动性,他在他的意识中保留了一个非常接近她意识的版本。
Alex: 的确如此,如果你和某人足够亲近,你甚至可以在他们不在场的时候与他们对话。
Bosworth: 没错,我们的大脑中会保留一个他们意识的版本。所以我认为,如果你和一个AI长期相处,它帮助你,引导你,你向它倾诉,甚至是你通常不会告诉亲密朋友或其他人的内心深处想法,那么它的系统中就会有一个关于你意识的版本,可以被查询,可以被互动,就像一个动态的意识版本。那是你吗?
Alex: 这个问题就留给哲学家们去讨论吧。
人工智能发展现状与未来
Bosworth: 人工智能会在很多方面超越我们,这显然会引发很多关于隐私、安全以及如何控制这些技术的问题。假设我们能解决所有这些问题,我会很高兴如果我发生意外,我的孩子们能够接触到一个接近我的模型。我相信这会带来一系列全新的挑战,但我认为这是一种可能的未来。
Alex: 你认为目前的系统有意识,或者接近意识吗?
Bosworth: 不,我不认为它们离意识还很远。我认为这是一种范畴错误。说实话,我发现AI相关的讨论很有趣,因为我一方面是最狂热地相信大语言模型(LLM)力量的人之一。我认为它从根本上改变了计算范式,从人机交互计算转变为人机协同AI。但我也不认为它是意识存在的那种东西。
它不存在于任何自我参照的循环中,事实上,除了我让它存在的时候,它根本不存在。它是一个非常非常酷的关联数据库。这让我想起,当我还是本科生的时候,我学习计算神经生物学的原因是,我想知道如何用计算机模拟人类的联想记忆库。
人类的记忆是一个非常神奇的联想工具。当我提到"紫色"这个词时,你的脑海中会涌现出大量的想法。它非常丰富和复杂,而且对你来说非常独特,与你对这种语言的过往经验有关。这对计算机来说是一个非常困难的问题,让它们拥有这种发散性和创造性的联想能力。
今天我可以对AI说,"想象一只紫色的大象",它可以做到,这在以前是不可能的。所以我喜欢它,但我认为它本质上是一个关联数据库,而且是整个系统的重要组成部分。但我倾向于认为Yann LeCun对它的批评是正确的。
AR对VR和混合现实设备的影响
Alex: 如果Orion成功了,VR或者这些混合现实设备,Quest和Ray-Ban Meta会怎么样?
Bosworth: 我把它比作你的手机和笔记本电脑。这就是我们发现的,也是它们使用不同操作系统的原因。尽管我们有很多共享的技术层、传感器、手部追踪、眼动追踪、语音和AI共享技术层,但不同的操作系统是因为交互设计不同,而交互设计不同的原因是使用场景不同。
有时候我在手机上回复邮件,手机的邮件功能也很好用,但我突然会想,这不是一封适合在手机上回复的邮件,我得放下手机,打开我的笔记本电脑。我需要打开5个浏览器窗口,这真的很重要,我得好好写这封邮件。
我当然会在手机上看一些短视频,但我还会在家里和我的妻子孩子一起用大屏幕看电影。它们是不同的东西,我无法用语言描述它们为什么不同,但你我都知道它们是不同的,而且它们带来的感觉也不同。
所以我认为即使你有了这些很棒的AR眼镜,在虚拟现实和混合现实中仍然可以做到一些其他方式无法做到的事情。你的增强现实眼镜永远不会让你觉得重力消失了,因为当你戴着头显的时候,你仍然可以看到背后的真实世界,你完全可以体验在失重环境下玩游戏的感觉。
Alex: 对于开发者来说,如果你想用一分钟向他们介绍为这些VR、混合现实或AR设备开发应用的优势,你会怎么说?
Bosworth: Meta AI语音肯定是其中之一。这个市场非常高效,所以,手机用户很多,但它也是最难获得关注或脱颖而出的市场,也是最难进行创新的市场,因为所有的事情都已经被做过了,手机在过去10年里都没有发生什么变化。
而这些新设备,风险更大,因为用户规模更小,但你面对的是一群充满热情、深度参与,并且渴望看到新事物、尝试新体验的用户。所以如果你有一个很棒的想法,它就像一座金矿。在过去几天里,在Connect大会上与开发者们交流让我感到非常兴奋,因为我周围都是那些想到了我们从未想过的点子的人,当我们构建这些平台的时候,他们正在努力推动并开创这些新的东西。
每个开发者都应该发挥自己的优势,并了解这些设备和AI,尤其是在不同的环境中。在手机领域很难取得突破,它的设计初衷就是让你很难做到这一点。
Alex: 因为我的意思是,如果没有开发者开发的应用程序,就很难让这些设备体现出真正的价值。
Bosworth: 这就是为什么每次我们谈论Quest的时候,我们都会谈论生态系统。它不仅仅是设备,我不是来卖设备的,我是来构建一个生态系统的。那就是关于构建,吸引更多开发者创造优质体验,吸引更多用户,更多用户又能反过来吸引更多开发者。
开源基础模型与应用发展
Alex: 人工智能的真正价值究竟在于基础模型的开发,还是在于它们的应用?
Bosworth: 我是公司内部最积极推动Llama开源的人之一。显然,你看到了马克在宣布Llama 3时有多么兴奋。对我来说,这样做的原因是,这对我们公司来说是一个巨大的好处,无论AI是我们开发的还是其他人开发的,只要它是好的就行。我是唯一一个能够在我们的产品中使用它的人,而且我们与消费者有直接的联系,所以无论AI是我们开发的还是其他人开发的,我们都可以让我们的产品更好地服务于消费者。
所以这对我们来说是一个补充,你总是希望你的补充产品能够被商品化。你总是希望你依赖的东西是便宜的,并且能够被很多人改进,而不仅仅是依靠你自己的努力和资金投入。所以从战略上讲,这完全说得通。
但更重要的是,我们是一家科技公司,我们一直认为AI,尤其是我们为自己的应用带来的数据,这对我们来说是特殊的,而且应用本身对我们来说也是特殊的。但我们一直以来使用PyTorch,我们一直试图确保中间部分,也就是基础设施部分,是面向所有人的。这能帮助我们的Quest开发者开发出更好的应用,也能确保我们正在合作的合作伙伴,比如Instagram,获得更好的体验。对我们来说,让所有用户,无论他们是在使用我们的应用还是其他人的应用,都能获得更好的体验,这对我们来说真的很有好处。
但我认为对我们来说,说实话,很难预测这些公司会发生什么。如果你很久以前问我这个问题,我会对AWS做出错误的预测,因为我们当时正在构建LAMP技术栈,我们自己做所有的事情,而且每个人都在这样做,这很好。但后来事实证明,如果你能以足够低的成本将管理大量网络服务器、负载均衡器、扩容和缩容的复杂性抽象出来,那么这里就存在一个商机。
所以我认为对一些AI超级巨头来说,可能会存在这样的商机,它可能潜在的像AWS一样是一个很大的生意。但他们必须达到经济效益合理,并且能够充分抽象出底层复杂性的程度。但我认为大部分的价值将来自应用层面。
技术发展速度与未来展望
Alex: 我们现在是2024年11月之前。我还在思考我来到这里看到的各种不同的技术,而且我的意思是,你知道,这要归功于你们的团队,但它们就像Messenger中的贴纸和360度视频。对你来说,现在的技术发展是什么样的?因为我的意思是,说真的,我们正在讨论的是能够真正了解我们的人工智能,眼镜,我之前试戴过你们的眼镜,你可以直接看穿它。
Bosworth: 作为技术人员,我们经常谈论的是这些重叠的S曲线。一项新技术诞生,然后会经历一段时间的挣扎,然后逐渐被人们接受,然后爆发,变得无处不在,然后在顶峰仍然有巨大的价值,但它开始变化的速度开始放缓。
我举一个简单的例子,你提到了Messenger贴纸,现在回过头来看,很容易嘲笑Messenger贴纸,但它们仍然非常流行,而且我们也不会轻视表情符号。表情符号,这种用图像表达自己的方式,而不是用文字明确地表达自己,一开始是一个很可笑的概念,就像我们这一代人经常被老一辈人取笑,但现在它已经普及到所有年龄段的人群,可以说,它帮助我们通过一种原本缺乏这种能力的媒介来清晰地表达情感。
所以我不喜欢贬低任何过去出现的东西,但我确实认为,我们应该认识到,10年前,我们都觉得自己正处于一条S曲线的顶峰。那是网络发展的末期,我们当时正沿着移动互联网的曲线快速上升,所以在那个时候,网络开始逐渐衰落,移动互联网仍然发展迅猛。这真的很了不起,你知道,马克能够预见到之后的发展曲线。
之后的曲线是什么?我当时在这里的时候,我试用了你们Messenger上的AI助手M,那实际上是WhatsApp大楼里的承包商模拟出来的效果,我们整个行业在一两年前都预测错了。
你知道,我记得我们还有Portal,它仍然是我们最受欢迎的设备之一,我向所有那些不得不停止使用它的人道歉。看着摄像头,直到Katie,Katie,你知道我有多抱歉。它是,而且我们的,没有人比我的,我们自己的员工,当我们不得不关闭那个非常受欢迎的产品,市场规模很小,但非常受欢迎的产品时,我们的员工比任何人都难过。
我们在上面集成了我们的AI助手,也集成了Alexa助手,当我们开始开发自己的助手时,我简直不敢相信它们的扩展性有多差,因为你必须为每种语言、每种设备和每种使用场景开发不同的版本。哦,我的天哪,那根本不是软件开发,那是最糟糕的扩展规律。所以即使在那时,我就知道这不是我们想要的,直到你将自监督学习与谷歌在构建这些模型方面取得的突破结合起来,然后最终是ChatGPT的出现,你才会恍然大悟,啊,原来是这样,这就是我们一直想要的东西,而我们之前还没有得到它。
你知道,业界有句话说,没有坏主意,只有坏时机。M可能就是其中之一。
Alex: 好的,Andrew Bosworth,很高兴见到你。谢谢你的邀请。
Bosworth: 谢谢,伙计。
Alex: 谢谢大家的收听,我们下次再见,Big Technology播客。
名词解释
"puck" 指的是 Orion 眼镜配套的计算单元,类似于手机,用于处理数据和连接网络。 "ATT" 指的是苹果公司推出的应用跟踪透明度框架 (App Tracking Transparency),限制了应用程序跟踪用户数据的能力,对 Meta 的广告业务造成了一定影响。 "llama" 指的是 Meta 开发的大型语言模型 LLaMA (Large Language Model Meta AI)。 "pytorch" 指的是 Meta 开发的开源机器学习框架 PyTorch。 "LAMP 技术栈" 指的是 Linux 操作系统、Apache HTTP 服务器、MySQL 数据库和 PHP 编程语言的组合,用于构建网站和网络应用程序。 "AWS" 指的是亚马逊网络服务 (Amazon Web Services),提供云计算服务。 "M" 指的是 Meta 在 Messenger 中开发的 AI 助手,后来被关闭。 "portal" 指的是 Meta 开发的视频通话设备 Portal,后来也被关闭。 "101 号公路" 指的是美国加州的一条主要高速公路,连接硅谷和旧金山。
参考:https://youtu.be/B0gAe-wXrdQ[1]
参考资料
https://youtu.be/B0gAe-wXrdQ: https://youtu.be/B0gAe-wXrdQ
推荐阅读:
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
点击关注和转发公众号 保持你对AI优质内容的敏感