6月底,Meta 酝酿的AI Agent定制工具AI Studio终于亮出了第一阶段的测试场景——允许Instagram上的创作者构建自己的AI机器人,并能通过DM (私信功能)与粉丝互动。
这家从社交网络平台起家、转型元宇宙又加注AI的科技公司,正在通过Llama 大模型、AI Studio等产品将自身的新老业务串联起来。Meta的AI策略也愈加清晰:相比构建通用大模型,它更愿意开发趁手的AI工具甚至硬件,服务自家的盈利主业之外,拓展新业务,续写它的元宇宙故事。
智能眼镜就是其中一个。上个月,Meta的CTO Andrew Bosworth在重组公司元宇宙部门Reality Labs时提到,Meta去年加盟打造的智能眼镜Ray-Ban Meta的销量远超预期。销售数据甚至好过去年同期亮相的MR头显Meta Quest3。
近期,Meta的CEO Mark Zuckerberg(马克·扎克伯格)在与科技创作者Robin Kallaway(罗宾·凯拉威)的对话中还提到了他看好的另一个硬件“神经接口腕带”。扎克伯格认为,这个非植入性的可穿戴设备配合智能眼镜将创造惊人用例,甚至逐渐替代智能手机。
从Meta对开源AI的信奉,到未来五到十年的颠覆性消费科技,扎克伯格预测,AI不会只有一种,因为人们需要多元的创造和丰富的交互体验;全息影像形态的交互方式将随着AI的加成而实现,这对专注于元宇宙和所有具象化工作的Meta来说,是自然路径。
以下是双方对话的节选内容:
凯拉威:你能谈谈Meta在更广泛的AI领域的策略吗?Meta的AI计划是什么?它如何适应市场?
扎克伯格:目前,我们会看到很多公司试图构建一个主要的AI工具供用户使用,比如 Google Gemini 以及OpenAI ChatGPT。我想说的是,我们的做法与其他公司有很大的不同,Meta会提供一个基础的Meta AI助手。
用户与不同的人和企业互动时需要创建许多不同的AI来反映人们不同的兴趣。所以,我们的AI策略里很大一部分是让平台上的每个开发者或者企业创建专属的AI,以帮助他们与社区和客户互动。我们认为这将创造一个更加引人入胜的体验,比仅仅使用一个单一的产品更加灵活且有用。
我们在构建底层模型 Llama ,我对进展非常满意。基于Llama模型,创作者和企业能够创建定制化的 AI ,并创造各种不同的体验。这也是本周 AI Studio (支持创建AI的平台)公告的内容,虽然是一个早期测试,但是一个令人兴奋的一步。
凯拉威:你认为未来的创作者体验是什么样子的,会有什么有趣的事发生?
扎克伯格:如果从人类历史的发展轨迹来看,未来会有越来越多的人有机会追求自己的兴趣和创造力,而不是做那些单调乏味的工作,或者仅仅为了工作而工作。相反,我们会越来越多地做自己真正喜欢的事情,很多技术的发展就是为了实现这一点。新技术的发展,不仅仅是提高生产力,还会提供各种新工具。
这也是Meta正在做的事,我们想要构建更多的工具,让更多的人能够发挥自己的创造力,包括那些今天不认为自己是创作者的人。实际上,每个人在某种程度上都是有创造力的。就像孩子一样,他们并不认为自己是创作者,但他们肯定在玩乐高时创造了各种有趣的“创作”。正如毕加索所说,每个孩子都是艺术家,问题在于长大后还能保持这种状态。
我们要做的一部分就是构建支持每个人进行创作的工具。那么我看到的趋势是什么?
在社交媒体方面,有几个大的趋势。一个是从基于信息流的媒体转向更个人化的消息互动。比如Instagram ,私信是系统中增长最快的部分之一,这也是我对创作者工作室和 AI 工作室感到兴奋的部分。
每个创作者都希望与每一个联系他们的粉丝互动,但每个人的时间是有限的。所以现在很多人为自己创建AI角色,以帮助他们处理社区发送的所有私信。关键在于,创作者为自己创建的 AI Agent 的质量,这将成为一种艺术形式,会随着时间的推移发展和进步,会变得越来越好。
另一个快速增长的领域是短视频。与电影和长篇电视节目相比,人们一度认为 YouTube 是短视频,但与如今真正的短视频相比,YouTube 视频变得很长。你在看 YouTube 视频时可能在做多任务,因为它持续好几分钟。
这种趋势可能会继续下去,因为人们有更多工具来创建紧凑、精练的内容。现在人们会使用 AI 来创建和编辑视频。整个过程仍然会有大量的创造力,因为你需要像打磨雕塑一样精心打磨你正在构建的内容。但从根本上说,它会变得更容易获得,内容的质量也会随着人们能够尝试更多不同的想法而提高。
凯拉威:我想了解一下 AI Studio在工具方面的情况,这是创作者在 Meta 世界中与 AI 互动的基础构建模块。那么策略如何逐步实现?
扎克伯格:有几条技术路径是同时进行的。一条是 Llama 的开发,这是底层核心基础设施,我们在获得反馈的过程中进行模型的调优。在此基础上,我们正在创建不同的AI工具,并支持其他开发者来创建不同的 AI Agent。在商业方面,小企业数量是一个巨大的机会,他们不亚于现在的创作者数量。
对于任何企业来说,通过按几个按钮创建一个能够帮助你进行客户服务和电子商务支持的 Agent 版本,这将非常强大。
Meta正在进行第一个测试阶段。我们与大约 50 位创作者一起启动,可能在接下来的一个月左右,我们会逐步推出,让更多人能够与这些创作者创建的 AI 互动。大概到7月底或8月,我们会全面推出。
这将是一个非常有趣的体验,看看人们如何与这些 AI 互动。我很想听听你的反馈,你在使用这个工具时有什么感受,哪些地方表现良好?哪些地方需要改进?
凯拉威:事实性的问题很有意义,但在意见方面,一些粉丝会担心 AI 助手可能会使人与粉丝之间的那种神奇的联系去人性化。你如何去构建这些对创作者无比有用的 AI 工具,同时保持真实性和人性化的联系?
扎克伯格:你提到的意见型问题,更多的是一种艺术形式的体现。也就是说,这些东西的训练过程。就像你说的,事实性问题相对来说比较清晰,而在意见方面,创作者对于 AI 如何表达他们的观点会有更多的想法。
至于让人们知道他们在与AI互动这一点,也是我们的核心设计原则之一。我们不想让人们以为他们在与创作者本人互动。我们希望它尽可能高保真地反映创作者的意图,但也会非常清楚地标明这是 AI ,这样就不会有任何混淆。
当你与社区互动时,你可能会觉得可以在表达上更加自由或冒险,但你可能不希望你的 AI 这样做。你可以让它基于你的社交媒体内容进行训练,让它在某些事情上保持更加谨慎的态度,避免涉及某些话题,直到它能够准确地反映你的意图。
这些工具非常重要,但这是一种艺术形式,我们在开始时并不知道什么是最具吸引力、最能建立信任的公式。因此,我们希望提供工具,让大家可以试验,看看什么最终效果最好。
凯拉威:我十分好奇的是 AI Studio 的未来功能创意,还有哪些未来的 AI 功能是我们还没讨论到,并且你认为我们在未来三到五年内可以实现的?
扎克伯格:理解不同物品的功能应该随着时间的推移适用于所有帖子,未来我们会实现这一点。我们在 Ray-Ban Meta 眼镜上有这种多模型 AI 的早期版本,比如你可以说:“嘿 Meta ,看一下这个东西是什么?”它会非常准确地识别你眼前的东西,并能够回答相关问题。
随着 Llama 模型的不断改进以及推出下一版本,功能会更加完善,能够自动翻译和配音是我对非常感兴趣的功能。AI翻译能够自动将所有内容翻译成各种语言,甚至让人感受到母语级别的交流,这将非常强大。不同于 AI Studio,这是 AI 在内容、内容理解和内容翻译等方面的不同应用。
对于AI Studio本身,将会是如何给创作者提供更多工具来完善相关体验,我们还会添加不同的模式。
起初是文本,但随着时间的推移,会有视频、音频,最终是 3D,这样你就可以以全息图的形式出现在某人的客厅里,这将非常酷。我们专注于元宇宙和所有具象化工作,这也是我们的自然路径,我们试图让创作者能够以更自然的方式与人们互动。
凯拉威:我非常喜欢你提到的Agent 网络的概念,这个是一级,那二级会是什么?比如市场研究 Agent ,我需要制作某些视频或向社区提供某些产品或课程。如果我有一个 Agent 可以出去并与 5% 的观众进行一对一对话,挖掘他们的痛点,并自动完成这些事情,那将非常棒。把这些小的用例堆叠起来,突然之间就有了一套对创作者非常有价值的Agent、AI 或机器人。
扎克伯格:这是一个好观点。更高一级的是能够汇总分析,了解人们需要支持的所有事项,并改进它们。
对于创作者来说,也有类似的版本,比如,我的社区是否喜欢与我的内容互动?不同的反馈是什么?我如何将这些因素纳入我的创作过程或商业模式中?
凯拉威:很多人对 AI 有很多恐惧和不确定性,主要是因为创意人士和艺术家害怕 AI 可能会取代他们,抢走他们的工作。对这一群体而言,听到向你分享关于AI驱动未来的原始想法会非常有益。你能为他们提供一些建议吗?
扎克伯格:我同意你所说的,未来将会有比现在有更多的创意工作。你可以看一下人类的轨迹,大多数人过去是农民,但现在我们不需要那么多人从事农业了。人们可以追求更有创意的事情。随着技术的发展,我们使用的工具也会发展,关键在于与这些工具保持同步。
但从根本上说,未来会有更多的创意机会,伴随着更强大的工具,让人们能够做到这一点。但有一点让我感到困惑,行业中一些人认为会有一个万能的AI,它可以做所有事情。我不认为事情会这样发展。就像手机上只有一个应用,人们从一个创作者那里获得所有内容,这是行不通的。人们重视多样性,这创造了丰富性和我们在生活中学习和进步的感觉,体验不同种类的事物。
因此,我非常相信,未来不会只有一个 AI ,而是会有很多不同的 AI ,让很多不同的人能够创造不同的东西。这也是我如此信奉开源的部分原因。
我不认为 AI 技术应该被囤积,只有一家公司可以使用它来构建他们的产品。如果你相信未来会有很多不同的 AI 和很多不同的体验,你就希望它能在各种方式中传播出去。
一部分是为创作者和平台用户构建工具,使他们能够创建自己的 AI还有所有的商业内容,就像 UGC 类型的 AI 情况;另一部分是开源,这样其他公司也可以创建不同的东西。
所以,我有一个非常深刻的世界观。当技术行业的人谈论构建这个唯一的 AI 时,我感到非常不舒服。他们好像认为自己在创造上帝,但这不是我们在做的事情。我不认为事情会这样发展。
显然,我们将在十年后使用与今天不同的工具,就像我们今天使用的工具与十年前不同一样。但这回到了你的主要观点,即未来将会有比今天有更多的创意工作。
凯拉威:我想到了数码相机的出现,摄影师只是得到了一个更好的工具,摄影的品味仍然很重要。我非常同意你所说的,很多公司试图构建这种封闭的一体化平台,这对我来说也是一种打击,这比有益更具破坏性。
扎克伯格:这不会在世界上创造更多的价值。这是一个有点奇怪的意识形态,但从我的角度来看,我也认为这不是为人们创造最佳体验的方式。你想解锁并释放尽可能多的人来尝试不同的事情,这就是文化的本质。这不是一群人垄断一切,而是你希望有各种不同的想法迸发。
「神经腕带+智能眼镜将带来惊人用例」
我们问自己:如果只采用今天最好的眼镜形式因素,我们能在不影响形式因素、重量等情况下塞进多少技术?然后我们得到了Ray-Ban Meta 。
我们也从另一个角度出发,想要创造全息 AR,我们需要的仍是智能眼镜。即使眼镜仍会有稍厚的框架(因为我们需要塞入更多的技术),但最好的实现方案仍然是眼镜,而不是头戴设备。
随着时间的推移,这两条路径会逐渐融合。我以前认为需要全息来实现存在感,但AI取得了如此大的飞跃,即使是一个简单的产品也会更快地吸引眼球。
Ray-Ban Meta 产品的需求比我们预期的高得多,它的大多数款式已经售罄,但你仍然可以买到基本的黑色款,我们正在加速生产和工厂生产线,以制造更多产品。
会有很多这样的产品,我认为,即使眼镜上没有任何显示器,依然可以用摄像头、麦克风和扬声器以及多模态 AI 创造一个很棒的体验。事实上,显示器本身可能不会在当下适合所有人,因为它增加了眼镜的重量,这也使它们变得更贵。
你可以以 300 美元的价格买到 Ray-Ban Meta ,但如果你添加全息显示器,那将显著增加成本。我仍然认为,对于能负担得起更昂贵设备且不介意其稍重的人,他们可能会想要全息功能。
十年后,我们会得到真正小型的全息设备,那将非常棒。但在近期内,我实际上认为很多人会更喜欢 Ray-Ban Meta 这样的产品。当然,我们会继续让这种形式因素随着时间的推移变得越来越小,这是一个非常令人兴奋的演变。
基本上会演变出三种不同的智能眼镜产品:
1)无显:没有显示器的眼镜,只能进行 AI 操作,捕捉内容,可以听有声书、音乐、接电话等;
2)非全息:非全息显示器眼镜,它不会像全息图那样覆盖你的整个视野。但它可能会有一点抬头显示(又叫平视显示系统,尽量让使用者不低头、不转头就能看到相关信息),这会带来很多有趣的用例。你可以接受通知,发送消息,与AI 对话,回答问题,不仅能听到,还能看到,需要更高的带宽。
3)全息:最顶级版本,即全视野的全息显示器,我们在未来的对话中,你是坐在我客厅沙发上的全息影像,而不仅仅是视频通话,不仅仅是屏幕上的全息图,你就在这里。
凯拉威:我还听你提到过一个腕带,可以捕捉到皮下神经信号,我觉得这也很酷。
扎克伯格:是神经接口腕带。当人们听到神经接口时,我想他们的第一个反应是,哦,这一定是植入你大脑的东西。但大多数人不想要什么东西植入他们的大脑,我很同意这种看法。但你的大脑通过神经系统向你的身体发送信号,这就是你如何激活所有肌肉的方式。
事实证明,有很多不同的路径在你身体的正常运作中并没有被使用。所以,你可以有一个腕带,训练它去捕捉你大脑通过不同路径传递的信号和方式,最终,即使不明显移动你的手,你也能通过这个神经接口进行交流。它会从一些简单的动作开始,但在未来几年,你将能够用它打字,做各种事情,控制光标。这将是非常疯狂的。
这与眼镜结合将会带来一系列非常惊人的用例。你基本上可以坐在那里,无论你在哪里,你都可以给某人或 AI 发送消息。
这不仅仅适用于 Meta ,随着时间的推移,它将适用于所有不同的 AI ,所有创作者的 AI ,任何你想互动的人。你可以坐在那里,不动声色地发送消息,然后你可以在耳边听到回答,或者如果你有显示器版本,可以看到小小的文字弹出。我觉得这会非常疯狂。
对我来说,最好的一点是,我更喜欢与人面对面交流。有时,会议中我有一个问题想问某人,但我不想在所有人面前问。所以我只能等到会议结束。但在数字会议中,你可以在会议进行时给某人发信息,比如在 WhatsApp 上发消息。
而在面对面互动时也能通过眼镜做到这一点将会很棒。你可以与人互动,但也可以在对话期间获取信息,使事情变得更加高效,这将非常强大。
凯拉威:我以前低估了手机对专注的破坏力。当你用手机时,你完全在手机里而非现实世界。如果你戴上眼镜,哪怕没有抬头显示器也不会分散你的注意力。你可以在现实世界中,同时以混合的方式获取信息。有腕带和眼镜的结合,这会是一个非常有趣的平衡。
扎克伯格:回到你的问题,这何时能会取代手机。在技术史上,新平台通常不会完全使人们停止使用旧东西,只是你会用得更少。
很多人今天在手机上做的事情,以前会在电脑上做,因为更方便。你不再那么频繁地打开电脑,不去书桌前,因为你可以直接在手机上完成。即使我坐在书桌前,我也会在手机上做很多以前十到十五年前会在电脑上做的事情。
眼镜也会这样发展。不是说我们会停止使用手机,只是它会更多地待在你的口袋里。你会在需要时拿出来,但越来越多的人会说,嘿,我可以用眼镜拍照,我可以向 AI 提问,或者发送消息,这样更方便。
我不会感到惊讶,如果十年后我们仍然有手机,那也是有目的的使用,而不再是随手拿起。
凯拉威:每隔几年,社会就会经历一些颠覆性的消费科技时刻。我会想起第一次在Google上搜索,第一次在Facebook上收到好友请求,或者第一次叫Uber。人们会记住他们第一次经历这些转变的时刻,你工作中最酷的部分之一是你可以提前五到十年体验这些颠覆性技术。我们谈到了眼镜,我很好奇在未来十年的 Meta 路线图上,还有哪些技术有可能成为这些颠覆性的消费科技时刻?
扎克伯格:我完全同意你的观点。这是技术中最棒的部分之一。在很多其他领域,同样的事情可以做很长时间,而在技术领域,每隔一段时间就会有一些新机会出现,你需要重新思考你在做什么,但这很令人兴奋,我们已经讨论了很多内容,眼镜会是一个大事件。
我们几乎准备好开始展示全息眼镜的原型了。我们不会广泛销售原型,而是专注于构建完整的消费版本,但我们会开始向人们展示原型,这很疯狂。神经腕带也很疯狂,你可以通过微妙的手部动作输入信息,仅仅通过想象你如何移动手。
随着时间推移,这将变得更加丰富。通常需要到第二版或第三版,这些东西才能真正调试好,人们才能理解。我们在 Ray-Ban Meta 的第二版也看到了这一点,它真的大受欢迎。神经腕带可能主要用于眼镜和MR混合现实头显的输入,或者最终成为一个独立的平台。你可以想象一个世界,你用神经腕带控制家里的所有设备或电脑,随着时间推移,这将非常酷。
我们在AI 方面进展的速度非常惊人,从去年夏天的 Llama2 到现在的 Llama3 , Llama3 接近赶上最好的模型了。
Llama3是开源的,向很多人开放,我们开始研究 Llama4 ,每个版本都增加了更多的模式。Llama3 有更多的图像模式和一些语音内容, Llama4 将更深入这些方面,并增加一些推理能力。这样,当你是创作者并在编辑某些内容时,你就不再需要非常详细地描述需求。当它从回合制聊天机器人转变为你可以给出意图并完成更复杂的任务的 Agent 时,这将非常酷。
从创作者AI启动的旅程将是我们一个有趣的开始,创作者AI和我们推出的一些商业AI将使人们体验更多样化的互动,这将为整个生态系统增加真正的丰富性。
你期待智能眼镜和神经腕带的体验吗?