图片来源:Amazon
Alexa 于 2014 年面世时,曾凭借创新的语音控制功能开创了智能语音助手的新市场,迅速占领了消费市场,并成为智能家居生态的一部分。然而,尽管设备销量突破亿台,Alexa 的核心功能大多停留在基础的语音指令,商业化进展不如预期。
Alexa 架构分散、团队之间的资源争夺、冗余管理问题导致发展受限。同时,ChatGPT 等大语言模型的崛起,让 Alexa 在智能对话能力上明显落后。尽管亚马逊尝试整合 LLM 模型并进行紧急升级,但 Alexa 仍然面临 AI“幻觉”和基础任务表现不佳等问题,测试版用户反馈不理想,项目进度也一再拖延。
ChatGPT 的成功引发了市场变革,亚马逊意识到 Alexa 在 AI 助手领域的领先地位受到威胁。Jassy 推动团队加速开发具备生成式 AI 功能的 AlexaGPT,希望利用现有的市场渗透率进行转型升级。然而,Alexa 面临的挑战不仅在于提升技术能力,还包括重新定义用户体验,以赢回市场信心和维持亚马逊在智能语音助手市场中的核心地位。
Alexa 的辉煌与挑战
2023年夏天,亚马逊 CEO Andy Jassy 不断用体育问题测试 Alexa,希望检验升级版的语音助手是否足够强大,能与 OpenAI 的 ChatGPT 竞争。ChatGPT 在八个月前凭借卓越的对话能力震惊全球,而 Jassy 想确认 Alexa 是否能迎头赶上。
作为纽约巨人队的铁杆球迷,同时也是西雅图海怪队的投资人,Jassy 像 ESPN 记者在季后赛新闻发布会上那样盘问 Alexa,深入询问球员表现、联赛排名和球队历史等问题。虽然 Alexa 勉强撑过了这次“采访”,但回答远未达到完美——当 Jassy 问到一场比赛的最新结果时,Alexa 居然编造了一个比分。
尽管如此,Jassy 对亚马逊工程团队能如此迅速地开发出这个半成品仍感到非常兴奋。一位参与展示的人回忆说,Jassy 连续说了约 30 次“谢谢”。尽管新版 Alexa 还需要大量改进,但高管们相信,2024 年初能够推出测试版,并在此后不久进行大规模发布。然而,时间表开始拖延。据 Bloomberg 查看的一份内部文件,亚马逊曾计划在 10 月 17 日举办大型发布会,但最终取消了这一计划,改为展示新版 Kindle 阅读器的小型活动。知情人士透露,Alexa AI 团队近期被告知,目标发布日期已经推迟到 2025 年。
亚马逊拒绝安排高管接受采访,但表示公司的愿景仍然是将 Alexa 打造为全球最好的个人助理,认为生成式 AI 是提升服务的巨大机遇。发言人 Kristy Schmidt 在邮件声明中表示:“我们已经将生成式 AI 集成到 Alexa 的不同组件中,正在努力实现大规模应用,在全球已有的 5 亿多台 Alexa 设备上,为用户提供更加主动、个性化和值得信赖的帮助。”
自 Jassy 的展示以来,Alexa 的对话能力有所提升,但参与开发的顶级工程师和测试人员表示,这款增强版语音助手仍常常啰嗦无关信息,甚至在此前表现出色的简单任务上也变得力不从心,比如控制灯光的开关。
亚马逊陷入这种境地,令人感到不可思议。十年前,Alexa 开创了“听觉设备”这一全新类别,涵盖智能音箱、电视、平板、摄像头、车载配件和微波炉等设备,能够快速响应语音指令。
对许多人而言,Alexa 只不过是个高级厨房计时器,并未成为亚马逊预期的摇钱树。尽管公司曾估计美国超过四分之一的家庭拥有至少一台 Alexa 设备,但如果亚马逊能够利用这一市场渗透率,吸引一部分用户为升级版 AlexaGPT 付费,这个举步维艰的业务或许能实现盈利,为崇尚节俭的公司赢得一席之地。若无法达成目标,Alexa 可能会成为消费电子历史上最大的失败之一,与微软在智能手机领域的挫折相提并论。
技术瓶颈与管理困境
部分员工将 Alexa 的困境归咎于官僚主义和冗余管理,而 Jassy 正在努力解决这些问题。(在 9 月 16 日的一份公司内部备忘录中,他批评了不必要的“为决策会议准备的预会议的预会议”。)也有内部人士认为,这是亚马逊以往成功的战略出现了问题——这种战略依赖于保持先发优势,比如 Prime、Kindle 和 Jassy 负责 18 年的 AWS 服务。亚马逊也以迅速反击而闻名,成功打败了 eBay 和 Netflix 等竞争对手。即便是 Alexa,最初也是靠超越苹果 Siri 而赢得市场的。
现任和前任员工表示,这次情况有所不同,因为 Jassy 尚未为 AI 驱动的 Alexa 提供一个令人信服的愿景。许多人认为项目仍需大量修正,并对最终产品能否在市场上众多 AI 应用中脱颖而出持怀疑态度。没有一贯的先发或第二梯队优势,亚马逊的最大希望可能是推出 ChatGPT 的第 13 个版本。一位曾为公司电商引擎改进 AI 的高级工程师表示,贝索斯时代,亚马逊员工相信自己在构建一个千年公司。而现在,这位工程师认为,亚马逊似乎在艰难追赶。
Alexa 的诞生源于贝索斯在 2011 年对产品团队提出的一个大胆设想:“打造一款售价 20 美元、依托云端处理、完全由语音控制的设备。”这一年,苹果发布了 Siri,而贝索斯的这一请求让研究人员踏上了为期三年的探索之旅,试图开发出一种能够精准识别特定关键词(如“Alexa”)的声学检测技术,并准确识别语音模式,进行相应回复。
贝索斯向股东推介 Alexa 时称其为“AI 助手”,但当时的 Alexa 并不是真正的“AI”,至少不像今天的 ChatGPT、微软的 Copilot 或谷歌的 Gemini 那样具备强大的解释和生成能力。最初,Alexa 部分基于规则系统,按照逻辑对上下文相似的问题进行匹配,无法即时生成长篇回答或分析复杂的数学问题。但无论用户询问天气如何、是否会下雨,还是需要一把伞,Alexa 都能理解用户很可能是在询问当天的天气预报。
这种设计思路是提升 Alexa 智能水平的核心。由于其知识结构存储在互联网服务器上,亚马逊可以不断为其提供新的数据集和问答模板。早期的训练过程甚至包括雇佣专业演员在测试音箱前朗读台词,并为其编写脚本化的回答。
最终,这款售价 180 美元的 Amazon Echo 于 2014 年末发布,外形为一根黑色圆柱形设备,高度大约和一罐网球罐相当。尽管评论者起初感到困惑,但 Alexa 凭借即刻可用的特点迅速走红。与 Siri 需要按下 iPhone 按键才能启动不同,Alexa 是一款可放置在客厅、完全免提操作的独立设备。
不久之后,Echo 的销量突破百万,亚马逊负责 Alexa 软件的设备部门开始计划推出大量低成本替代品。贝索斯以其精打细算著称,但对这个项目信心满满,为这一拥有 1000 名员工的部门提供了充足的资源和高度自主权。一名前招聘经理表示,招聘人员甚至鼓励那些本来打算去其他部门的工程师加入 Alexa 团队。当时的设备主管 Dave Limp 对 Bloomberg 表示:“当时没有其他公司在做这些产品。谷歌尚未推出类似产品,苹果也还没有涉足这个市场。”
用户体验的全新特性让亚马逊不得不为 Alexa 提供一些特别的互动指南。例如,他们建议用户可以让 Alexa 播放音乐、阅读新闻,甚至问它“生命的意义是什么”。当然,对于这个带有戏谑意味的问题,Alexa 无法给出哲学性回答,但工程师们为其编写了一系列幽默的反应,让 Alexa 显得颇具个性。亚马逊表示,Alexa 基于一种意图预测系统,结合了深度学习和自动化语言处理技术来不断提升服务水平。
维护和扩展 Alexa 的问答库极其耗费人力。为提升 Alexa 的语音识别能力,亚马逊雇佣了大量员工来转录那些被误解的“语音片段”,并手动教会 Alexa 正确的理解方式。同时,由科学家 Rohit Prasad 领导的机器学习团队也在不断扩展新的“领域”,例如实时提供体育比分,或在机顶盒上搜索电视剧等。
接下来的几年里,为了抢占语音市场的每一个角落,Limp 将 Alexa 嵌入到各种五花八门的低成本硬件中,包括床头的小音箱、支持语音的灯泡、时钟、烤箱等。在 Prime 大促期间,有些 Echo 设备售价低至 14.99 美元。2019 年,Limp 甚至推出了带麦克风的智能眼镜和戒指,让用户能随时随地与 Alexa 对话。尽管这些设备常常以成本价甚至亏本销售,但一种名为“下游影响”(DSI)的灵活指标证明了这些投入的合理性。理论上,用户购买的 Alexa 设备越多,未来的 DSI 值也会越高,这意味着用户未来在购物、Prime 会员增值服务、音乐流媒体和家庭安全服务上的支出将增加。
这种“意大利面条战术”的硬件战略确实取得了一定成果,帮助亚马逊售出了超过一亿台 Alexa 设备。但这也让软件工程团队陷入困境。据三位知情人士透露,团队不断被迫偏离长期产品路线图,去为各种设备设计定制化功能和回答模板。更糟糕的是,Alexa 的“僵硬思维”导致用户需要在配套应用上进行繁琐的手动配置,并且语音指令生硬,不符合一些在超级碗广告中宣传的“炫酷”功能,例如通过 Echo 直接拨打电话给朋友。
尽管 Prasad 的团队开发了自动化学习工具,但需要在各个高度分散的团队间进行大量微调。一些团队从类似维基百科的“知识图谱”中挖掘答案,这是亚马逊几年前从一家聚合公共数据的初创公司收购的。另一些团队则专注于从网络中获取外包答案,以及针对特定领域的其他需求。Alexa 的“大脑”实际上被分割成多个部分,分布在世界各地的亚马逊实验室。这种割裂的工作模式反映在 Alexa 的回答中:每次用户提问时,Alexa 会生成多个不同的竞争性答案,并在瞬间选择出最相关的一个进行回复。
部分资金和人力资源的分配取决于这些“大脑”中哪个部分提供了更高比例的回答,形成了“适者生存”的竞争机制。一位前 Alexa 高管表示,一些团队会每周密切追踪自己领域的流量数据,以确保不会落后于竞争对手,从而避免被淘汰。这种资源争夺导致了混乱,强化了亚马逊内部本已激烈的竞争文化。亚马逊表示,公司始终投资于对客户最有利的领域,并否认团队之间存在此类竞争。公司还称,在资源分配时考虑的因素远不止领域回答量。
到 2020 年,Alexa 管理层开始质疑其 DSI 指标的准确性,因为这并未能如预期般将软件转化为盈利业务。尽管这个部门拥有约 1 万名员工,但这些设备的售价仅能让亚马逊实现收支平衡,而尝试通过数字收入获利的计划也纷纷失败。Alexa 的交互体验过于生硬,不适用于更高级的应用场景。即便增加了对第三方开发者的支持,用户可以下载“技能”来获得定制的语音体验(例如瑜伽课程、烹饪食谱、Jeopardy!问答等),大多数技能仍然只是免费的噱头。
亚马逊自身的收入尝试也未能取得成功。Alexa 的一个核心承诺是鼓励用户通过语音购物,但这并未成为主流。尽管公司表示,超过一半的 Echo 用户曾使用设备进行购物,但 Alexa 的老员工指出,这类统计包括了如创建购物清单等简单操作。员工们表示,随着疫情后世界重新开放,消费者重回实体店购物,DSI 指标的审查变得更加严格。
据两位知情人士透露,Jassy 详细审查了设备业务的财务状况,并仔细检查了 Alexa 的各项指标,发现即使排除亚马逊其他业务的影响,Alexa 的表现仍然极为令人失望。(《华尔街日报》今年早些时候报道了 Jassy 的财务审查。亚马逊表示,Alexa 的未来机会比当前任何财务报表上显示的都要大,并且 Jassy 对团队的长期业务潜力充满信心。)情况需要改变。
迎战 ChatGPT
2022 年 11 月 30 日,ChatGPT 改变了游戏规则。OpenAI 的聊天机器人使用大语言模型(LLM),系统被喂入了大量数据,包括书籍、文章和在线评论,以输出最佳回答。这种全新的架构比 Alexa 更为先进,具备惊人的对话能力和创造性问题解决能力。ChatGPT 可以进行自然的对话,甚至在没有预设回答的情况下,探讨“生命的意义”。突然间,亚马逊意识到自己在 AI 助手领域已经落后了好几年。
值得注意的是,OpenAI 的发布并没有像在谷歌那样引发“红色警报”时刻。谷歌的高管立即调集人马,集中力量发展生成式 AI,意识到这对其核心搜索引擎构成了生存威胁。而在亚马逊内部,反而充满了对 AI 进步可能带来机会的巨大兴奋感。不过就在两周前,亚马逊宣布了大规模裁员,许多裁员对象是亏损的设备与服务部门的员工。Jassy 告诉员工,由于经济不确定性,公司将冻结招聘,他们必须在资源有限的情况下完成更多工作。
随后,ChatGPT 在短短几个月内迅速走红,活跃用户突破 1 亿,并于 2023 年 2 月推出了每月 20 美元的付费订阅服务。亚马逊内部感到,Alexa 需要紧急升级。这并非亚马逊第一次尝试开发对话模拟器。2020 年,亚马逊曾推出名为“Alexa Conversations”的功能,允许用户与 Alexa 闲聊,例如讨论电影推荐,而不仅仅是提供来自子公司 IMDB 的数据。然而,这项功能依然依赖模板和预设答案库。
亚马逊表示,从那时起,Alexa 开始逐步整合早期的大语言模型,包括 2021 年推出的“Alexa Teacher Model”,旨在提升其学习能力。工程师们也尝试在现有数据库之上叠加较为原始的模型,希望让助手变得更加健谈。但据三位知情人士透露,这项工作并非优先事项,Alexa 团队中的许多人甚至在 ChatGPT 推出前从未听说过大语言模型。一位前 Alexa 产品负责人表示,他们从未听到有人谈论 LLM,直到 ChatGPT 出现后才开始关注。
随着亚马逊开始开发与 ChatGPT 相当的 LLM,如何将 Alexa 的“大脑”迁移到这一新框架上成为了巨大的挑战。一些员工戏称,Alexa 更像是自动电话语音系统而非真正的 AI。转向预训练的 AI 模型意味着 Alexa 可以自主处理复杂得多的问题,但也可能导致其在基本任务上失去可靠性,例如设定厨房计时器或从数据库中提取特定答案。比如,2023 年夏天 Jassy 测试 Alexa AI 原型时,它无法即时提供准确的足球比分,因为系统连接的是通用语言模型,而非实时体育信息。一些为 Jassy 开发 AI 演示的团队还试验了 Meta 公司的 Llama 模型,这些模型比亚马逊自己的更为先进。
Prasad 的团队从 Limp 的设备部门独立出来,直接向 Jassy 汇报,不再受限于硬件策略。(Limp 后来离职,接管了贝索斯的太空探索公司 Blue Origin。)Alexa 团队获得了广泛的授权,可以构建基础模型供其他亚马逊团队使用,也可以由 AWS 云服务部门进行销售。新团队的宏大目标从新的命名中可见一斑:通用人工智能(Artificial General Intelligence)。
2023 年 9 月,亚马逊在弗吉尼亚州阿灵顿的新办公大楼举办了产品发布会,展示了这项工作的成果。现场演示中,使用的是 Jassy 私下测试过的同一款 Echo Show 设备,Alexa 轻松地与用户对话,讨论海鹰队的表现、下一场比赛,推荐烧烤菜单,甚至帮忙制作邀请函。“这感觉就像在和真人对话,”Prasad 自信地在台上说道。用户需要说出“Let’s chat”来开启这一新模式,系统会在体验准备好后通知用户。
尽管媒体反响不错,但亚马逊内部越来越清楚,2024 年初的发布计划可能无法实现。Alexa 的响应速度较慢,还面临 AI“幻觉”问题。两位项目参与者表示,测试版用户的满意度评分很低,回答听起来生硬,实用性不强,而且 Alexa 现在在一些智能家居集成上表现不佳。新的 AI 架构有时会过度思考问题,惹恼了用户。一位前 Alexa 高管形容道:“就像你问今天的气温,它却回答‘81.0583°’一样。”
一向严谨且冷静的 Prasad 在每周的进度会议上开始表现出压力。一位长期合作的同事表示,讨论的重心从 Alexa 的长远愿景转移到对下属施压,要求尽快实现新功能。这位同事称,从未见过 Prasad 如此焦虑,并且他的指导意见常常变成“直接发布”。亚马逊则表示,Prasad 领导下的 Alexa 团队在语音和语言技术方面取得了突破性进展,他是实现公司 AI 愿景的最佳人选。
最近几个月,内部测试人员发现,Alexa 的 AI 水平仍远逊于 ChatGPT。尽管他们仍在审核对话记录以改进 Alexa,但现在的训练方法更加复杂。与以往简单的问答脚本不同,他们现在要审查 Alexa 对问题的多层次分析,检查其对问题的观察、回答思路,以及回答的质量。对话数据被记录在电子表格中进行跟踪。
从技术上来说,Alexa 变得更“聪明”了,但并不一定更“明智”。一位测试人员表示,持续出现的 AI“幻觉”并非总是错误的,但往往是不必要的,仿佛 Alexa 在炫耀自己新获得的能力。比如,之前如果你问 Alexa 贾斯汀·汀布莱克和珍妮·杰克逊在哪场中场秀上表演,它可能会回答“2004 年超级碗”。而现在,它很可能会补充一大段关于“服装事故”的详细解释。
另一位测试专家表示,某些拟定的问题——比如让 Alexa 帮忙写求职信或调试计算机代码——根本不适合语音助手。这类请求需要键盘和屏幕,而不是免提的 Echo 设备。专家猜测,这些请求可能是来自应用程序版的 Alexa,可以接受输入问题,而不仅仅是语音指令。无论如何,这位测试人员被要求将回复限制在 30 秒内,以免让用户感到不耐烦。他表示,测试过程就像在批改糟糕的作业一样。
在某种程度上,Alexa 赶上 ChatGPT 的最大机会——数百万消费者手中的设备——也成了它最大的负担。用户在使用 ChatGPT 时,预期它会出错。而如果亚马逊开启 LLM 模型,而 Alexa 开始说出一些激进的回答,对于大量使用 Echo 设备的儿童和家庭来说,这可能会成为 Jassy 的一场灾难。
虽然亚马逊正在开发自己的 LLM 模型,但一位前 AI 工程师表示,最近 Alexa 团队更多地依赖于法国的 Mistral AI 和位于旧金山的初创公司 Anthropic 的模型。亚马逊已在 Anthropic 上投资了 40 亿美元。(亚马逊表示,没有单一的模型适用于所有用例,团队利用 AWS 上的多种 LLM 模型来满足需求。)此外,Jassy 还从微软挖来了产品主管 Panos Panay,他负责微软的 Windows 硬件和 Surface 笔记本系列产品,接管了亚马逊的设备部门。据两位知情人士透露,Panay 为团队带来了对高品质设计的关注,而此前的团队更擅长制造实用型设备。
尽管 Jassy 推动亚马逊工程师加快将生成式 AI 融入更多产品中,但他在内部和公开场合都表示,这项技术仍处于早期阶段。市场竞争格局尚未完全成形。西雅图的高管们看到 Humane Inc. 和 Rabbit Inc. 等公司将 LLM 驱动的助手与个人设备结合的早期尝试均已失败。苹果公司也与亚马逊类似,并未被视为消费者 AI 领域的领军者,最近才开始将 AI 元素融入 iOS 移动平台。AI 升级版 Siri 预计要到明年才会推出,而即便新款 iPhone 销量在这个假日季有所下滑,iPhone 依然不会退出市场。
不过,亚马逊的高层意识到,消费者可能会迅速放弃 Echo 设备,转向更好的产品。据三位接近公司的人士透露,亚马逊或许只有一次机会重新向世界展示 Alexa。因此,公司暂时保持低调。这是自 2017 年以来,亚马逊第一次没有在 9 月的 Alexa 发布会上推出重磅新品。相反,Panay 在 10 月主持了一场发布会,介绍了新版 Kindle 产品线。
与此同时,那些去年秋天申请体验“Let’s chat”功能的用户,至今仍在等待与新版 Alexa AI 对话。公司已停止邀请用户参与升级体验,转而建议他们继续使用基础功能。如今,当用户要求聊天时,Alexa 回复道:“您可以问我问题,或让我做一些事情,例如设置计时器、播放音乐、开启连接的灯光等。”
[1] Alexa’s New AI Brain Is Stuck in the Lab,https://www.bloomberg.com/news/features/2024-10-30/new-amazon-alexa-ai-is-stuck-in-the-lab-till-it-can-outsmart-chatgpt?srnd=phx-technology