👇关注公众号后设🌟标,掌握第一手AI新动态
本文内容整理自AWS CEO Matt Garman在Amazon Web Services的演讲,公开发表于2024年12月04日。原始内容参考:https://www.youtube.com/watch?v=LY7m5LQliAo
关于re:Invent大会上发布的新AI芯片Trainium-2的详细信息和发布会实况,可以点击查看瓜哥昨天的文章:Trainium-2发布
AWS CEO马特·加尔曼在AWS re:Invent 2024大会上的主题演讲(节选AI相关部分)
★内容导读:
关于Amazon Bedrock:
生成式AI推理将成为每个应用程序的核心构建模块: Bedrock旨在成为构建和扩展生成式AI应用程序最简单的方法,它提供从概念验证到生产应用所需的一切。 多模型支持: Bedrock支持多种模型(如Llama、Mistral、Anthropic等),满足不同客户的需求和用例。 模型蒸馏功能: 新推出的模型蒸馏功能,可将大型模型的速度提升500%,成本降低75%。 知识库(Knowledge Bases): 简化了将企业数据集成到模型中的过程,实现检索增强生成(RAG),提供更相关、准确、个性化的响应。 Bedrock Guardrails(护栏): 允许用户定义应用程序的安全性,实施负责任的AI检查,限制模型的输出范围。 自动化推理检查: 通过自动化推理技术,验证模型的事实陈述准确性,减少幻觉(hallucinations)问题,确保关键任务应用的准确性。 Bedrock Agents及多代理协作: 支持构建跨越多个系统执行复杂任务的代理,并支持多代理之间的协作,极大提升效率。 亚马逊内部生成式AI应用案例:
客户服务聊天机器人: 生成式AI提升了客户满意度。 卖家产品上传工具: 简化了卖家上传商品的过程。 库存管理: 利用Transformer模型提高了库存预测准确性。 Sparrow机器人: 生成式AI提升了分拣机器人的效率。 Rufus购物代理: 提供个性化的购物体验,类似于实体店销售人员的服务。 Alexa语音助手: 利用基础模型重新构建Alexa,提升其理解和预测用户需求的能力。 Amazon Lens: 利用计算机视觉识别商品。 Prime Video Next Gen Stats: 提供更深入的体育赛事分析。 关于Amazon Nova:
亚马逊自研的新一代基础模型: 提供文本和多模态(文本、图像、视频)功能。 高性价比和低延迟: 比Bedrock中其他领先模型便宜约75%,延迟更低。 与Bedrock深度集成: 支持微调、知识库、代理等功能。 包含四个版本: Nova Mini、Lite、Pro和即将推出的旗舰版,满足不同需求。 Amazon Nova Canvas (图像生成): 提供高品质图像生成和编辑功能。 Amazon Nova Reel (视频生成): 提供影棚级品质的视频生成功能。 关于Amazon Q Developer:
强大的生成式AI软件开发助手: 大幅提升开发人员效率,提高代码质量。 新增三个自主代理: 自动生成单元测试、文档和代码审查。 与GitLab深度集成: 将Q Developer功能集成到GitLab平台中。 用于Java和.NET应用程序的转换功能: 自动化Java版本升级和.NET应用程序从Windows到Linux的迁移。 用于VMware和大型机工作负载的转换功能: 简化了VMware工作负载的云原生现代化和大型机迁移。 简化AWS环境问题排查: 分析CloudWatch和CloudTrail数据,帮助发现和解决问题。
演讲节选
马特·加尔曼: 如今,当您听到许多客户谈论生成式AI时,他们会专门讨论其应用。但是,我相信推理将成为每个应用程序的一部分。不会有分歧;每个应用程序都将以某种方式使用推理来增强、构建或真正改变自身。为了实现这一点,您需要一个能够大规模提供推理的平台。您需要工具来帮助将其集成到您的数据中,同时还要考虑性能、安全性和成本。
这就是我们构建Bedrock的原因。Bedrock是构建和扩展生成式AI应用程序迄今为止最简单的方法。Bedrock的一个特别有益且能引起客户共鸣的功能是,它提供了将生成式AI集成到生产应用程序中所需的一切,而不仅仅是概念验证。客户开始从这种方法中看到实际的影响。
让我们以Genentech为例。他们是一家领先的生物技术和制药公司。他们正在研究如何利用大量的科学数据和AI来加速药物发现和开发,从而快速识别和靶向用于试验的新药和生物标志物。
但是,查找所有这些数据需要科学家仔细查阅大量的来源,例如包含3500万篇不同生物医学期刊的PubMed图书馆、像人类蛋白质图谱这样的公共资源库,以及他们自己的内部数据源,其中包含数亿个具有相关数据的细胞。
借助Amazon Bedrock,Genentech设计了一个生成式AI系统,科学家可以使用该系统向数据提出详细的问题。他们可以询问数据哪些细胞表面受体在炎症性肠病特定细胞中富集,我相信你们许多人肯定都很想知道这个问题的答案。
对他们来说,这至关重要,因为该系统可以从这个巨大的数据库中识别出合适的论文和数据,并综合所有见解和数据来源。它会总结信息来源并引用来源,这对于科学原因和可追溯性都非常重要。他们拥有可以用来开展工作的数据。
过去,Genentech的科学家需要花费数周时间才能完成一次这样的查找,而现在只需几分钟就能完成。Genentech预计将自动化近五年的手动工作,并最终更快地向客户提供新药。
现在,每天有数万名客户将Bedrock用于生产应用程序。仅去年一年,增长率就接近5倍。而且不仅仅是直接使用AWS的客户。许多世界领先的独立软件供应商(ISV),如Salesforce、SAP和Workday,都将Bedrock深度集成到其客户体验中,从而为所有最终客户提供生成式AI应用程序。
那么,为什么每个人都在使用Bedrock呢?部分原因是我们观察到,并非每个人都只想要使用一种模型。人们希望利用许多不同的模型。一些客户想要像Llama或Mistral这样的开放权重模型,以便他们可以自定义。一些客户应用程序需要像Stability或Titan提供的图像模型。许多客户非常喜欢使用最新的Anthropic模型,许多人认为这是目前市场上用于通用智能和推理的性能最佳的模型。
然而,这是一个创新速度非常快的领域。几乎每周都会发布新版本,其中包含新的功能、新的模型、新的更新和新的成本。尽管有所有这些创新和大量可用的模型,但找到适合您用例的完美模型仍然出乎意料地困难。通常,您真正需要的是与您的目标相匹配的专业知识以及延迟和成本的最佳组合。但是,要实现这种平衡可能具有挑战性。
有时,您会遇到一个具有正确专业知识的模型——它是一个功能强大的模型,性能良好——但它比您想要的更昂贵,并且可能比您的应用程序所需的运行速度慢一些。另一方面,您可能会发现一个更快、更便宜的模型,但它不具备您需要的功能。
人们解决这一挑战的一种方法是通过称为模型蒸馏的过程。模型蒸馏包括使用一个大型前沿模型;例如,一个Llama 405b模型。您向这个功能强大的模型发送所有提示和您可能想提出的问题。然后,您将所有生成的数据和答案以及问题一起用于训练一个较小的模型,在本例中为Llama 8b模型,使其成为正确回答这组特定问题的专家。
这种方法可以有效地生成一个更小、更快的模型,该模型能够很好地回答这些特定问题。但是,这需要机器学习专家,因为它涉及管理数据工作流、监督训练数据、调整模型参数以及考虑模型权重。这个过程相当具有挑战性。
我们希望使所有这些都更容易。因此,今天我很高兴地宣布Bedrock中的模型蒸馏功能。蒸馏后的模型比之前的模型运行速度快500%,成本低75%。这是一个巨大的差异,而Bedrock会完全为您完成所有操作。这种成本差异实际上有可能彻底改变投资回报率,因为您正在考虑生成式AI应用程序是否适合您。它将从过于昂贵以至于无法在生产中推出转变为对您真正有价值。而Bedrock会为您完成所有这些工作。您只需向Bedrock发送来自您应用程序的样本提示,它就会完成所有工作。
最终,您将获得一个定制的蒸馏模型,它在专业知识、延迟和成本之间取得了恰当的平衡。但获得合适的模型仅仅是第一步。生成式AI应用的真正价值在于,将您的企业数据与智能模型结合起来。这时,您才能获得真正差异化且有趣的结果,这些结果对您的客户至关重要。您的数据和知识产权才是真正的差异化因素。
将您的数据集成到模型中最流行的方法之一是检索增强生成(Retrieval Augmented Generation,RAG)技术。这项技术可以帮助您的模型提供更相关、更准确、更个性化的响应,这些响应基于您的企业数据。今年早些时候,我们在Bedrock中推出了知识库(Knowledge Bases),这是一个托管的RAG索引。
知识库的功能是自动化所有数据摄取、检索和增强工作流程,因此您无需自行将这些组件整合在一起;它是完全托管的。您只需将知识库指向您的数据源,我们就会自动将其转换为文本嵌入,然后将其存储在向量数据库中,以便您随时使用。所有检索结果还将自动包含引用,以便您知道信息来源,从而提高您的理解水平。
知识库是Bedrock中最受欢迎的功能之一,我们一直在添加大量新功能。我们扩展了对各种格式的支持,并添加了新的向量数据库,例如OpenSearch和Pinecone支持。
好的,如您所见,Bedrock现在正在构建这些工具,对吧?它允许您获得合适的模型,允许您引入自己的企业数据。接下来,您需要能够设置应用程序的功能边界以及响应的外观。
为此,我们推出了Bedrock Guardrails(护栏)。Bedrock Guardrails使您可以轻松定义应用程序的安全性并实施负责任的AI检查。它们基本上是您模型的指导方针,您可以只允许您的生成式应用程序讨论相关主题。
例如,假设您有一个保险应用程序,客户会询问您提供的各种保险产品。您可以允许它回答有关保单的问题,但您不希望它回答有关政治问题或提供医疗建议,对吧?您希望设置这些护栏,规定“我只希望你回答这个特定领域的问题”。
当您考虑构建生产应用程序时,这是一个巨大的能力。这就是Bedrock如此受欢迎的原因。如果您还记得去年,许多人都在构建概念验证,而这些事情并不那么重要。模型只需要完成一些很酷的事情就可以了。现在,当您真正将这些技术深度集成到您的企业应用程序中时,在转向生产应用程序时,您需要具备许多这样的功能。
但是,实际上阻止人们将生成式AI应用到实际生产中(也就是那些关键任务中)的原因是,还有一个问题让很多人担忧,那就是幻觉(hallucinations)。因为实际上,尽管当今的模型已经很优秀,但有时它们也会出错。
因此,如果您在去年或前年做了一个概念验证,90% 的准确率是可以接受的。但是,当您在生产应用程序中真正深入细节时,这就不行了。
让我们以保险为例。假设您早上走进浴室,发现漏水了,地板上全是水。所以您访问您的保险公司网站,想知道这是否包含在您的保险范围之内,对吧?
作为保险公司,如果您有人询问某个事件是否包含在他们的保险范围之内,您需要准确地回答这个问题。您需要正确地回答它。在这种情况下,您不能出错。
因此,我们让亚马逊的一组人员思考,我们是否有任何可以应用于更新、不同方式的技术来帮助我们解决这个问题?该团队研究了各种不同的技术,其中一种叫做自动化推理(automated reasoning)。自动化推理实际上是一种可以证明某些东西在数学上是正确的AI形式,它通常用于证明系统按照规范工作。
当您需要处理表面积非常大、无法手动检查的内容,并且拥有关于系统工作方式的知识库时,自动化推理非常有效。当您必须确保答案正确时,它尤其有用。现在,事实证明,在亚马逊AWS,我们拥有世界上一些最优秀、最深入的自动化推理专家。我们在AWS幕后使用了许多服务中的自动化推理。例如,我们使用自动化推理来证明您在IAM策略中定义的权限和访问是否按照您的预期实现。我们将这种方法称为可证明安全性(provable security)。
在S3中,我们实际上使用自动化推理来自动检查构成S3存储系统大部分的软件中的场景。我们在部署之前使用自动化推理来检查这些场景,包括验证对意外事件的正确响应等内容。我们这样做是为了确保我们不会对可用性或持久性造成风险,并且所有这些都得到保护。我们在许多不同领域都使用了它。
因此我们想,这项技术是否有可能帮助我们提高模型的正确性?剧透一下:既然我现在正在台上谈论这件事,答案显然是肯定的。因此,今天,我很高兴地宣布亚马逊Bedrock自动化推理检查。
自动化推理检查可以防止由于模型幻觉导致的事实错误。因此,当您实施这些自动化推理检查之一时,Bedrock实际上可以检查模型做出的事实陈述是否准确。此过程完全基于可靠的数学验证,并且会准确显示它是如何得出该结论的。
让我们再次以保险为例。作为保险公司,您决定实施自动化推理检查。您需要上传所有保单。然后,Bedrock内部的自动化推理系统会自动开发规则。
接下来,您将经历一系列迭代过程(通常需要大约20到30分钟)来调整正确的响应。这确保系统能够准确地说出它是如何工作的,或者向您提出问题,以便它真正理解这些保单是如何运作的。
让我们回到我之前提到的浴室漏水例子。自动推理可以查看结果,如果模型不确定答案是否正确,它会将结果送回,并建议其他提示,或者为客户提供如何将这些问题反馈给模型的建议。只有在自动推理检查确认答案正确后,才会将结果发送给客户。这样,您可以100% 确信向客户发送的是准确的结果。这是其他任何地方都无法获得的功能,我们认为这将真正帮助客户开始将推理融入关键任务应用程序中。
现在,客户从当今的生成式AI用例中获得了巨大的价值。我们认为,许多这些功能帮助他们将这些解决方案添加到更多应用程序中。如今,业界对此一片热议,我们也同意:价值的下一个巨大飞跃不仅仅在于获取优秀的数据,还在于采取行动并利用这些数据做些什么。为此,我们推出了Bedrock Agents。
Bedrock 使构建能够跨越贵公司所有系统和数据执行任务的代理变得非常容易。通过使用 Bedrock,您可以仅使用自然语言描述您希望它们执行的操作来快速创建代理。然后,代理可以处理诸如处理销售订单、编制财务报告或分析客户保留数据等任务。在幕后,我们采用了模型推理来分解工作流程,使代理能够调用正确的 API 并执行您需要的操作。
目前,这些代理在可以完成特定目标的简单、孤立的任务方面运行良好。这很有价值,客户已经从 Bedrock代理中获得了显著的益处。但是,我们收到的反馈表明客户想要更多。他们希望能够执行跨数百个不同代理的复杂任务,并并行运行这些代理。这种级别的协调极其具有挑战性,并且在现有设置下几乎不可能实现。
为了说明这一点,让我们以经营全球咖啡连锁店为例。假设您想创建多个代理来分析开设新门店的风险。您可以开发一个代理来分析全球经济因素,另一个来检查相关的市场动态,也许还有一个来为独立门店建立财务预测。总而言之,您可能会创建十几个代理来收集有关某个地点的各种信息。虽然这种方法提供了宝贵的见解,但在代理报告后,您仍然需要整理他们的发现,评估它们如何相互作用,以及确定它们在各个地区的比较情况。
总而言之,这是可控的。但是,您可能不会孤立地看待一个地点。您可能想查看咖啡连锁店数百个潜在的地点以及这些不同的地理区域。当您这样做时,事实证明所有这些代理可能并不孤立地工作。代理 A 可能拥有与第二个代理相关的有用信息,因此您实际上希望它们相互交互并共享信息。
如果您考虑数百个代理都需要交互、返回、共享数据、再返回,这就会变得非常复杂。突然之间,管理系统的复杂性激增到完全无法管理的地步。如果您可以使其工作,它将非常有价值,但实际上很难实现。因此,今天我宣布 Bedrock Agents 支持多代理协作。
现在,Bedrock 代理可以支持复杂的工作流程。就像之前的例子一样,您创建一系列专为您的特殊和个性化任务设计的单个代理。
然后,您创建这个主管代理。它有点像复杂工作流程的大脑。它配置哪些代理可以访问机密信息。
它可以确定是否需要按顺序启动任务,或者是否可以并行执行。如果多个代理返回信息,它实际上可以打破它们之间的联系,并将其发送去做不同的任务。
它确保所有这些协作都针对您所有专业的代理。
让我们举个例子。我们实际上与穆迪公司合作使用了该功能的早期测试版。穆迪公司是领先的金融分析和风险管理服务提供商。当他们在 Bedrock 中测试这种多代理协作时,他们用它为一个与我们的咖啡连锁店示例非常类似的应用程序提供概念验证——一个可以为他们的客户生成全面的财务风险报告的应用程序。
现在,事实证明,在这个概念验证之前,这个工作流程需要他们的一个代理或一个员工大约一周才能完成。他们使用这个多代理协作运行了这个概念验证,并且能够在一小时内完成相同的任务,并且能够无缝地将其扩展到任何数量的公司。这是一个巨大的效率提升。Bedrock 将几乎不可能的协调工程任务变得简单易行,这就是我们正在做的事情。
看看,我们仍然处于生成式 AI 的早期阶段,对吧?我们已经开始看到一些令人难以置信的体验。您今天已经看到了一些,它们是使用推理构建的。这些体验正在作为各种应用程序的核心组成部分构建,所有这些都由 Bedrock 提供支持。为什么?因为 Bedrock 为您提供了所有最好的模型、合适的工具和功能,其中许多是您在其他任何地方都无法获得的。Bedrock 是唯一可以实现这些改变游戏规则的结果的地方。
当然,您使用的一切都是从头开始构建的,以确保隐私和安全。请记住,您的数据和知识产权是让您与众不同的因素,因此保持其安全和访问权限私密至关重要。这是 Bedrock 从第一天起就被构建为支持的一件事。而且我们还没有完成。
我会告诉您,这只是本周我们宣布的新功能的一个示例。制作这个主题演讲最难的部分之一是弄清楚我能放入哪些 Bedrock 公告。幸运的是,Swami 将在他的主题演讲中讨论更多内容,我鼓励您明天查看。
好的,世界各地的客户正在利用 AWS 来构建具有推理作为核心新构建块的令人难以置信的事物。但我会告诉您,有一家公司可能比任何其他公司都更能利用 AWS 构建块,那就是亚马逊。多年来,AWS 一直是亚马逊创新和扩展的关键组成部分。现在,为了更多地谈论这一点,我很高兴地再次欢迎一位好朋友、云计算的最初教父以及亚马逊首席执行官 Andy Jassy 来 AWS 主题演讲舞台。
安迪·贾西: 谢谢,Matt。很高兴能再次与大家见面,感谢你们的邀请。接下来,我将分享一下亚马逊如何看待人工智能。过去25年里,我们在公司内部广泛应用人工智能。但我们看待技术的方式,包括人工智能,并非因为我们觉得它很酷,而是因为我们试图解决客户的问题。
正因如此,当我们谈论人工智能时,我们更关注的是如何提供更好的推荐和个性化推荐服务,优化我们的零售业务;如何为我们的拣货员和配送中心提供最佳路径,从而更快地将商品送到您手中;这还包括将其应用于我们的Prime Air无人机,我们希望在几年内实现不到一小时的送货;应用于我们的Amazon Go实体店中的“Just Walk Out”技术;应用于Alexa;以及提供25多种AWS人工智能服务,以便您能够基于我们的服务构建出色的应用程序。
我们优先考虑那些我们认为真正对客户有价值的技术。在过去几年生成式人工智能的爆发式发展中,我们也采取了同样的方法。虽然创新层出不穷,但我们努力的目标是为你们解决问题,我们将其视为“实用的人工智能”。我们看到,全球各地的公司在降低成本和提高生产力方面取得了最大的成功。许多公司都在这些方面取得了进展,但你们也开始看到完全重新构想和改造的客户体验。在我们针对生成式人工智能在亚马逊内部构建的应用程序中,我们也观察到了同样的趋势。
接下来,我将举几个例子。以客户服务为例。我们的零售业务拥有数亿客户,他们有时需要联系客户服务。绝大多数客户更喜欢自助服务,这样可以快速便捷地解决问题。几年前,我们开发了一个使用机器学习的聊天机器人,但它使用了静态决策树,客户需要输入大量文字才能获得答案。几年前,我们使用生成式人工智能对其进行了重建。现在,它对客户来说更容易使用了。
例如,假设我几天前订购了一件商品。当我使用新的聊天机器人时,系统知道你是谁,你几天前订购了什么,以及你住在哪里。在这个模型中,我们可以预测,如果你在几天后联系我们,你可能是在联系我们进行退货。当你开始告诉我们这一点时,我们可以快速告诉你最近的实体店(例如Whole Foods)在哪里,你可以在那里退货。该模型也足够智能,可以预测你何时感到沮丧,可能需要联系人工客服来解决问题。
在我们重新设计之前,聊天机器人已经拥有非常高的客户满意度,但自从我们增加了生成式人工智能大脑后,客户满意度又提升了500个基点。这就是实用的人工智能。然后是我们的卖家;我们大约有200万卖家在全球的零售店销售商品,占我们目前销售商品数量的60%以上。他们将产品上传到网站的方式是填写一份非常长的表格,这对卖家来说是一项繁重的工作。
为了解决这个问题,我们使用生成式人工智能构建了一个全新的工具,这样卖家只需要输入几个关键词、拍照或指向一个URL,该工具就会自动填写许多属性。这使得卖家更容易操作,目前已有超过50万卖家正在使用我们的生成式人工智能工具。
最后,考虑一下库存管理。我们在零售业务中需要解决的问题规模巨大。我们拥有超过1000座不同的建筑或节点,我们所做的一切都是为了将正确的产品放在靠近最终客户的配送中心,以节省运输时间,这使我们能够更快、更低成本地将产品送到您手中。
在任何给定时间点,我们需要了解配送中心内的情况,每件商品的库存水平,哪些商品正在被订购以及订购速度,该配送中心是否有更多容量,以及是否需要将库存转移到其他配送中心以平衡整个网络。我们已经使用Transformer模型来解决这些问题并进行预测。到目前为止,我们的长期需求预测Transformer模型的准确性提高了10%,我们还将区域预测准确性提高了20%以上。在我们这个规模下,这些都是显著的进步。
现在,让我们谈谈机器人技术。
我们有超过75万个机器人漫游在我们的各个配送中心,它们都包含各种人工智能技术。但我将以Sparrow为例,它是一个负责分拣的机械臂。如果你从远处观察我们的配送中心,你会看到一个不断从许多不同的分散区域取货并将它们整合到集装箱中的操作,以优化我们的容量和运输工具的使用。Sparrow的作用是从一个货箱中取出商品并将其整合到另一个货箱中。Sparrow中的生成式人工智能需要识别第一个货箱中的物品以及我们想要它拾取的物品。它必须区分不同物品之间的差异,根据物品的大小、材质和柔韧性正确抓取每件物品,并知道将其放置在接收货箱中的哪个位置。这些发明对于我们减少处理时间和降低服务客户成本至关重要。
就在几个月前,我们在路易斯安那州什里夫波特的配送中心引进了五项新的机器人发明。我们已经看到了25%的处理速度提升,我们相信这些人工智能的进步将在假日季带来25%的成本降低。这些例子展示了成本效率和生产力的改进,这些改进正在对亚马逊内部产生切实的影响。然而,我们也见证了生成式人工智能创造的全新购物体验。例如,我将重点介绍一个名为Rufus的购物代理。在考虑购买时,如果您确切地知道自己想要什么,那么在亚马逊上订购并快速送达您的家中,没有比这更好的体验了。
但是,如果您不确定自己想要什么,也很容易通过亚马逊的推荐、评论和浏览节点来浏览商品。然而,走进实体店,与销售人员交谈,让他们提出更具体的疑问来引导您找到潜在商品,这种体验是独一无二的令人满足的。通过Rufus,我们旨在数字化地复制和增强这种体验。您可以访问任何产品详情页面,并直接向Rufus提问,它会立即回复。Rufus还可以跨产品进行比较,提供推荐,并提出更具体的疑问来澄清您的意图。例如,如果您要求Rufus查找您之前订购的高尔夫球手套,它会为您找到。此外,如果您想查看尚未送达的商品的状态,Rufus可以快速提供该信息。与实体销售人员相比,Rufus的优势在于其持续可用性以及随着时间的推移更好地理解您的意图和偏好的能力。
另一个例子是我们的语音助手Alexa。当我们最初提出创建世界上最好的个人助理的目标时,许多人对此表示怀疑,因为这项任务的范围过于广泛。然而,随着大型语言模型和生成式人工智能的发展,实现这一目标的可行性越来越明显。Alexa目前在我们已售出的设备上拥有5亿个活跃节点。由于我们目前正在使用多个基础模型重新构建Alexa的“大脑”,它不仅会改进对您问题的回复,而且还具备目前很少有生成式AI应用程序提供的功能:理解和预测您的需求并有效地满足它们的能力。
除了像Rufus和Alexa这样的智能助手,我们还在使用生成式AI构建新的功能,这些功能正在塑造独特的客户体验。其中一个功能是Amazon Lens。想象一下,您在朋友家做客,很喜欢一个花盆,但您的朋友不知道它是什么牌子的。您可以使用Amazon Lens,而不是在搜索引擎上搜索“悬挂式编织花盆”。只需拍摄该物品的照片,Amazon Lens就会利用计算机视觉和多模态模型进行搜索,引导您在亚马逊上找到合适的商品以便轻松购买。另一个例子是尺码;我们了解在订购服装时尺码会因品牌而异而造成的困扰。我们的大型语言模型会评估不同品牌之间的尺码关系,并考虑您过去的购买记录,从而准确推荐您应该订购的尺码。
此外,我们通过与NFL的深度合作,正在增强Prime Video的客户体验。我们共同开发了Next Gen Stats,每个赛季收集5亿个数据点。由此,我们构建AI模型来创建诸如防守警报之类的功能,该功能突出显示哪个防守队员可能会对四分卫进行闪电突袭,并突出防守中的弱点,以便进攻方利用。这些创新极大地改变了球迷的观看体验。
这些例子只是我们在亚马逊创建或正在开发的近1000个生成式AI应用程序中的一小部分。在此过程中,我们汲取了宝贵的经验教训。一个关键的认识是,随着生成式AI应用程序规模的扩大,计算成本变得至关重要。我们的全球生成式AI应用程序主要依赖于单一类型的芯片,并且对改进价格性能的需求非常强烈。这就是为什么人们对如前所述的Trainium 2等新技术感到兴奋的原因。
构建一个真正优秀的生成式AI应用程序实际上非常困难。这关乎,你知道,你需要一个好的模型,但这不仅仅是模型本身。除了模型,你还必须设置正确的防护措施,并且必须确保消息传递流畅。你还需要合适的UI,并且必须拥有合适的延迟;否则,就会产生非常缓慢、滞后的体验。此外,你还需要合适的成本结构。我认为,在构建这些应用程序时,很多时候你会使用一个很棒的模型,做一些工作,然后认为“我有一个很棒的生成式AI应用程序”,但却发现你实际上只完成了大约70%。现实情况是,客户不会容忍那些有30%缺陷的应用程序。
第三点我想说的是,亚马逊内部使用的各种模型的多样性让我感到惊讶。我们赋予了构建者选择他们想做什么的自由,我认为几乎每个人最终都会使用Anthropic的Claude模型,因为它们是世界上性能最好的模型。这种情况在过去一年左右的时间里一直如此,顺便说一句,我们有很多内部构建者正在使用Claude。然而,他们也在使用Llama模型、Mistral模型、我们自己的一些模型,甚至是自主研发的模型。这让我们有点惊讶,但在某种程度上,我们并不感到惊讶,因为我们一次又一次地吸取同样的教训:永远不会出现一个可以统治所有模型的工具。
这一原则在数据库中一直如此;我们已经讨论了十年了。人们使用许多不同的关系型数据库和非关系型数据库。在分析领域也是如此。我记得六七年前在台上讨论过每个人都认为TensorFlow将成为唯一的AI框架。我们一直说会有很多,事实上确实有很多,而PyTorch最终成为最流行的。模型也是如此。在内部,在我们构建所有这些应用程序的过程中,我们的构建者一直在向我们的模型构建团队提出各种要求。他们想要更低的延迟、更低的成本、能够进行微调,以及更好地协调他们不同的知识库以支持他们的数据。他们试图采取许多自动协调的动作,或者人们所说的代理行为。他们还希望获得更好的图像和视频功能。
我们将这些反馈与我们的模型提供商合作伙伴分享,他们非常乐于接受,但他们很忙。你想要很多东西;有很多事情要做。这就是为什么我们继续致力于我们自己的前沿模型的原因,这些模型在过去四到五个月中取得了巨大进展。我们认为,如果我们从中发现价值,你们也可能会从中发现价值。因此,我很高兴地分享并宣布推出Amazon Nova,这是我们新的最先进的基础模型,它提供了前沿智能和业界领先的价格性能。
因此,在这个智能模型系列中,共有四种版本。首先是微型版,这是一个纯文本模型。这意味着你输入文本,它输出文本。它速度极快,非常经济高效,我们的内部构建者非常喜欢它,因为它可以处理许多简单的任务。然后我们有三种多模态模型。使用这些多模态模型,您可以输入文本、图像或视频,并输出文本。这些模型的规模和智能程度依次递增。微型版、轻量版和专业版目前已普遍可用,而旗舰版将于第一季度推出。
我将分享一些基准测试结果。我们尽可能使用了公开发布的外部基准测试,在无法获得外部数据的情况下,我们自己进行了测试。我们已将方法论发布在我们的网站上,如果您愿意,可以尝试复制它。在微型模型上,您可以看到它是一个非常具有竞争力的模型。如果您查看相对于此类别中领先模型(例如 Llama 和 Google 的 Gemini)的原始数据,它在所有变量上的基准测试结果都优于 Llama,并且在 12 或 13 个变量上优于 Gemini。
当我们进行统计显著性检验时,我们将所有落在 95% 置信区间内的数值视为相等。这样来看(我以后也将采用这种方式),您可以看到,在这些模型中,我们与 Llama 和 Gemini 相比,性能等于或优于所有基准测试。
如果我来看轻量版模型,情况也非常相似,同样具有竞争力。当您将 Nova Lite 与 OpenAI 的 GPT-4o Mini 进行比较时,您可以看到我们在 19 个基准测试中的 17 个上性能等于或优于它;在与 Gemini 的 21 个基准测试中,有 17 个等于或优于它;在 Haiku 3.5 的 12 个基准测试中,有 10 个等于或优于它。Haiku 尚未处理图像或视频,因此我们无法在更多维度上对其进行基准测试,但同样,它是一个非常具有竞争力的模型。
然后,如果您查看专业版,情况也是如此。当您将其与 GPT-4o 进行比较时,它在 20 个基准测试中的 17 个上性能等于或优于它;在与 Gemini 的 21 个基准测试中,有 16 个等于或优于它。此类别中最好的模型是 Sonnet V2 3.5,但即使在这里,您也可以看到我们的专业版模型在大约一半的基准测试中性能等于或优于它。对于那些没有达到相同水平的基准测试,它的性能仍然非常具有竞争力,而且您会欣赏它的成本和延迟特性。
然后是我们的旗舰版模型,它将是我们最大的多模态模型,将于第一季度推出。所以,这就是四个非常具有竞争力、引人注目的智能模型。但我认为您还会喜欢这些模型的其他一些方面。
首先,它们非常经济高效。它们比 Bedrock 中其他领先模型便宜约 75%。
其次,它们速度很快。就延迟而言,它们是您将看到的最快模型。我们还将提供 Peter 昨晚提到的 Nova 模型和 SKU,以及延迟优化的推理 SKU。它们非常快。
然后,它们不仅仅是集成;它们不仅在 Bedrock 中,而且与 Bedrock 中任何模型提供商都可以使用的所有功能深度集成。只是这个团队花了时间去做这些。这意味着您可以进行微调。越来越多的生成式 AI 应用构建者希望使用标记的示例进行微调,以提高应用程序的性能。
Nova 模型也与 Matt 刚才提到的蒸馏功能集成,因此您可以将更大模型的智能融入到更经济高效、延迟更低的较小模型中。它们与 Bedrock 的知识库深度集成,允许您使用 RAG 将答案建立在您自己的数据之上。
此外,我们还优化了这些模型以与您的专有系统和 API 配合使用,使您可以更轻松地使用这些模型执行多个协调的自动步骤和自主行为。
所以我认为这些非常引人注目。我期待您尝试并使用它们。
客户实际上希望在生成式 AI 上做的不仅仅是文本输出。他们对图像和视频也有很多需求。有很多例子,但简单的例子包括广告、营销或交易材料。所以我们努力工作了。这很昂贵。这里没有很多选择。它们不容易自己做。我们努力解决了这个问题。我很高兴地宣布另外两个模型。首先是 Amazon Nova Canvas,这是我们最先进的。
因此,Canvas 允许您输入自然语言文本,并获得精美的高品质图像。它使您可以使用自然语言或文本输入来编辑图像。此外,它还提供颜色方案和布局的控制。
Canvas 还包含许多内置控件,用于负责任地使用 AI,例如用于可追溯性的水印和旨在限制生成有害内容的内容审核。我们将其与该领域的其他最先进参与者进行了基准测试;具体来说,我们将其与通常被认为是两个领导者的模型进行了比较:DALLE 3 和 Stable Diffusion 3.5。
在我们的基准测试中,我们关注最重要的两个变量:图像质量和指令遵循。结果表明,Canvas 在这些维度上都优于 DALLE 3 和 Stable Diffusion 3.5。我们还进行了人工评估,结果相似,这进一步证明这是一个引人注目的模型。
此外,我们很高兴地分享,我们也希望使视频生成变得容易。因此,我们正在推出 Amazon Nova Reel,这是我们最先进的视频生成模型。
因此,同样,对于 Reel,它是影棚级品质的视频。您可以创建真正令人惊叹的视频。它使您可以完全控制摄像机,让您可以进行运动控制,进行平移,进行 360 度旋转和缩放。
它还具有内置的 AI 安全控制,包括水印和内容审核。我们将以生成 6 秒视频的能力推出它,这非常适合许多营销和广告,并在未来几个月内升级到 2 分钟的视频。
我们也对此进行了基准测试。实际上没有多少视频生成服务具有 API,而且没有一个具有自动化基准测试。因此,我们使用人工评估与 Runway(该领域的领导者之一)进行了比较,您将再次看到 Reel 的基准测试结果相对于其他产品更有利。
所以,这就是为您提供的六个新的前沿模型。NOVA 的下一步是什么?首先,该团队将在未来一年中非常努力地开发这些模型的第二代。但我还有一些我想让您抢先了解的内容。首先,我们预计在第一季度为您提供一个语音到语音模型,它将允许您输入语音并快速获得非常流利的语音输出
年中左右,我们将提供一个任何类型数据到任何类型数据的模型。这是一个真正的多模态到多模态模型。您可以输入文本、语音、图像或视频,并输出文本、语音、图像和视频。这将是未来前沿模型的构建和使用方式,我们非常期待能将其提供给您。
那么您可能会问自己,我该如何看待AWS的模型策略?他们与许多模型提供商建立了非常深入的合作关系。他们现在也有一些自己的模型。我会建议您这样思考:我们始终在所有工作中为您提供选择,那就是我们将为您提供任何地方都能找到的最广泛、最好的功能。
这意味着选择。现实情况是,你们所有人都会在不同时间出于不同原因使用不同的模型。顺便说一句,这正是现实世界的工作方式。人类不会只依赖一个人来获得各个领域的专业知识。不同的人擅长不同的事情。
有时您会优化代码,有时会优化数学,有时会优化与RAG的集成,有时会优化智能体需求,有时会优化低延迟,有时会优化成本,大多数时候会优化这些因素的某种组合。在AWS,我们将始终为您提供所有这些因素的最佳组合。
我们认为我们今天已经添加了一些非常有趣的模型,但最棒的是,所有这些模型都可以在Bedrock中使用。您可以根据需要随意组合使用它们,可以进行实验,并可以随时更改。今天以及未来,我们将为您提供这种选择。
好了,我会说,开始行动吧,加油,下面有请Matt回来。
马特·加尔曼: 太棒了。谢谢你,Andy。很高兴他在re:Invent再次回到这里。非常感谢。也很高兴分享亚马逊正在做的一些事情,以及关于Nova模型的事情。我相信你们很多人都很兴奋能够尝试这些Nova模型。
我们在AWS的目标是帮助每个构建者都能进行创新。我们希望让您摆脱繁重的、没有差异化的工作,真正专注于那些使您的构建成果独一无二的创意工作。现在,生成式AI极大地加速了这种能力。它允许您专注于这些部分,并摆脱一些繁重且没有差异化的工作。
现在,我们有多少开发者在现场?请举手。我们有一些开发者。太棒了。我知道今天这里有很多开发者。所以我打算花几分钟时间谈谈我们如何帮助提高开发人员的效率。
去年,我们推出了Amazon Q Developer,它是您的AWS专家,也是最强大的生成式AI软件开发助手。像Datapel这样的客户通过使用Q Developer实现了高达70%的效率提升。他们减少了部署新功能的时间,更快地完成了任务,并最大限度地减少了许多重复性操作。
但这不仅仅是效率问题。例如,FINRA通过使用Q Developer,其代码质量和完整性显著提高了20%,这帮助他们创建了性能更好、更安全的软件。
当我们首次发布时,我们的目标是提供一个优秀的Q Developer编码助手。我们做到了。事实上,Q拥有目前市场上任何多行代码助手报告中最高的接受率。
但事实证明,编码助手只是大多数开发人员在一天中所需工作的一小部分。我们与开发人员进行了交谈,结果发现大多数开发人员每天平均只花一小时编码。仅此而已。其余时间他们都花在了其他端到端开发任务上。
因此,我们考虑了整个开发周期,看看我们还能在哪些方面提供帮助。事实证明,有很多任务占据了开发人员的时间,但这些任务是大多数开发人员并不喜欢做的工作,对吧?例如编写单元测试或管理代码审查。我曾经领导过一个大型开发团队,我很确定我从未见过哪个开发人员喜欢花时间为他们的代码编写优秀的文档。
但这很重要。它并不特别吸引人,但实际上非常重要。它很乏味,很费时,但这是你不想跳过的事情之一。不幸的是,因为它不太有趣,所以有时人们会忽略它,并且做得不好。
因此,今天,我很高兴地宣布作为Q Developer一部分的三个新的自主代理可以提供帮助。宣布用于生成单元测试、文档和代码审查的Q自主代理。
Q现在可以自动生成端到端用户测试。您只需输入/test
,Q就会使用高级代理以及对整个项目的了解来为您创建完整的测试覆盖率。他们的第二个代理可以自动为您创建准确的文档。有趣的是,它不仅适用于新代码;Q代理实际上也可以应用于遗留代码。
因此,如果您遇到一个可能没有被您的同事完美记录的代码库,Q也可以帮助您了解该代码的功能。您现在可以使用代码自动进行代码审查。它将扫描漏洞,标记可疑的编码模式,甚至识别您可能遇到的潜在开源包风险。
实际上,它做的另一件很酷的事情是识别它认为存在部署风险的地方,并建议如何进行更安全部署的缓解措施。我们认为这些代理可以大大减少花费在这些非常重要但可能没有差异化的任务上的时间,并让您的开发人员能够将更多时间花在那些增值活动上。
但同样,这不仅仅是功能问题。您访问Q的位置也很重要。您希望Q在您需要的地方可用。因此,我们在控制台中添加了Q。我们在Slack中提供了Q。它在所有流行的IDE中都可用,例如Visual Studio、VS Code、IntelliJ。从今天开始,我很高兴地宣布Q Developer和GitLab之间新的深度集成。
通过这项新的合作,Q Developer功能将深度嵌入到GitLab流行的平台中。它将帮助增强其Duo Assistant的许多流行方面。您将能够访问Q Developer功能,并且它们将在GitLab工作流程中原生可用。我们将随着时间的推移添加越来越多的功能。我们与西南航空公司和梅赛德斯-奔驰等几家早期客户进行了试用,他们告诉我们,他们非常兴奋能够利用Amazon Q Developer和GitLab的组合。
如果我们想帮助完成完整的开发者生命周期,就不能只关注新应用程序。许多人都知道,很多开发时间并非花在新应用程序上,而是用于管理现有应用程序。实际上,大量的开发者时间都花在了维护、现代化和修补现有应用程序上。而这些都需要付出巨大的努力。事实上,以遗留应用程序升级为例,这些都是耗时数月的巨大工程,而且很多时候都非常复杂且漫长。
QDeveloper 已具备的一项强大功能是自动化 Java 版本升级。它可以将 Java 应用程序从旧版本转换为新版本,所需时间仅为手动操作的一小部分。这项工作是每个开发者都不喜欢做的,但却至关重要。今年早些时候,亚马逊将此功能集成到我们自己的内部系统中,我们有很多需要升级的旧 Java 代码。
使用 QDev,我们迁移了数万个生产应用程序到 Java 17。而且我们只用了很短的时间就完成了。团队估计这为我们节省了 4500 个开发者年的时间。这是一个令人难以置信的节省时间,仅仅通过升级就实现了。而且,由于我们现在运行的是现代化的 Java 应用程序,我们实际上还可以减少硬件使用。因此,我们通过这个过程每年节省了 2.6 亿美元。这让我们开始思考。这太棒了!我想知道还有什么可以帮助我们进行转型。
我非常喜欢询问客户我们如何帮助他们以及他们最大的痛点是什么。我认为你会听到一些有趣的事情。而其中一个很快就会浮出水面的问题是 Windows。客户渴望一个轻松摆脱 Windows 的方法。他们厌倦了持续的安全问题、不断的修补、面临的所有可扩展性挑战,并且他们绝对讨厌繁重的许可成本。但我们今天也认识到,这是很困难的。实际上,今天要从 Windows 迁移到现代化系统并不容易。因此,我很高兴地宣布推出用于 Windows .NET 应用程序的 QTransformation。
现在有了 QDeveloper,现代化 Windows 就变得容易多了。QDeveloper 可以帮助您将运行在 Windows 上的 .NET 应用程序迁移到 Linux,所需时间仅为手动操作的一小部分。QDev 会启动代理,自动发现不兼容性,生成转换计划,并重构您的源代码,并且可以并行地对数百甚至数千个应用程序进行此操作。
事实证明,QDev 可以帮助您将 .NET 应用程序的现代化速度提高 4 倍,完成之后的好消息是,您可以节省 40% 的许可成本。一位客户 Signature IT 是欧洲数字交易领域的领导者,他们非常专注于将他们的遗留 .NET 应用程序从 Windows 迁移到现代化系统。他们真的想从 Windows 迁移到 Linux。我们与他们在 Q Developer 的早期测试版上合作,他们原本估计需要六到八个月才能完成的项目,实际上几天就完成了。这是一个改变游戏规则的时间节省,太棒了!
但是事实证明,Windows 并不是数据中心中唯一阻碍现代化努力的遗留平台。越来越多地,当我们与客户交谈时,他们都希望完全摆脱数据中心。Unabanko、Experian 和 Booking.com 等客户以及数千家其他客户已与我们合作,完全退出他们的数据中心,降低成本,并将团队的精力集中在创新上,而不是运行基础设施。看到这些完整的数据中心迁移,真是太酷了。
然而,我们知道今天很多内部部署的工作负载运行在 VMware 上。事实证明,许多客户实际上很乐意让一部分现有 VMware 工作负载继续运行在 VMware 上,但他们不希望这些工作负载继续运行在他们的数据中心中。他们希望将其迁移到云端。针对这些工作负载,上周,我们宣布了新的 Elastic VMware 服务,使您可以轻松地将 VMware 订阅迁移到 AWS,并在 VC2 之上原生运行完整的 VMware VCF 堆栈。
尽管如此,仍然有很多工作负载(通常在 VMware 上运行)是客户非常希望将其现代化为云原生服务的。我们知道 VMware 长期以来一直深深植根于您的数据中心。由于 VMware 长期存在于此环境中,因此最终会形成一种相互关联的应用程序的“意大利面条式”混乱局面。现代化最困难的部分是找出这些应用程序的依赖关系。迁移容易出错,因为很难判断移动某些内容是否会破坏其他内容,当然,许可成本也很高。
我们很高兴今天宣布推出用于 VMware 工作负载的 QTransformation。现在,Q 可以帮助您轻松地将运行在 VMware 上的工作负载现代化为云原生解决方案。这里最大的价值在于,Q 会自动识别所有应用程序依赖项并为您生成迁移计划,这极大地减少了迁移时间并显著降低了风险。然后,它还会启动代理,将您的内部部署 VMware 网络配置转换为现代 AWS 等效项。这将原本需要数月的工作缩短到几小时到几周。
现在,我真的想快速地谈谈。我们做了 Windows,我们做了 VMware。但是有一个复杂的系统,迁移到云端最困难,那就是大型机。即使只是努力尝试。实际上,事实证明,当你与客户交谈时,仅仅是尝试分析、记录和规划大型机现代化的努力就往往过于庞大。人们放弃了,太难了,这简直让人难以承受。事实证明,Q 非常擅长并且可以帮助解决这个问题。今天,我们宣布推出用于大型机的 QTransformation。
Q 有许多代理可以帮助您简化这个复杂的工作流程。它可以为您进行代码分析和规划,并重构您的应用程序。此外,正如我前面提到的,大多数大型机代码都没有很好的文档记录。许多组织拥有数百万行 COBOL 代码,他们往往不知道这些代码的功能。Q 实际上可以获取这些遗留代码并构建实时文档,从而深入了解其功能。此功能对于理解您可能想要现代化的应用程序非常有帮助。
现在,您与大多数客户交谈时,他们都会告诉您,他们的主机迁移估计可能需要三到五年。规划一个为期三到五年的项目几乎是不可能的,而且他们往往根本无法完成。我希望我能站在这里告诉大家,我们将使主机迁移成为一键式流程;然而,我们还没有达到那个阶段,目前实际上也不太可能做到。根据早期客户反馈和内部测试,我们相信Q实际上可以将原本需要数年才能完成的工作转变为数个季度就能完成的工作,从而将迁移主机的时长缩短50%以上。这种缩短是显著的。如果您能将多年的工作缩短到几个季度,那是人们真正可以接受的,客户对此也感到非常兴奋。
我们尚未解决的开发周期最后部分是运维。我们都知道,运维是当今运行软件服务的重要组成部分。客户表示,在管理他们的AWS环境时,他们花费大量时间筛选CloudWatch图表和日志以了解正在发生的事情。因此,今天,我很高兴地宣布Q开发者中的一项新功能,Q现在可以简化对AWS环境中问题的调查。
Q可以做到的是,它实际上会查看您的整个环境。它了解您的整个设置,您正在运行的所有内容,然后它会查看CloudWatch数据,查看CloudTrail日志,并可以帮助您发现可能存在问题的地方。它深入了解您的AWS环境,并查找异常情况。您可能会说,我遇到了问题,它会追溯到权限集被更改的故障点,并建议您如何修复这些问题,甚至可能建议下次如何避免再次出现此类问题。
因为一旦确定了根本原因,Q还可以访问您提供的运行手册和精选文档中的可能的补救措施。现在,CloudWatch与许多最流行的事故管理和工单系统集成,也有助于您管理整个环境中的事故。
参考资料: https://www.youtube.com/watch?v=LY7m5LQliAo,公开发表于2024-12-04
关注公众号后设🌟标,掌握第一手AI新动态