关于大模型在泛娱乐场景的应用

科技   2024-09-04 22:00   四川  

在数字化时代,娱乐不再局限于传统的视听享受,而是向着更加个性化、智能化、互动化的方向发展。生成式 AI 作为这一变革的催化剂,正以其独特的算法优势,为泛娱乐领域注入新的活力。

在这个充满机遇与挑战的时代,白鲸技术栈携手声网,于 8 月 31 日在杭州举办了 RTE Plus 声网城市沙龙杭州站活动。声网 首席科学家&CTO 钟声、阿里云智能集团 通义千问高级产品架构师 双枪(辛晓剑)、MiniMax 解决方案高级总监 冯雯、TEN Framework 主创 Tomas 等多位行业专家到场,共同探讨了生成式 AI 在泛娱乐领域的最新应用与未来趋势。

实时通用人工智能必由之路

钟声 - 声网 首席科学家&CTO

本次活动中,钟声指出,随着技术的不断进步,AI 正逐渐成为泛娱乐体验创新的重要推手,其在提升用户体验、优化内容创作等方面展现出巨大潜力。技术进步在激发了智能体和智能服务创新的同时,也依旧面临着不少挑战,包括如情商处理、长期记忆与持续学习、伦理道德问题以及场景相关的定制化需求。

在人工智能应用中,计算资源的扩展(scaling)并不能无限制地解决所有问题,尤其是在成本、延时和用户体验方面。为了克服这些限制,钟声强调了端云结合的重要性,他表示通过在设备端进行一些处理,可以降低延迟,提高用户体验。这种策略通过在设备端进行一些实时处理,比如降噪和回声消除,可以显著降低响应时间,提高准确性。例如,在设备端开启降噪功能,可以减少翻译错误,提高语音识别的准确度。同时,端上处理还能减少对云端资源的依赖,降低成本,并且因为数据在传输过程中的质量损失较小,所以能保持更高的数据质量。

此外,端云结合还能增强系统的可靠性,因为即使在网络连接不稳定的情况下,设备端仍然可以进行一定程度的处理。这种方式也有助于保护用户隐私,因为敏感数据可以在本地处理,不必全部上传到云端。通过在设备端和云端之间合理分配计算任务,可以优化资源使用,提高整体系统的性能和效率。这种灵活的资源管理策略,不仅能够提升用户体验,还能在保证服务质量的同时,有效控制成本。

此外,钟声还提出了开放式系统的概念,强调了其在促进创新和允许开发者自由构建智能体方面的优势。最后他还展望了 AI 助理和分身在未来的普及,以及它们如何帮助人们更有效地利用时间,提高生活质量。他提出了建设分布式人工智能基础设施的必要性,并指出了未来研究和开发的方向。

通义大模型落地实践

双枪(辛晓剑)- 阿里云智能集团 

通义千问高级产品架构师

大模型的构建不仅是模型本身,还包括算力、数据和工具链等复杂系统工程。阿里云在大模型领域的布局分为底层基础设施、大模型训练工具链和大模型应用产品三个部分。

通义千问模型在语言和多模态方面都有布局,提供了不同参数规模的语言模型,并在多模态模型方面进行了早期布局。辛晓剑强调了评价大模型时要考虑的六个维度:泛化能力、多模态能力、丰富的尺寸能力、长文本处理能力、Agent 能力和合规安全能力。其中在娱乐和社交领域,因为不同地区对于社交场景的接受度和法律法规有很大差异,因此模型合规安全能力的重要性不言而喻。

在通义千问模型的训练和应用方面,辛晓剑提到了模型在多模态任务上的优势,例如能够理解和处理非结构化数据,将图片或表格转换成文本格式,以及理解和回应与物理世界相关的问题。这些能力使得模型能够在智能硬件领域,如智能手机和汽车智能座舱中得到应用,提供实时、流畅的交互体验。

他还展示了模型在实际场景中的应用,如汽车智能座舱中,用户可以通过自然语言与系统交互,获取有关车辆操作和信息的实时反馈。这些例子说明了大模型在提升用户体验和推动技术创新方面的潜力。

另外,通义大模型在实际应用场景中的落地实践也有不少案例,特别是在淘宝和天猫平台上的应用。如“淘宝问问”,这是一个购物助手,通过对话式交互为用户提供购物推荐,包括售前推荐、售中辅助决策和售后问答。这个应用不仅提升了用户的购物体验,还扩展到了泛生活场景,如旅行规划和酒店推荐。

又或是在直播领域,大语言模型被用于自动生成口播题词和弹幕自动化回复,提高了直播的互动性和效率。辛晓剑讨了大模型在游戏领域的应用,包括 NPC 对话、解谜游戏和棋牌策略游戏。他提到了通过强化学习结合大语言模型来开发更复杂的游戏策略,尽管这些还在探索阶段。

最后,辛晓剑强调,除了建设之外,运营也是非常重要的一环。大模型的应用需要经过一段时间的迭代和优化才能达到良好的效果。阿里云提供的 MaaS(Model-as-a-Service)平台,这是一套为企业构建智能代理(Agent)或基于检索的生成模型(RAG)提供支持的服务平台。

通过 MaaS 平台,企业可以根据自己的业务需求,快速定制和部署 AI 解决方案,从而加速产品的上市时间,提高市场竞争力。这种服务化的 AI 平台是当前云计算和人工智能领域的一个重要趋势,它使得 AI 技术更加普及和易于获取。

大模型技术在泛娱乐场景落地实践

冯雯 - MiniMax 解决方案高级总监

MiniMax 是一家大模型提供商,专注于开发和提供多种模态的大模型,包括文本、语音、图像和视频模型。公司在大模型领域进行了深入探索,包括 MoE(Mixture of Experts)架构模型的实践,并通过 C 端产品进行模型迭代和优化。

本次活动中,冯雯介绍了 MiniMax 的 C 端产品——星野,这是一款利用 AI 技术让用户创建和互动的应用程序,拥有数百万的日活跃用户。星野提供了多种玩法,包括 PGC(专业生成内容)和 UGC(用户生成内容),用户可以通过 AI 赋能创建具有个性化声音、对话风格和形象的智能体。

星野的功能不仅限于创建和聊天,还扩展到了群聊、虚拟朋友圈和故事分享,让用户与智能体之间的互动更加丰富和沉浸。此外,星野还与现实世界和流行文化相结合,如与电影和游戏的联动,为用户提供了更加多元化的体验。

MiniMax 还提供了 toB 的开放平台,支持客户根据自身需求进行模型接口封装和应用开发。公司与声网等合作伙伴一起,提供了包括实时音视频互动在内的多种解决方案,帮助客户快速接入和部署 AI 模型。

冯雯还分享了一些客户案例,包括与筑梦岛的合作,这是一个让用户创作和分享自己的故事和角色的平台。此外,MiniMax 的模型也被应用于心理疗愈、玄学、高情商回复等领域,展现了 AI 在泛娱乐领域的广泛应用潜力。

实时多模态Al Agent探索和实践

Tomas - TEN Framework 主创

Tomas 在演讲中介绍了实时多模态人工智能体的开发和应用。他首先指出,实时多模态交互的概念已经成为现实,大模型不仅能处理文本和图片,还能进行实时互动。这种技术的发展为 AI 情感陪伴 APP 等应用带来了新的可能性。

实现实时多模态交互需要的关键技术包括流式处理、打断机制和配置的灵活性。流式处理涉及实时语音转文字和大模型的交互,需要决定何时将文本输入给大模型以及何时将大模型的输出转换为语音。打断机制允许用户在对话中随时插入自己的话语,这要求系统能够及时响应并处理。配置的灵活性则涉及在运行时对代理进行调整的能力。

Tomas 在演讲中详细介绍了 TEN Framework,这是一个为实时多模态交互而设计的开源项目,其核心组件包括 Extension、Data 和 Command,以及如何通过这些组件构建一个实时的 AI 代理。Extension 是 Framework 中的独立模块,可以处理特定任务,如语音识别或文本到语音转换。Data 和 Command 是模块间通信的方式,分别用于传递信息和执行操作请求。

Framework 支持细粒度的线程管理,允许开发者定义哪些 Extension 在同一线程上运行,确保消息顺序和同步。此外,TEN Framework 提供了一系列的工具,如 tman 工具、C++ 编译工具和 Graph Designer,以及一个仓库,供开发者复用和共享他们创建的积木。

在依赖管理方面,Framework 支持不同编程语言的依赖管理,并能够自动处理 Extension 之间的依赖关系。图编辑器是 Framework 的可视化工具,它允许开发者通过拖放和连接不同的积木来构建系统,选择不同的模型和配置。

通过 TEN Framework,开发者可以轻松地构建、测试和部署他们的 AI 解决方案,为各种应用场景提供实时多模态交互的能力。

至此,本次活动分享环节圆满结束,此次沙龙不仅增进了对 AI 在泛娱乐领域应用的理解,更为开发者提供了一个宝贵的交流与合作平台。未来,随着技术的不断进步,我们有理由相信,AI 将在泛娱乐领域发挥更加重要的作用,为用户带来更加丰富多元的娱乐体验。

如果您也对 AI 等相关技术感兴趣,欢迎继续关注我们!RTE Plus 声网城市沙龙计划,是 RTE 大会(原“RTC 大会”)的衍生活动。创立于 2022 年,已成功在北京、长沙、武汉等多个城市举办。

在后续的活动计划中,我们还将为国内更多城市带来精彩的活动分享,欢迎海内外的小伙伴们关注我们的行程计划,和我们一同探索更多泛娱乐社交玩法的演变与趋势预见。

推荐阅读

净利润大涨80%,AI这一波,美图真的翻身了?

交出成绩单,前8个月AI移动应用收入20亿美元

时隔7年再次换帅,直播起家的欢聚开始发力语聊房

首站欧美再回“家门口”,4399小游戏出海跑出第二个爆款

国内潮流社区公司,孵化出全球月访问300w+生图产品 | 对话一线

商务合作

Cassie | 微信:18506490569

Ares | 微信:18606066421

Lina | 微信:13381020131

David | 微信:13809501924

Ania | 微信:13720814733

媒体合作

Echo | 微信:13003974360

开发者对接

Shadow | 微信:18650708568

卖家对接

Demerly | 微信:18150844790

客户服务

Lia | 微信:baijing018

与CEO聊合作

白鲸出海魏方丹 | 微信:bjbandari02

(添加请备注姓名、公司及职位)

长按识别二维码,备注“白鲸”申请加入白鲸社群,获取更多资讯、活动、资源


白鲸出海
白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包括应用、游戏、电商、区块链、智能手机及硬件、旅游、网络文学、影视、动漫、教育、体育和金融等。
 最新文章