12月5-6日,2024中国生成式AI大会(上海站)「GenAICon 2024」将在上海中星铂尔曼大酒店盛大举办。中国生成式AI大会已成功举办两届,迅速成长为国内生成式AI领域最具影响力的产业峰会之一。
此次也是中国生成式AI大会首次登陆上海举办,由智一科技旗下智能产业第一媒体智东西、AI与硬科技知识分享社区智猩猩共同发起。本次大会的指导单位是上海市人工智能行业协会。
大会上海站将设置“主会场峰会+分会场研讨会+展览区”。主会场将进行大模型峰会、AI Infra峰会,分会场将组织端侧生成式AI、AI视频生成和具身智能三场技术研讨会。主会场与分会场外则设有展览区。
上海站以“智能跃进 创造无限”为主题,将邀请50+位嘉宾带来致辞、演讲、报告和对话讨论,以前瞻性视角为大家解构和把脉生成式AI的技术产品创新、商业落地解法、未来趋势走向与前沿研究焦点。
已经迫不及待报名的朋友,可以先扫描下方二维码添加小助手报名啦!
目前,已有30+位嘉宾确认参与主题演讲、高端对话和圆桌Panel。接下来为大家一一介绍大会的部分嘉宾。
01、大模型峰会部分嘉宾
银河通用机器人合伙人、大模型负责人 张直政
北京大学(临港)大模型对齐中心执行主任、北京阿莱门科技有限公司首席执行官 徐骅
腾讯优图实验室天衍研究中心负责人、专家研究员 吴贤
演讲主题:《从深度学习到大模型,医学AI上的一些尝试》
内容概要:
在医学领域,几乎所有的通用 NLP 任务都可以找到相应的实际应用场景,例如医患对话、医学信息提取、疾病诊断、药物推荐以及报告生成等。目前,已有大量的研究将 LLM应用于医学领域,部分大型模型甚至已经高分通过了医师资格考试。然而,仍有许多问题需要进一步研究。本次分享旨在深度探索大模型技术在医学领域的研究和应用问题,包括训练效率问题,包括幻觉问题,包含在临床场景中实际遇到的问题等。
联汇科技CEO兼首席科学家 赵天成
演讲主题:《以多模态智能体为中心的AI原生应用和开源生态》
内容概要:
智能体作为应用前沿,正在重塑技术与场景之间的互动方式。
本次演讲以智能体的开发与应用为核心,重点介绍Om Agent平台在AI原生应用中的实践,包括如何快速构建、部署和管理AI原生应用,让每个智能硬件设备具备人类认知级别的智能体,快速适应、赋能各种场景,以及在不同行业与领域的原生应用案例。同时,强调构建开源生态也是推动智能体应用创新的重要依托,更多开发者的加入与应用的产生将能够服务更广泛的用户,让每个人都能真正地享受到技术创新成果。
VAST CTO 梁鼎
演讲主题:《大模型加持,3D AIGC的发展与应用》
演讲概要:
生成式语言大模型在近两年取得了突破性的进展,在蚂蚁内部也有大量的业务在应用llm来进行各种各样的业务改造和创新,并取得了一些结果,例如蚂蚁的支小宝,医疗管家等业务。在业务应用LLM的过程中也遇到了一些挑战,主要集中在可信,以及效率等方面,例如在模型的部署服务过程中,就面临资源利用率,推理速度等效率相关的问题,在用户的应用过程中也遇到一些和大模型幻觉相关的挑战,本次分享会介绍蚂蚁在这两个方面上的一些工作和尝试。
西湖心辰CEO、西湖大学深度学习实验室成果转化负责人 醒辰
演讲主题:《让AI懂人心,说人话——多模态情感大模型的应用探索》
内容概要:
语言、文字的发明都是为了沟通和交流,在AI技术高速发展的今天,人机交流的种种矛盾也被放到台前。“AI不明白我的意思”,“AI理解不了我的心情”大众对此很有共鸣,也是一定程度上排斥AI的原因。AI的智商虽然关键,情商更为重要,它是AI与人类和谐共存的基石。
怎么让AI模型懂人心?说人话?西湖心辰自创立以来一直深耕打造“高情商”“超拟人”的AI模型,并且持续探索其应用边界,以期为公众带来福祉并创造社会价值。
在本次演讲中,将重点介绍我们的模型能力在心理领域的落地应用,包括端到端多模态识别与交互、长程对话能力以及情感感知等关键能力。用实际案例证明AI模型不论是基于文字还是语音都能懂人心、说人话,共同探讨AI在个性化心理健康服务领域的未来发展。
趣丸科技副总裁 贾朔
演讲主题:《让每个人体验音乐创作——音乐生成大模型的创新实践》
内容概要:
随着AIGC技术的成熟和广泛应用,AI和音乐可以碰撞怎样的火花?如何降低门槛让普通用户体验音乐创作的乐趣?趣丸科技推出了自主研发的全球首个多模态音乐生成大模型——天谱乐AI。该模型集成音频处理、深度学习及大数据分析等领先技术,不仅支持文生音乐、音频生音乐,还首创图片/视频生音乐功能,生成的歌曲自带人声唱词,效果达到专业发行水准。
本次演讲聚焦AI音乐,重点分享趣丸科技自研的音乐生成大模型天谱乐AI的初衷、产品研发、应用实践和愿景。AI音乐工具不仅是技术的堆砌,更是用户情感的载体。天谱乐AI通过技术创新降低音乐创作门槛,让用户不再受限于专业的乐理知识,复杂的音乐制作流程和昂贵的版权费用,就可以轻松通过音乐创作记录生活的切片,在创作中提升审美自觉和音乐生产能力。
BV百度风投执行董事 温永腾
蚂蚁集团资深算法专家 李龙飞
演讲主题:《生成式大模型在蚂蚁内部的应用和挑战》
演讲概要:
生成式语言大模型在近两年取得了突破性的进展,在蚂蚁内部也有大量的业务在应用llm来进行各种各样的业务改造和创新,并取得了一些结果,例如蚂蚁的支小宝,医疗管家等业务。在业务应用LLM的过程中也遇到了一些挑战,主要集中在可信,以及效率等方面,例如在模型的部署服务过程中,就面临资源利用率,推理速度等效率相关的问题,在用户的应用过程中也遇到一些和大模型幻觉相关的挑战,本次分享会介绍蚂蚁在这两个方面上的一些工作和尝试。
02、AI Infra峰会部分嘉宾
上海交通大学副教授、无问芯穹联合创始人兼首席科学家 戴国浩
GMI Cloud 亚太区总裁 King.Cui
演讲主题:《全球化布局:AI 企业如何补齐算力短板,保障GPU集群稳定性?》
内容概要:
随着全球数字化进程的推进,越来越多的企业希望将自己的 AI 应用拓展到海外市场。然而,AI 出海面临诸多挑战,本次演讲重点关注如何突破算力挑战。
稳定的 GPU 集群对突破算力挑战至关重要。GPU 集群能并行处理海量数据,其稳定性确保计算持续高效。通过合理架构设计、优质硬件支持、智能监控和维护系统等,可保障集群稳定,释放强大算力。GMI Cloud作为一个基于高稳定性 GPU 集群的云计算平台,便为 AI 应用出海提供一系列服务和支持。
本次演讲,将介绍AI出海常见的基础设施问题以及高稳定性的重要性,并着重探讨如何利用 GMI Cloud 的优势,帮助企业突破算力挑战。之后,还将通过成功案例,分享 GMI Cloud 在不同行业应用的实践经验。
枫清科技创始人兼CEO 高雪峰
英飞流创始人兼CEO 张颖峰
演讲主题:《新一代企业级多模态RAG引擎》
内容概要:
LLM正在对企业软件生态进行重构,RAG已经成为企业级LLM应用的标准化架构。然而,RAG并非简单的搜索系统,它需要针对来自企业的各种非结构化数据作出处理,准确识别用户意图,帮助LLM在上下文窗口内定位到足够精准的片段,这就意味着它必须成为AI和Data协同工作的最具代表性的载体和场景。随着LLM多模态能力的增强,RAG也需要步入多模态时代,它并不限于对日常图片,音视频的检索增强,还应该涵盖当下占据大部分的非结构化文档,发掘出这些数据的商业价值。本演讲结合我们在过去的工作,从基础设施角度来给出多模态RAG的工程实践,以及未来如何迭代和演进的趋势。
Jina AI联合创始人兼首席技术官 王楠
演讲主题:《从长窗口到多向量:RAG范式下AI Infra的机遇和挑战》
内容概要:
在本次演讲中,我们将深入探讨RAG(Retrieval-Augmented Generation)范式在大模型的实际应用中遇到的机遇和挑战。RAG不仅能够补足大模型记忆的不准确性,还有效降低了注入新知识的成本,尤其是在私有知识的访问方面表现出色。尽管长窗口大模型技术取得了长足进步,但其并不会取代RAG范式,反而推动了RAG依赖于支持长窗口输入的向量模型的需求。我们将讨论jina-embeddings作为全球首款支持8k窗口的开源向量模型的成功,以及长窗口输入逐渐成为多模态向量模型的新标配。尽管如此,长窗口模型带来了信息丢失和推理成本上升的挑战,这也催生了多向量表示的需求,以弥补单一向量带来的信息缺失。例如,ColBERT和ColPali分别针对文本和图文内容提供了多向量表示方案,然而支持多向量的AI基础设施仍然不足。此外,RAG的PoC阶段面临着GPU推理成本高、资源利用率低的问题,市场缺乏类似Modal lab的GPU共享服务。通过本次演讲,我们将总结RAG范式的长期发展前景,阐明向量模型在长窗口和多模态输入上的进化需求,并探讨AI基础设施如何更好地支持多向量表示和GPU共享,以降低RAG的应用成本。
中昊芯英芯片软件栈负责人 朱国梁
演讲主题:《国产 TPU 芯片“No CUDA”软件栈的构建实践》
内容概要:
国产自研高性能芯片面临的诸多挑战中,性能和生态是两个不能避免的话题。英伟达的 CUDA 生态帮助了很多类 CUDA 架构公司解决了可用性和部分性能问题,但也带来了诸多自主可控上的担忧。
本次演讲将从实际的芯片软件栈构建思路出发,结合实际 AI 芯片软硬件架构,介绍在真实的大模型落地实践中,多层次软件栈实现所面临的问题、挑战、以及过程中的选型决策。
北电数智智算云负责人 郭文
声网生成式AI产品负责人 毛玉杰
阿里云智算集群产品解决方案负责人 丛培岩
演讲主题:《高性能智算集群设计思考与实践》
内容概要:
2017年阿里云从多模态搜推场景的需求起步,开始投入智算集群的产品研发,2022年商业化发布,通过自动驾驶、LLM/VLM应用场景的持续打磨,目前已经服务了国内一半以上的大模型企业/科研机构。
本次分享主要就智算集群的产品和方案设计方向,呈现阿里云的产品设计思考及实践。
Alluxio首席架构师 傅正佳
演讲主题:《构建大模型时代的高性能AI数据底座》
内容概要:
随着AI技术的发展,尤其是大模型技术的应用,数据量呈现爆炸性增长。AI训练和推理需要处理的数据集规模从几TB增长到PB级别,与此同时,数据往往来自多个数据源,很多数据存放在不同的云服务中。当AI算力集群从这些数据源获取数据时,很容易遭遇带宽低下、延迟较高的困境,使算力资源的宝贵时间白白浪费在等待数据这一环节上。Alluxio 通过帮助企业构建大模型时代的高性能AI数据底座以应对I/O挑战,提升AI算力的效率与性能,被广泛应用于模型训练与推理、自动驾驶、AI制药、金融量化以及视频渲染等场景。
本次演讲,首先会介绍常见的 I/O 挑战及其对 GPU 利用率和整体性能的影响,并着重讲解如何将高性能数据访问层无缝集成到 AI 流水线中,以减少 I/O 开销。最后,将结合实际案例分享提高 AI 工作负载性能的缓存策略。
03、端侧生成式AI技术研讨会
部分嘉宾
RockAI CTO、联合创始人 杨华
联想集团首席研究员、联想研究院人工智能实验室研发总监 师忠超
西湖大学工学院助理教授 王欢
爱芯元智智慧IoT事业部产品总监 吴炜
演讲主题:《多模态大模型在端侧的创新实践与挑战》
内容概要:
随着大模型的发展,AI已从简单的图像分类识别功能,升级为对视频、音频、文字等多模态信息的整合分析,实现对内容更深刻的理解。多模态大模型已成为推动各行各业发展的重要力量。然而,要将大模型应用于端侧设备,面临着算力、带宽、功耗和成本之间的多重平衡挑战。爱芯元智致力于打造世界领先的AI芯片,积极布局多模态大模型,助力大模型在端侧的普及和高效部署。
本次演讲,将通过展示实际应用案例,探讨多模态大模型如何在更广泛的应用场景中发挥更大的价值。同时,还将与行业伙伴共同探索大模型在端侧应用的无限可能,推动“普惠AI,造就美好生活”的使命。
04、AI视频生成技术研讨会
部分嘉宾
中存算董事长 陈巍
演讲主题:《视频大模型架构对比及长序列模型加速》
内容概要:
随着大模型技术的快速发展,视频大模型(VLM)正与短视频产业结合并迎来新的爆发机遇,逐渐成为互联网应用的热点。
本次分享从视频大模型与世界模型的角度,对比主流视频生成大模型架构,探讨视频生成的关键技术(包括NaViT、RADM等),分析视频生成类大模型的主要挑战与发展趋势;探讨内存墙(Memory Wall)和通信墙对视频大模型GPGPU/TPU集群训练和部署的挑战,并针对这类视频长序列模型的算力芯片级训练部署,结合具体项目给出软硬结合的解决方案与系统经验。
井英科技联合创始人、CTO 王健
上海交通大学人工智能研究院助理教授 晏轶超
新壹科技AI算法主任架构师 李璋
演讲主题:《视频垂直大模型在智能数字人生成中的应用》
内容概要:
在生成式AI技术蓬勃发展的背景下,智能数字人已成为内容创作、虚拟助手和人机交互等领域的重要应用之一。然而,传统生成模型在高精度、多模态的智能数字人生成中仍面临诸多挑战。为此,垂直领域的大模型提供了一条全新路径。
本次演讲,首先会介绍从通用大模型到垂直大模型的演进,之后将着重讲解新壹视频大模型的整体架构设计及其在数字人视频生成与优化中的核心技术突破;此外,还将对智能数字人生成的技术难点,包括数字人生成中实现自然语言驱动动作与表情生成的关键技术等进行深入分析,并分享视频垂直大模型驱动的智能数字人在相关领域的典型应用案例。
旷视研究院高级研究员 李华东
演讲主题:《可控人物视频生成》
内容概要:
短视频、影视和游戏动画创作正在迅速发展。然而,传统的视频制作过程耗时耗力,通常需要大量的人工后期编辑。视频生成大模型算法提供了一种低成本、高效的高质量视频内容生成解决方案。但视频生成算法生成的内容可控性不足,限制了其实际应用的有效性。因此,如何实现视频生成内容的可控性仍是一大关键挑战。
在本次报告中,我将介绍 MegActor 系列工作,这是一种支持混合模态控制的人像视频生成算法。该算法支持角色自定义(包括真实人物、二次元人物和游戏人物等),并能够通过视频、音频和文本输入实现单独和混合控制。其功能涵盖了控制角色说话、唱歌和生成表情动画等。MegActor 系列是社区内的首个开源可控人物视频生成大模型,将持续优化以推动技术的不断发展。
05、具身智能技术研讨会
部分嘉宾
上海科技大学信息科学与技术学院助理教授、博士生导师 顾家远
演讲主题:《服务于具身智能的仿真评估平台和数字资产》
内容概要:
在具身智能领域,通用机器人决策模型的开发取得了显著进展。然而,收集真实世界的训练数据和对这些模型进行真实环境下的评估仍然成本高昂。仿真技术提供了一种可行的替代方案,但其有效性高度依赖于多样且逼真的数字资产。传统上,这些资产主要由游戏产业创建,但随着具身智能的发展,对高质量数字资产的需求激增,以提高仿真环境的多样性和逼真度。这引发了一系列关键问题:这些资产的真实程度应达到何种水平?我们如何有效地创建这些仿真环境?在此过程中,哪些工具是必不可少的?在这个过程中,哪些工具是必不可少的?
在本次报告中,我将介绍最近的工作SimplerEnv,一个专为评估基于真实世界数据训练的决策模型而开发的仿真环境平台。该平台支持对多种通用机器人操作模型的评估,如RT-1和Octo。此外,我还将讨论另一个研究成果Point-SAM,一个3D原生工具,能够对三维部件和物体进行交互式分
上海人工智能实验室青年科学家 王泰
演讲主题:《大规模具身多模态三维感知》
内容概要:
近年来,大模型的成功以及模仿学习、强化学习等方法的突破持续推动着具身智能的快速发展。但这一领域仍然面临着数据匮乏的核心问题,大规模训练和评测仍存在客观瓶颈。生成式 AI 的进展为解决这一问题提供了重要路径。
本报告将聚焦于三维场景中具身多模态感知相关的具体任务,详细介绍团队利用多模态大模型的生成能力设计三维多模态数据的自动化标注管线,从而形成大规模三维物体、场景在不同粒度全方位的语料标注,构建带有显式三维建模和空间感知能力的具身感知基础模型,并最终利用大模型实现更符合人类判断的自动化评测。最后,报告将展望生成式 AI 在机器人交互数据方面的巨大潜力,同时探讨其潜在的局限性。
上海交通大学在读博士、穹彻智能实习研究员 吕峻
演讲主题:《Real2Sim2Real:一种基于多信息源的具身操作技能开发系统》
内容概要:
数据是具身智能在今天面临的核心问题之一。如何利用来自不同信息源的数据,例如仿真数据、人类演示数据、静态视觉数据等,构建数据金字塔,共同实现具身操作技巧开发,降低对真实机器人数据的依赖与数据成本成为值得关注的课题。过去几年,我们构建了包含Real2Sim、Learn@Sim、Sim2Real模块的具身智能系统,旨在通过各类感知技术对现实物理世界进行建模,基于建模在人类演示数据、自然语言提示词等的指导下于仿真环境中学习开发特定的机器人操作技巧,并将仿真中学习到技能迁移到真实环境中。相关成果发表在IJRR、RSS、CoRL、ICRA等期刊与会议上,曾获选RSS 2023 Best System Finalist。
国地共建具身智能机器人创新中心数据智能负责人 李广宇
演讲主题:《数据视角下的具身操作》
内容概要:
数据稀缺是目前困扰具身操作研究的共识。从各种机器人整机、机械臂、灵巧手等本体厂家纷纷推出的遥操作采集系统,到以UMI为代表的低成本采集设备,再到各类人类操作动作捕捉方案,以及各种仿真数据合成方法。如何高效的获取具身操作数据,已经成为学术界和产业界的研究重点。
另一方面,针对不同途径获取的数据,具身数据金字塔的概念已经广为传播:下层是数据量大、获取成本低,但单位价值较低的互联网数据和仿真合成数据;顶层是采集成本昂贵,单位价值高的真机遥操作数据;而中间层是介于真机遥操作和仿真合成之间的,人类动作捕捉数据和仿真遥操作数据。同时当前的机器人数据中,本体构型丰富多样,传感器配置各异。如何有效融合多种来源,多种本体的具身数据,也是研究者和工程师的关注点。
本次报告中,我将梳理具身数据方向的各种技术路线,并介绍具身智能国创中心在数据方面的进展,包括数据采集和训练基地建设情况、数据集开源开放情况,以及一些围绕数据融合方向的探索和尝试。
06、大会日程
与今年4月成功举行的北京站相比,2024中国生成式AI大会(上海站)在日程上也有所升级。两天的大会将进行两场主峰会和三场技术研讨会。
主会场将于12月5日举行大模型峰会,AI Infra峰会将在12月6日进行。在分会场,12月5日下午端侧生成式AI技术研讨会将率先开启;12月6日上午将举行AI视频生成技术研讨会,下午将进行具身智能技术研讨会。
07、免费票开放申请
两类门票支持购买
2024中国生成式AI大会(上海站)的观众报名正在火热进行中。
上海站设置了三类电子门票,分别是免费票、通票和贵宾票。其中,免费票,申请后需经审核通过方可参会;通票和贵宾票均需购买。
大家可以扫描下方二维码添加小助手“泡泡”进行报名申请及购买电子门票。已添加过“泡泡”的老朋友,可以给“泡泡”私信,发送“GenAI24”即可报名。
有演讲需求、会议赞助的专家或企业也可以私信“泡泡”进行咨询。
⬇️阅读原文报名