不容错过：2024 VLDB Keynote演讲—— Samuel Madden（文末附下载链接）

文摘科技 2024-09-03 17:43 北京

8月26日-30日，全球数据库领域顶级学术会议VLDB 2024在广州隆重举行，这是VLDB自2014年在杭州举行后，时隔10年重回中国。

在所有学术会议中都备受关注的Keynote演讲，本次也毫无意外的座无虚席。小编有幸在现场记录，今天就跟大家分享下Keynote演讲嘉宾，MIT杰出教授Samuel Madden的研究内容。

《为世界上所有字节搭建数据库，我又是如何优化查询并爱上人工智能的》

我们生活在一个非常激动人心的时代，AI模型的生成能力令人难以置信，是我们这代人正在经历一次的技术变革。我认为AI将改变我们构建数据系统的方式，我们拥抱AI热潮，但是也要结合数据库任务来理解数据库社区在这一变革中的角色。

AI模型解锁了对任何类型数据提问的能力，打破了传统数据库表格的限制。我们不难发现AI系统需要处理大量文档和信息，提取知识并合成结构化表示，而数据管理系统的一个长期目标就是通过低成本高效益的方式，构建能计算非结构化大数据集的定量洞察系统，这也是值得数据库和数据系统社区关注的。

当下，从公司内部的文件中提取事实、从科学论文中提取数据，或从图像和视频集合中提取指标都既困难又昂贵。想要回答一个实质性的AI驱动查询的程序员必须协调大量的模型、提示和数据操作。即使对于一个单一的查询，程序员也必须做出大量判断，例如选择模型、正确的推理方法、最具成本效益的推理硬件、理想的提示设计等。随着查询的变化和技术环境的快速发展，最优决策组合也会发生变化。

现代数据库系统使用的是一种高级的编程方式，叫做“声明式”编程。这种方式让程序员只需要告诉数据库他们想要什么样的数据，而不需要告诉数据库怎么去找到这些数据。这种编程方式给数据库很大的自由度，数据库可以自己决定怎么存储数据，以及怎么执行查询操作。这种方式对传统的数据库很有效，它也非常适合新的AI应用，尤其是那些使用大型语言模型的AI应用。这些AI应用可以帮助我们查询各种类型的文档，比如图片、PDF文件、文本文件、视频等。

今天我将为大家介绍我们研究的PALIMPZEST系统。PALIMPZEST可以简单地用声明式语言定义并处理AI驱动的分析查询，它使用其成本优化框架来实现查询计划，以在运行时间、成本和输出数据质量之间获得最佳平衡。

我们描述了AI驱动分析任务的工作负载、PALIMPZEST使用的优化方法以及原型系统本身。

工作负载：通过描述了AI驱动的分析任务的工作负载（这些任务通常涉及传统数据处理与AI语义推理的交织）处理大量数据，并且可以分解为对数据对象集合的一系列操作。

优化方法：PALIMPZEST使用了一系列物理和逻辑优化方法，包括模型选择、代码合成、多数据提示处理和输入令牌减少等，以提高执行效率。

我们在法律文献、房地产搜索和医学模式匹配任务上评估了PALIMPZEST。我们展示了即使是我们的简单原型也提供了一系列吸引人的计划，包括一个比基线方法快3.3倍、便宜2.9倍的计划，同时也提供了更好的数据质量。

在启用并行处理的情况下，PALIMPZEST可以产生相对于单线程GPT-4基线的计划，速度提升高达90.3倍，成本降低9.1倍，同时获得的F1分数在基线以内83.5%。

未来，我们需要提高抽象层次，将AI编程从写代码的层面提升，以应对不断变化的AI模型、硬件和需求。

Samuel Madden是MIT计算机学院的杰出教授，领导MIT的数据系统小组和数据科学与人工智能实验室（DSAIL）。研究领域包括数据库、分布式计算和网络。研究项目包括学习型数据库系统、C-Store列式数据库系统和CarTel移动传感器网络系统。

数据库领域的持续发展离不开研究学者、从业者、开发者和用户的共同努力。作为本次VLDB会议赞助商之一，偶数一直专注于云数据平台、数据智能产品及解决方案。在数据领域深耕多年，自主研发分布式数据库OushuDB和实时湖仓数据平台Skylab。

关注“偶数”公众号，回复VLDB2024获取Samuel Madden的论文原文《A DECLARATIVE SYSTEM FOR OPTIMIZING AI WORKLOADS》。

往期推荐

偶数发布对话式数据分析平台Kepler，会聊天就会数据分析

一次讲清楚实时湖仓数据处理架构如何落地

《分析型数据库技术要求》标准发布，偶数科技等厂商深度参与

大模型、实时需求推动湖仓平台走向开放

Gartner发布2023年最新技术成熟度曲线，偶数科技位列湖仓一体代表厂商

OushuDB × 东方证券：数据仓库信创国产化最佳实践

从北京到南京：偶数在能源行业的数据迁移实践

信通院联合偶数科技等企业发布《云原生湖仓一体白皮书》

↑扫描上方二维码↑

拉你进入技术交流群

偶数成立于2016年，是国家级专精特新“小巨人”企业。专注于云数据平台产品和解决方案，自主研发云原生分布式数据库OushuDB及实时湖仓数据平台Skylab。总部位于北京，在上海、南京、广州、武汉等地设有分支机构。偶数服务了国家电网、中国移动、建设银行等众多世界500强客户。获得国际著名投资机构红杉中国、腾讯、红点中国与金山云的四轮投资，是微软加速器和腾讯加速器成员企业。被评为福布斯中国企业科技50强，Gartner Cool Vendor，IDC Innovator。

点击下方阅读原文获取行业报告

http://mp.weixin.qq.com/s?__biz=MzIyNzgwNDgxNw==&mid=2247496895&idx=1&sn=40229e8a4be73b357847a5371426718d

偶数

专注于云数据平台产品和解决方案

最新文章

OushuDB 6.0发布：为实时湖仓注入强大动能

《实时湖仓建设方法》连载之五：快速了解实时湖仓的基本概念及ANCHOR标准

《实时湖仓建设方法》连载之四：新兴期湖仓一体融合

《实时湖仓建设方法》连载之三：蓬勃期流行一时的大数据平台

OushuDB 专家认证第六期报名开始啦！

HA999到底是千足金还是感冒药？

突发！上交所今天又挂了！

阿里云盘事件——数据资产如何守护？

《实时湖仓建设方法》连载之二：数据平台开立期的数据仓库

《实时湖仓建设方法》连载之一：为什么想系统的聊聊实时湖仓的建设方法？

不容错过：2024 VLDB Keynote演讲—— Samuel Madden（文末附下载链接）

偶数ODCP第五期认证专家考试圆满结束！

广东电网国产化数据平台替代实践

为什么对话式数据分析需要整合指标管理，必要性在哪？

今天全球蓝屏的作者找到了

一些人已经悄悄用上对话式数据分析，你发现了吗？

偶数科技亮相2024可信数据库发展大会

国外企业指标管理实践：Airbnb（下）

国外企业指标管理实践：Airbnb（上）

OushuDB 专家认证第五期报名开始啦！

硅基还是碳基？大模型与人类大脑

从GUI到CUI，我们可以期待哪些变革？

一次讲清楚实时湖仓数据处理架构如何落地

偶数发布对话式数据分析平台Kepler，会聊天就会数据分析

《分析型数据库技术要求》标准发布，偶数科技等厂商深度参与

偶数科技受邀参加2024中国移动算力网络大会

关于实时数据的疑问和期待，这篇一次讲透!

我的数据没价值吗？数据价值如何算？

Sora效果炸裂，大模型应用还有哪些？

🧧🧧🧧这泼天的富贵丨偶数新春红包火热上线等你来拿，祝你龙年行大运！

偶数 × 中信建投：金融行业湖仓一体平台实践案例

【2023大数据产业年度趋势人物】偶数科技常雷：实时需求正当时，实时湖仓将开启数据库新时代

偶数ODCP第四期认证考试圆满结束！

2024：但愿美好在，岁月常如新

利用OushuDB实现Native ORC格式增量备份

我们如何帮助银行构建开放的大数据贴源层

OushuDB历史SQL监控功能详解

挂牌一个月，国家数据局都有哪些大动作？

对话偶数科技常雷：如何开启实时湖仓一体时代？

实时数据处理的“终极”版本是什么？

OushuDB 专家认证第四期报名开始啦！

我在人大立德楼，等你来领秋招好礼！

偶数科技携Skylab实时湖仓数据平台亮相2023全国中小企业数字化转型大会

偶数科技亮相2023中国程序员节——数据库技术高峰论坛

国家数据局正式揭牌，2030年数据要素市场规模或破万亿

收获时节，偶数科技发布实时湖仓Skylab 5.4版本

偶数入选IDC中国数据智能市场生态图谱V4.0

偶数2024 校招 | 数据库内核研发工程师专场

从北京到南京：偶数在能源行业的数据迁移实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉