聊聊 Snowflake 和 databricks 2024 年度峰会

文摘   2024-07-17 22:10   英国  

上个月,作为大数据领域的两个当红炸子鸡 Snowflake 和 databricks 都举行了他们的年度峰会,都叫做“Data + AI”。确实也是,现在最火的就是 Gen AI,大数据已经不吃香了,还是像以前那样讲大数据的故事,估计都没人看了。

看完两场峰会,给我的感觉就是乏善可陈,老调重弹。databricks 作为 Spark 的主要maintainer,结果整个峰会的重点是 AI,是李飞飞和黄仁勋,甚至把 DBRX 集成到 NIMS 中都作为了重点,而不是 Spark 的新特性。最顶级的搞大数据的公司都开始重点讲 AI 的故事,而不是大数据的故事,这让其它搞大数据的公司情何以堪。

也许这就是时代的发展吧。


Snowflake 搞了一个 AI 助手的工具很吸引人,叫 Snowflake Copilot,帮助大家用自然语言写 SQL ,并在此基础上,还有一个 AI+Data Talk Model ,可以用自然语言和数据对话的模型。databricks 也有同类的竞品,叫做 Mosaic AI。这两家的产品从 demo 来看挺吸引人的,但可惜没有开源,也无法评判应用到生产的具体效果。另外根据个人的经验来看,大模型的幻觉问题在无法得到解决之前,让不懂技术的业务人员直接使用大模型去获取数据,或者是让大模型写SQL,都存在着风险。


关于数据湖的争论,原本 Snowflake 是押注 Iceberg ,结果 Databricks 把 Iceberg 背后的公司 Tabular 收购了。额,现在 Snowflake 估计挺尴尬的,Databricks 坐拥 Iceberg 和 Delta Lake,并且又承诺通过 Delta Lake Uniform 逐渐融合 Iceberg 和 Delta Lake,建立“互操作性”。也许数据湖三剑客 Iceberg 、 Delta Lake和 hudi,最终要变成 Iceberg+Delta Lake 混合体和 hudi 了。hudi 面临巨大考验,当然 Snowflake 到底要不要再重金投入 Iceberg 社区呢,恐怕是一个大问题。


Snwoflake 宣布90天内开源 Polaris Catalog,而 Databricks 直接在峰会现场开源了Unity catalog。作为 Unity catalog概念的提出者 Databricks,在面临 Snwoflake 的商业竞争下,终于将 Unity catalog 开源了。可惜的是,现在已经不是大数据的盛世了,大家的重点已经不是数据管理,而是尽快的讲一个 AI 的故事。

Lakehouse 的unified catalog实现了结构化/非结构化数据的对象抽象和统一权限管理,通过Catalog机制支持外部数据源联邦查询。


其它的一些东西,比如 Delta lake 4.0 的发布,Spark 的Spark connect 实在没啥眼前一亮的。


就这样吧。


鸿的笔记
一个程序猿的读书笔记,与你分享好书、好文章和新鲜的观念。期待碰上有趣的你。