首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
快手构建流批一体样本湖,加速AI特征工程
文摘
2024-11-20 18:02
北京
关于数据湖如何助力AI发展,专家们也展开了激烈的讨论。
靳国卫(主持人):
能否请您分享一下对湖仓一体在AI领域助力方面的看法?
邵赛赛:
我认为AI的发展可以分为两个阶段:GenAI之前和GenAI之后。在GenAI之前,传统的机器学习工作负载主要依赖于特征工程。在这个阶段,我们通常需要使用宽表来高效存取和更新特征,以便于训练模型。
以腾讯的一个重要业务为例,其数据格式复杂,特征每天都会增加,形成几千列的嵌套表结构。在传统的存储格式(如Protobuf)中,由于其行级结构,查询效率较低,无法有效处理嵌套列的优化。特别是当需要获取特定字段时,必须读取所有数据,这不仅效率低下,还增加了存储和计算的负担。
在2021年或2022年,我们将整个系统从Protobuf格式转换为Apache Iceberg格式。这样的转变使得从行级存储转向列级存储,显著提高了查询性能。Apache Iceberg格式支持可演进的schema,允许我们灵活地增加或删除特征。同时,我们实施了列级生命周期管理,能够跟踪每个列的使用情况,并定期清理不再使用的列。这种治理不仅提高了用户体验,还提升了数据压缩率,从而降低了业务成本。
在进入GenAI时代后,数据的性质发生了变化,更多地涉及非结构化或半结构化数据。在这一阶段,数据湖的格式开始引入了新的变长类型(variant),例如Apache Iceberg和Spark都已支持这种格式。通过这种方式,我们能够更有效地处理半结构化或非结构化数据,提升读取性能。
此外,针对大语言模型(LLM)的需求,构建RAG(Retrieval-Augmented Generation)系统时,我们需要支持向量数据库或向量类型的数据湖格式。一些专为向量设计的数据湖格式(如Lens)能够很好地满足LLM时代的数据需求。
总体来说,数据湖仓一体在AI领域的助力主要体现在特征管理的高效性和对新型数据格式的支持,为GenAI时代带来了新的机遇与挑战。
靳国卫(主持人):
感谢老师的分享。张静老师,请您来分享一下快手在机器学习特征支持方面的具体应用。
张静:
好
的。快手目前在AI领域的主要落地方式是通过构建流批一体的样本湖。这个样本湖不仅能存储实时和离线的样本数据,而且能满足多种需求,尤其是在特征工程的场景中。
例如,在进行离线调研时,用户通常会需要灵活地拼接不同的列以评估效果。如果某些特征的效果不理想,用户可以随时删除这些特征,然后再进行新的实验。多个用户可以并行地向同一张表中添加不同的列,以便在快速迭代中找到最优特征。这种灵活性是数据湖提供的一个重要优势。
此外,我们目前正在探索多模态样本的存储。这涉及到如何有效管理非结构化数据。例如,我们引入了变长类型(variant)来更高效地存储数据。这一理念在Delta和Apache Iceberg社区的V3版本中也在讨论,未来可能会引申出更多的应用场景。
另一个重要的方面是API的支持。尤其是Apache Iceberg和Delta Lake这两个产品在AI结合方面布局较早,它们提供了Rust和Python的API,这使得许多用户可以使用Python进行数据访问和处理。Apache Hudi社区也在推出Apache Hudi的RS项目,希望能够给AI方向的从业者在湖上有更好的使用体验。
从腾讯和快手的专家分享来看,数据湖对于AI的支持很重要。那么,数据湖如何做到支持AI呢?
DataFun
数据湖工作坊
中,有一个章节全面讲述了数据湖如何进行AI向量计算,支持大模型高效训练与推理。
欢迎扫码咨询:
http://mp.weixin.qq.com/s?__biz=MzkxMjM2MDIyNQ==&mid=2247637681&idx=3&sn=a3b23b888473ca8865af33888ef48bde
DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
最新文章
AI时代的数据底座,StarRocks 2024 年度技术峰会带你探索湖仓架构
Agent+Copilot:大模型在智能运维领域的应用
探秘爱慕ChatBI项目的突破与应用实践
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
蚂蚁集团大模型推理之显存优化探索
快手大数据分析-NoETL 驱动下的功能实践
NVIDIA Nemo高性能的强化学习训练实践
敏迭优化求解器(MindOpt)算法与应用实践
免费领 |《数据智能知识地图》实体版
从数据库视角看NL2SQL的挑战与未来
数据洪流中的智能航舵——Oceanus 流式湖仓探索,弹性降本方案
AI在汽车制造领域的应用场景探索与实践
【留言赠书】智能供应链:预测算法理论与实战
免费领 |《数据智能知识地图》实体版
B 站基于 Iceberg 的流批一体的探索和实践
Colossal-AI深度学习系统的挑战与系统优化实践
国产高性能求解器仙鹏XOPT的技术路线与创新思路
免费领 |《数据智能知识地图》实体版
智能驾驶时代的汽车数智化转型最佳实践!
Flink Forward Asia 2024·上海站主论坛
EasyRec 推荐算法训练推理优化
知乎云原生调度系统实践
免费领 |《数据智能知识地图》实体版
Alignment训练框架PAI-ChatLearn技术实践
AI驱动:构建高效数字员工的策略与实践案例
华为云企业快成长AI研创技术创新论坛:以AI驱动研发提效的秘籍正在路上!
高效应对数据增长:揭秘分布式缓存技术在模型开发加速中的应用策略
免费领 |《数据智能知识地图》实体版
华为AIGC研发新范式
基于大模型的研发新范式
京东健康基于大模型的生成式推荐在电商标品推荐的应用
快手构建流批一体样本湖,加速AI特征工程
免费领 |《数据智能知识地图》实体版
基于对话互动式的知识学习模型ChatBI产品实践
分布式Data Warebase技术解析与应用实践
华为数据安全体系建设方法论
【留言赠书】运筹优化在智能供应链管理中的应用与实践
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
蔚来汽车RAG在智能化领域的创新应用
替代 NL2SQL,Agent+业务语义的创新产品设计
大模型推理引擎的国产化思考和实践
XMO-WEATHER 天玑一触即发
电子书上新 |《AI for Data:智能数据处理与分析实战》
超拟人大模型技术与情绪价值应用深度解析
删库跑路?不存在的!漫谈大数据组件权限设计
揭秘AI模型开发优化:小红书、知乎等企业的成功实践与策略
电子书上新 |《AI for Data:智能数据处理与分析实战》
数据湖存储加速方案的发展和对比分析
腾讯、抖音、百度、B站、携程、小米、工行、平安集团如何在大数据架构、数据库管理、运维保障中落地AI技术?丨DAMS峰会
跨领域知识融合在AIGA决策中的应用
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉