国外企业指标管理实践：Airbnb（下）

文摘科技 2024-07-10 12:06 北京

上篇文章，我们介绍了Airbnb打造Minerva指标平台的初衷，以及Minerva的设计原则。这篇文章，我们继续来详细拆解下Minerva的自恢复（Self-healing）、一致性（Consistent）、高可用（Highly available）、可验证（Well tested），以及Airbnb内部用户是如何使用Minerva高效完成疫情影响分析的。

错过上一篇的同学可以通过传送门了解：

自恢复

Self-healing

Minerva通过智能警报发现数据链路的异常，并实现自动化回填，这样可以更好的应对突发状况，这些状况可能包括：①数据加工链路出现bug，②集群基础设施不稳定，③调度程序中断，④上游数据超时等等。

实现自动化回填，首先要能感知到数据缺失与否。每次作业开始时，Minerva都会检查现有数据是否有缺失。如果发现有缺失的数据，它会自动将其包含在当前运行中。也就是说单一运行可以动态决定计算窗口并回填数据。任务失败时，用户不需要手动重置任务。

失败运行中缺失的数据被识别并作为未来运行的一部分进行计算

如果Minerva识别到相关数据版本不存在数据，它就会自动从其上游数据集中生成数据。如果回填窗口非常过长（例如几年），Minerva可能会生成一个跨度较长时间的查询，如此高的负载会造成资源使用的高峰。虽然Airbnb的基础计算引擎是可扩展的，但是一旦基础设施有点风吹草动，长时间运行的查询就很容易受到影响，如果查询失败，则恢复成本很大。

另一个极端，使用像一天这样的小窗口回填太慢。为了提高可扩展性、减少运行时间和提高恢复能力，Airbnb实施了批量回填。

在2021-05-01任务中，单个作业被分解为多个并行的每月批次

通过批量回填，根据特定数据集的可扩展性，Minerva将工作分成几个日期范围。例如，Minerva可以将两年数据的回填分成24个一个月的批次运行。失败的批次将在下一次运行中自动重试。

这种自动化的数据集管理让不同团队重新理清职责。基础设施问题由平台团队负责，而数据问题则由相应的产品或数据科学团队负责。不同的数据集需要不同级别的升级处理。Minerva会根据错误类型智能地提醒对应团队，并通知下游应用数据延迟。这样，在Airbnb内部运营中，责任和能力就更好的匹配，避免了以前动不动就召集多个团队会诊来解决问题。

一致性

Consistent

Minerva的指标库会经常被用户修改，如何确保由Minerva生产的数据集始终是一致和最新的？答案在数据版本控制，也就是配置文件中指定所有重要字段的哈希值。当更改影响生成数据的字段时，数据版本就会自动更新。每个数据集都有一个独特的数据版本，因此当版本更新时，就会自动创建一个新的数据集并进行自动回填。

单个维度的更新可以触发所有使用该维度的数据集的回填

上图中我们可以看到，维度源1中的某个维度已更新。鉴于这个维度被两个维度集（即A123和B123）使用，与这两个维度集相关联的数据版本也会相应更新。随着数据版本的更新，这两个维度集的将启动自动回填。在Minerva中，变更产生新的数据版本，进而触发回填，Minerva维持跨数据集数据一致性的方法，确保上游变更有效、可控的传播到所有下游数据集。

高可用

Highly available

了解了Minerva通过数据版本来维护数据一致性，那就会产生一个问题，用户变更的速度可能快于回填的速度，也就会出现一个快速变化的数据集可能会永远处于回填模式，导致显著的数据停机时间。

为了解决这个问题，Airbnb创建了一个名为Staging的并行计算环境。Staging其实是生产环境的副本，根据待处理的用户配置构建。在替换生产环境之前，通过共享环境中自动执行回填，Minerva将多个未发布的变更应用于一组回填。这样一来①用户不再需要跨团队协调变更和回填；②数据分析应用不再经历数据停机时间。

Staging环境的数据流如下：

①用户在本地环境中创建并测试新变更。

②用户将变更合并到Staging环境。

③Staging加载配置，可以通过必要的生产配置进行补充，回填修改过的数据集。

④回填完成后，Staging配置被合并到生产环境。

⑤生产环境立即采用新定义，向数据分析应用提供数据服务。

配置更改首先加载到Staging，在准备发布前合并到Production

暂存环境暂存环境使我们能够在用户频繁更新定义的情况下，同时保持关键业务指标的一致性和可用性。这对于公司内部许多大规模数据迁移项目的成功至关重要，并且它帮助我们专注于数据质量，从而改进了我们的数据仓库。

即使用户频繁更新定义，Staging也能让Airbnb的关键业务指标保持一致性和可用性。这使得Airbnb内部大规模数据迁移项目更加得心应手，可以在专注于数据质量的同时改进数据平台。

可验证

Well tested

定义指标和维度是一个不断迭代的过程。有时候用户经常发现原始数据会有一些波动，需要深入了解他们的源数据是如何产生的，因此Minerva就必须帮助用户验证数据的正确性，了解源数据发生了什么，这样才能快速迭代。

用户使用Minerva原型工具的开发流程

为了实现可验证这一点，Airbnb创建了一个引导式的原型工具，它从生产环境读取数据，写入到一个隔离的沙盒。利用Minerva任务流执行逻辑，在用户本地修改之上快速生成样本数据。这样用户能够利用新数据和已有数据检查质量，同时也可以提供样本数据来验证输出是否符合预期。

有了这样的验证工具，就能清晰地展示了Minerva任务流是如何一步步计算出结果的，计算逻辑可见既可以让用户独立调试，同时也是Minerva开发团队所依赖的测试环境。

在性能方面，根据用户配置的日期范围和抽样数据，该原型工具可以约束测试数据的大小，极大加快了执行时间，从几天时间缩短到几分钟。

用Minerva分析疫情对旅行的影响

旅游民宿平台受大环境影响明显，尤其是在疫情期间，市场发生巨变，疫情完全改变了人们在Airbnb上的旅行方式。接下来我们以Airbnb的一个典型用户翠花的视角，看下用户是如何通过Minerva将数据迅速转化为分析和决策的。

翠花从历史数据了解到，Airbnb对城市与非城市目的地的需求大约是两倍。在疫情期间，翠花假设旅行者会避开大城市，选择人群不太密集的目的地。

为了证实这个假设，翠花决定做一个分析，按dim_listing_urban_category维度划分夜间预订数（nights_booked）指标。由于夜间预订数是公司的主要指标之一，翠花很容易在Minerva中找到其定义。然而，她关心的房源列表维度在Minerva中并不可用，于是翠花利用美国宇航局（NASA）发布的全球城乡映射和世界人口密度（GPW v4）来设计一个新的Minerva维度。

翠花在维度源中配置新维度

翠花还将这个新维度的定义添加到Airbnb内部用于追踪疫情对业务运营影响的维度集中。

翠花将新维度添加到Central Insights团队拥有的疫情SLA度集中

为了在Minerva中验证这个新维度，翠花使用了上文提到的原型工具来计算包含这个新维度在内的数据样本。几分钟内就可以确认配置有效，数据正确组合。

翠花能够在几分钟内与同事分享样本数据

在验证了数据之后，翠花向Core Host团队提交了一个代码审查的拉取请求，该团队负责所有房源元数据的定义。这个拉取请求包括了执行日志、计算成本估算，以及便于审查的样本数据链接。在获得批准后，翠花将更改合并到了共享的Staging环境中，经过几个小时，修改过的数据集的全部历史自动进行了回填，并最终合并到了生产环境。

内部用户可以看到随着旅游业的反弹，客户需求发生变化

利用新创建的数据集，公司内各团队和领导开始在他们的仪表板中突出显示并跟踪用户行为变化。这一关键绩效指标的变化还促使了Airbnb重新设计关键产品页面，以适应用户变化的出行习惯。

跨事件源（y轴）采用新的维度源（红色）

在这个用户实例中，翠花先是定义一个新的维度，然后将其添加到已有的指标标准中，获得批准后，在几天内为多个团队更新大量关键数据集，而这些仅是通过几十行 YAML配置完成的。

到目前为止，Minerva中已有超过12,000个指标和4,000个维度，有超过200个数据生产者，横跨不同的职能部门（例如数据、产品管理、财务、工程）和团队（例如核心产品、信任、支付）。现在大多数团队都将Minerva视为Airbnb的首选分析、报告和实验框架。

过去两年Airbnb对Minerva的使用率大幅增长。

了解更多的指标相关内容，可以关注偶数，或者添加下方群管理员微信领取Kepler介绍PPT。

往期推荐

偶数发布对话式数据分析平台Kepler，会聊天就会数据分析

一次讲清楚实时湖仓数据处理架构如何落地

《分析型数据库技术要求》标准发布，偶数科技等厂商深度参与

大模型、实时需求推动湖仓平台走向开放

Gartner发布2023年最新技术成熟度曲线，偶数科技位列湖仓一体代表厂商

OushuDB × 东方证券：数据仓库信创国产化最佳实践

从北京到南京：偶数在能源行业的数据迁移实践

信通院联合偶数科技等企业发布《云原生湖仓一体白皮书》

↑扫描上方二维码↑

拉你进入技术交流群

偶数成立于2016年，是国家级专精特新“小巨人”企业。专注于云数据平台产品和解决方案，自主研发云原生分布式数据库OushuDB及实时湖仓数据平台Skylab。总部位于北京，在上海、南京、广州、武汉等地设有分支机构。偶数服务了国家电网、中国移动、建设银行等众多世界500强客户。获得国际著名投资机构红杉中国、腾讯、红点中国与金山云的四轮投资，是微软加速器和腾讯加速器成员企业。被评为福布斯中国企业科技50强，Gartner Cool Vendor，IDC Innovator。

点击下方阅读原文获取行业报告

http://mp.weixin.qq.com/s?__biz=MzIyNzgwNDgxNw==&mid=2247496801&idx=1&sn=cef44cdf8ab34780f4b0065f1d522319

偶数

专注于云数据平台产品和解决方案

最新文章

OushuDB 6.0发布：为实时湖仓注入强大动能

《实时湖仓建设方法》连载之五：快速了解实时湖仓的基本概念及ANCHOR标准

《实时湖仓建设方法》连载之四：新兴期湖仓一体融合

《实时湖仓建设方法》连载之三：蓬勃期流行一时的大数据平台

OushuDB 专家认证第六期报名开始啦！

HA999到底是千足金还是感冒药？

突发！上交所今天又挂了！

阿里云盘事件——数据资产如何守护？

《实时湖仓建设方法》连载之二：数据平台开立期的数据仓库

《实时湖仓建设方法》连载之一：为什么想系统的聊聊实时湖仓的建设方法？

不容错过：2024 VLDB Keynote演讲—— Samuel Madden（文末附下载链接）

偶数ODCP第五期认证专家考试圆满结束！

广东电网国产化数据平台替代实践

为什么对话式数据分析需要整合指标管理，必要性在哪？

今天全球蓝屏的作者找到了

一些人已经悄悄用上对话式数据分析，你发现了吗？

偶数科技亮相2024可信数据库发展大会

国外企业指标管理实践：Airbnb（下）

国外企业指标管理实践：Airbnb（上）

OushuDB 专家认证第五期报名开始啦！

硅基还是碳基？大模型与人类大脑

从GUI到CUI，我们可以期待哪些变革？

一次讲清楚实时湖仓数据处理架构如何落地

偶数发布对话式数据分析平台Kepler，会聊天就会数据分析

《分析型数据库技术要求》标准发布，偶数科技等厂商深度参与

偶数科技受邀参加2024中国移动算力网络大会

关于实时数据的疑问和期待，这篇一次讲透!

我的数据没价值吗？数据价值如何算？

Sora效果炸裂，大模型应用还有哪些？

🧧🧧🧧这泼天的富贵丨偶数新春红包火热上线等你来拿，祝你龙年行大运！

偶数 × 中信建投：金融行业湖仓一体平台实践案例

【2023大数据产业年度趋势人物】偶数科技常雷：实时需求正当时，实时湖仓将开启数据库新时代

偶数ODCP第四期认证考试圆满结束！

2024：但愿美好在，岁月常如新

利用OushuDB实现Native ORC格式增量备份

我们如何帮助银行构建开放的大数据贴源层

OushuDB历史SQL监控功能详解

挂牌一个月，国家数据局都有哪些大动作？

对话偶数科技常雷：如何开启实时湖仓一体时代？

实时数据处理的“终极”版本是什么？

OushuDB 专家认证第四期报名开始啦！

我在人大立德楼，等你来领秋招好礼！

偶数科技携Skylab实时湖仓数据平台亮相2023全国中小企业数字化转型大会

偶数科技亮相2023中国程序员节——数据库技术高峰论坛

国家数据局正式揭牌，2030年数据要素市场规模或破万亿

收获时节，偶数科技发布实时湖仓Skylab 5.4版本

偶数入选IDC中国数据智能市场生态图谱V4.0

偶数2024 校招 | 数据库内核研发工程师专场

从北京到南京：偶数在能源行业的数据迁移实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉