在2023年3月8日举行的 SAP Data Unleashed 2023 活动 中,宣布 SAP Datasphere 将作为下一代 SAP Data Warehouse Cloud,包含增强的数据发现、建模和分发功能。
标志着SAP 的 SaaS 云战略最终引入了企业数据仓库 (EDW) 解决方案:SAP Datasphere(以前称为 SAP Data Warehouse Cloud)。
简介
SAP Datasphere 是 SAP 在云端数据仓库解决方案的发展成果,它结合了 SAP Data Warehouse Cloud 的敏捷企业数据仓库和自助数据建模功能,以及 SAP Data Intelligence Cloud 的数据编排、数据溯源和数据质量等功能。
许多人可能会好奇业务数据网格(Business Data Fabric) 是什么,因此这里提供一个简洁的定义:
【业务数据网格】 超越了传统数据网格的范畴。虽然它同样能够简化复杂的数据环境并为每位数据消费者提供有意义的数据,但它进一步保留了数据的业务逻辑和应用上下文(即保留数据的“DNA”)。
因此,业务数据网格无需重新创建因数据提取而丢失的业务上下文,使得业务相关者和数据消费者能够快速、可靠地做出决策。他们可以确信,无论数据存储在哪里或设计如何,都能全面了解其数据的全貌。
功能与特点
1. 与 SaaS 源系统的高效集成
SAP Datasphere 在与 SaaS 类型的源系统集成时表现优异,可以在相同的技术环境中安装。这种架构优化了从源系统到数据仓库的数据传输,尤其在将云端数据上传到本地仓库时具有明显优势。
2. 消费者需求导向
SAP Datasphere 不再完全按照传统“理想型”数据仓库的原则设计,而是基于消费者的实际需求起步,从简单的小型架构开始,同时也支持建立复杂的数据仓库解决方案。通过减少复杂性带来的性能风险,优化用户体验。
3. 双层结构
语义层(Semantic Layer): 提供简单的自助式数据源管理、连接和转换功能。
数据仓库层(Data Warehouse Layer): 是数据收集与统一的基础,主要用于构建供语义层使用的数据视图。
4. SQL 兼容性
与 SAP BW/4HANA 类似,SAP Datasphere 是一种应用型设置,但它支持 SQL 技能的应用,对于使用基于 SQL 的企业数据仓库解决方案的公司尤为吸引力。
5. 易用性
通过图形化建模工具简化数据结构建模,支持通过预构建适配器添加来自本地驱动器或任何数据源(如数据湖或简单平面文件)的数据集。此外,SAP Datasphere 还可以通过开放的 SQL 模式启用 SAP HANA 数据湖功能。
6.与 SAP Analytics Cloud 的集成
SAP Datasphere 的功能可以直接通过 SAP Analytics Cloud 界面访问,专注于业务部门的用户需求。这种方法支持自上而下(Top-Down)创建数据仓库的模式,允许通过子集建模的对象构建组织层级,从而实现企业范围的协作(类似于 Universes 的概念)。
7.与 SAP BW/4HANA 和 S/4HANA 的深度集成
一个显著的优势是 SAP Datasphere 实现了与 SAP BW/4HANA 或 SAP S/4HANA 底层数据模型的全面集成。它通过灵活连接 SAP 系统并避免数据模型的双重维护(如复制域模型),实现了质的飞跃。同时,SAP Datasphere 重用了 SAP Data Intelligence 的数据上传功能。
推荐场景与优势
适合采用 SaaS ERP 系统的企业:
对于使用 SAP S/4HANA Cloud Essentials 版的企业,SAP Datasphere 是首选的企业数据仓库。数据位于相同环境中,支持云战略,适用于大多数简单或小型用例。
适合新接触 SAP ERP 的公司:
对于首次使用 SAP S/4HANA 或刚开始接触数据仓库的公司,自上而下的建模方法使得 SAP Datasphere 成为值得推荐的解决方案。
推荐SAP Datasphere的十大理由以及案例:
理由 1:保留业务上下文
在传统的数据相关项目中,平均有 80% 的时间用来重新构建由于数据复制导致丢失的业务上下文,尤其是从数据库层获取数据时。这种低效过程会丢失元数据、层级结构等重要信息,从而损害对数据的业务理解。这种额外的时间和成本被称为“隐藏数据税”。
SAP Datasphere 利用 SAP S/4HANA 系统中超过 6000 个预构建的 CDS 视图,通过语义化和稳定的虚拟数据模型(VDM)提取数据,保留 SAP 数据的业务上下文,从而简化集成、建模和分析准备工作。
理由 2:数据联邦访问与集成灵活性
通常,企业通过将数据从 SAP 生态系统中提取出来实现数据整合,但这可能会导致多版本的数据真相、分析错误和合规风险。
SAP Datasphere 提供以下数据整合方式:
数据联邦(Data Federation): 实现实时远程数据访问,无需移动数据,适用于 SAP 和非 SAP 数据源。
数据复制(Data Replication): 通过实时或快照方式复制数据,并支持通过 CDS 视图的内置增量提取机制完成复制。
理由 3:降低安全配置的复杂性
通过 SAP Datasphere,现有的安全授权可直接复用,如 SAP BW/4HANA 系统的行级安全权限。这样可以减少实施安全配置的时间和工作量,同时保持业务连续性。
理由 4:民主化数据访问与自助式数据建模
SAP Datasphere 提供低代码/无代码工具,支持业务用户和 IT 用户通过拖放方式创建数据模型,结合 SQL 和 SAP HANA 云建模功能,既能满足专业开发者,又适合自助分析用户。
理由 5:企业级数据目录改进数据治理
SAP Datasphere 配备企业数据目录,支持元数据管理、数据谱系、分类和术语表等功能。通过数据目录,用户可以轻松探索和管理数据,从而改进数据治理。
理由 6:利用现有 SAP BW 投资并简化架构
SAP Datasphere 提供三种主要方法来迁移 SAP BW 系统:
云迁移 (BW Bridge): 加速从 BW 系统迁移到 Datasphere,同时保留历史数据和对象。
混合模型 (Model Transfer): 在 BW/4HANA 中迁移元数据至 Datasphere,实现混合使用。
联邦与复制 (Federation & Replication): 利用操作数据提供框架(ODP)或 HANA 外部视图连接,支持数据整合。
理由 7:降低存储成本并提升性能
SAP Datasphere 结合 SAP HANA 云的内存数据库和列式数据湖技术,为冷热数据存储提供高性能查询,支持大规模数据分析,同时降低存储成本。
理由 8:行业与业务内容
SAP Datasphere 提供超过 250 个由 SAP 行业专家或合作伙伴开发的内容包,包括预构建的仪表盘、数据模型和视图,加速数据使用价值的实现,同时支持定制化需求。
理由 9:嵌入式机器学习与人工智能
SAP Datasphere 支持使用 Python 和 R 进行机器学习模型开发,并与 Google Vertex AI、AWS Sagemaker、Azure ML 等集成。其 FedML 能力允许虚拟数据与外部 AI 平台连接,扩展预测建模。
理由 10:开放与非 SAP 数据集成
SAP Datasphere 与多家开放数据平台合作,如 Collibra、Databricks 和 DataRobot,支持跨平台数据访问和治理,从而扩展 AI 和数据湖应用的可能性。
客户案例:Messer, Gases for Life
Messer 通过 SAP Datasphere 实现了数据架构简化和整合,结合数据联邦访问和自助建模,大幅提升了数据使用效率,并降低了数据管理成本。
SAP Datasphere 提供了强大的灵活性和创新性,是企业现代化数据管理的重要工具。