大数据科普——什么是图数据库?

学术   2024-09-25 18:01   云南  

前言:

竹山菌最近在做大数据相关的项目,需要用满足建设要求的图数据库作为底层能力支撑知识图谱的构建。我和国内头部厂商做了一些深入交流,并开展了多轮调研,了解到目前国内图数据库的发展情况和存在的不足。
作为大数据时代的新兴技术,图数据库以其高效的处理和查询高度互联的数据的管理能力特性得到了迅速的发展。但是,国内目前关于图数据库的介绍资料非常稀少,于是结合手里的调研资料,站在使用者的角度,从几个常规问题出发,总结出一篇两万字的图数据库科普文章。
文章内容比较多,阅读时间较长,为了帮助大家快速定位到感兴趣的内容,节约大家的时间,竹山菌做了一个目录索引,大家可以按一、二级标题进行快读查询和阅读。

目 录

一、 什么是图数据库?

二、 图数据库的发展历史

三、 图数据库在处理大规模数据上有什么优势?

四、 图数据库有哪些经典应用场景?

五、 图数据库的性能评估

六、 图数据库的性能优化

七、 2024年国内外主流图数据库的基本情况

7.1国外主流图数据库(7个)

7.2国内主流图数据库(9个)
八、参考文献

 

 一、什么是图数据库? 

在计算机科学领域,图数据库(Graph Database, GDB[1])是一种采用图结构进行数据存储和查询的数据库系统。它通过节点、边和属性来组织和表示数据,其中节点代表数据实体,边则表示实体之间的关系。图数据库的核心优势在于其能够直接映射和存储数据项之间的联系,使得数据的关联性查询变得迅速而直观。由于关系在数据库中是持久化的,图数据库在处理高度互联的数据时表现出色,能够通过一次操作即可检索复杂的关系网络。[2]

图数据库属于非关系型数据库(NoSQL)的范畴,它旨在克服传统关系数据库在处理复杂数据关系时的局限性。在图数据库中,数据节点之间的依赖关系被明确地表示出来,这与关系数据库模型和其他NoSQL数据库模型通过隐式连接来关联数据的方式形成对比。图数据库的设计初衷是为了简化对复杂层次结构数据的检索,这些数据在关系数据库中往往难以建模。图数据库的概念与20世纪70年代的网络模型数据库相似,都旨在表示图结构,但网络模型数据库在较低的抽象层次上运行[3],且不便于遍历多个边[4]。

图数据库的存储机制多种多样,有的依赖于关系型数据库引擎,将图数据以表的形式存储,尽管表是逻辑上的元素,但这种方法在图数据库、图数据库管理系统和物理存储设备之间增加了额外的抽象层。还有一些图数据库使用键值存储或文档型数据库作为存储基础,这些存储方式天生具有NoSQL的特性。大多数基于非关系型存储引擎的图数据库还引入了标签或属性的概念,这些标签或属性本质上是指向其他文档的指针,使得数据元素可以被分类和集中检索。

在图数据库中检索数据通常需要使用除SQL之外的查询语言。SQL是为关系数据库设计的,并不适用于图结构的遍历。截至2017年,尚无一种像SQL那样普遍适用的图查询语言,大多数查询语言都是特定于某个产品的。然而,随着标准化工作的推进,Gremlin、SPARQL和Cypher等语言已经成为跨多个供应商的查询语言。除了查询语言接口,一些图数据库还提供了应用程序接口(API)供用户访问。

图数据库与图计算引擎在用途上有所区别。图数据库主要用于事务型处理(OLTP),而图计算引擎则用于分析型处理(OLAP)中的批量数据分析。随着主要技术公司在专有图数据库领域的成功应用,以及开源图数据库的兴起,[5]图数据库在2000年代末开始受到广泛关注。

图数据库是一种用于存储和检索图形结构数据的数据库。在这种数据库中,数据以图的形式存储,其中节点代表实体(如人、地点、物品),边代表实体之间的关系(如朋友、位于、拥有)。图数据库特别适合于处理复杂的关系和网络结构,因为它们可以高效地查询和分析节点和边。

图数据库的一些关键特点包括:

灵活的模式:图数据库通常不需要固定的模式,这意味着你可以在不中断服务的情况下添加新的节点和关系类型。

高效的查询:图数据库使用图遍历算法来查询数据,这使得它们在处理复杂的关系查询时非常高效。

可扩展性:许多图数据库设计为可水平扩展,这意味着它们可以通过增加更多的服务器来处理更大的数据集。

ACID事务:图数据库支持ACID(原子性、一致性、隔离性、持久性)事务,确保数据的完整性和一致性。

图形查询语言:图数据库通常有自己的查询语言,如Cypher(用于Neo4j)、Gremlin等,这些语言专门用于编写图形查询。

用例:图数据库广泛应用于社交网络分析、推荐系统、网络分析、生物信息学、知识图谱等领域。

图数据库与关系型数据库和NoSQL数据库不同,它们各自适用于不同的数据模型和查询需求。关系型数据库适合处理结构化数据和事务性操作,而NoSQL数据库(如键值存储、文档存储、列族存储等)则适合处理非结构化或半结构化数据。

以下是2024年全球值得关注的图形数据库列表:

名称
版本
许可证
语言
描述
Teradata Aster
7 (2016)
专有
Java, SQL, Python, C++, R
大规模并行数据库,包含支持原生SQL、MapReduce和Graph数据存储和操作的专利引擎;  提供一组分析函数库和数据可视化功能[22]
Sqrrl Enterprise
2.0 (2015-02)
专有
[Java]]
分布式实时图形数据库,具有单元级安全性和大规模可扩展性[21]
Sparksee
5.2.0 (2015)
专有, 商业, 免费软件 用于评估、研究和开发
C++
来自Sparsity  Technologies的高性能可扩展数据库管理系统;主要特征是检索和探索大型网络的查询性能;具有Java,C  ++,C#,Python和Objective-C的绑定; 版本5是第一个图移动数据库
SAP HANA
SPS12 Revision 120
专有
C, C++, Java, JavaScript & SQL
内存中的ACID事务;支持属性图[20]
OrientDB
2.2.24 (2017-07)
社区版 Apache 2, 企业版 商业
Java
第二代分布式图形数据库,具有灵活性(即它同时是图数据库和文档数据库);在开源Apache  2许可下获得许可;拥有完整的ACID支持;它有一个多主复制和分片;支持无结构模式、全模式和混合模式;有一个基于用户和角色的安全性分析系统;支持类似于SQL的查询语言;有HTTP  REST + JSON API。
Oracle Spatial and  Graph; Oracle数据库的一部分
12.1.0.2 (2014)
专有
Java, PL/SQL
1)RDF语义图:Oracle数据库中全面的W3C  RDF图管理,具有本机推理和三级标签安全性;2)网络数据模型属性图:用于具有持久存储的物理/逻辑网络和用于内存中图形分析的Java API
OpenLink Virtuoso
8.2 (2018-10)
开源版本 GPLv2, 企业版本 proprietary
C, C++
安全且高性能的多模型(混合)关系数据库管理系统(RDBMS),支持SQL和SPARQL,用于对建模为SQL表和/或RDF图的数据进行声明(数据定义和数据操作)操作。还支持从多种文档类型(包括CSV,XML和JSON)索引RDF-Turtle,RDF-N-Triples,RDF-XML,JSON-LD以及映射和生成关系(SQL表或RDF图)。可以部署为本地或嵌入式实例(在NEPOMUK语义桌面中使用),单实例网络服务器或无共享弹性集群多实例网络服务器[19]
Neo4j
3.3.5 (2018-04)[17]
GPLv3 社区版,商业 & AGPLv3 企业和高级版
Java, .NET, JavaScript, Python, Ruby
开源,支持ACID,具有用于企业部署的高可用性集群,并附带基于Web的管理工具,包括完整事务支持和可视节点链接图浏览器;可以使用其内置的REST Web  API接口从大多数编程语言访问,以及使用官方驱动程序的专有Bolt协议;截至2019年1月最受欢迎的图数据库。[18]
Nebula Graph
2.0.0 pre (2020-08)
Apache 2
C++, nGQL
开源(页面存档备份,存于互联网档案馆)的分布式图数据库。属性图建模,可支持万亿级别的关联关系,并支持 RocksDB 后端存储
Microsoft SQL Server 2017
RC1
专有
SQL/T-SQL, R, Python
提供图数据库功能以模拟多对多关系,图关系已集成到Transact-SQL中,并使用SQL  Server作为基础数据库管理系统。[16]
MarkLogic
8.0.4 (2015)
专有, 免费软件开发者版
Java
存储文档(JSON和XML)和语义图数据(RDF三元组)的多模型NoSQL数据库;还具有内置的搜索引擎和企业功能,如ACID交易。
JanusGraph
0.6.1 (2022-01-18)[13]
Apache 2
Java
开源、可扩展、在Linux基金会下的分布式图数据库;支持各种存储后端(Cassandra,HBase,Bigtable,BerkeleyDB);[14] 通过与大数据平台(Spark、Giraph、Hadoop)的集成支持全局图数据分析、报告和ETL;通过外部索引存储支持地理、数字范围和全文检索(ElasticSearch、Solr、Lucene)。[15]
InfiniteGraph
3.0 (2013-01)
专有, commercial
Java
分布式,支持云
HugeGraph
v0.10.4(页面存档备份,存于互联网档案馆) (2019-11-08)
Apache 2
Java, Gremlin, Python
百度开源(页面存档备份,存于互联网档案馆)的分布式图数据库。支持标准的Apache Tinkerpop Gremlin图查询语言,支持属性图,可支持千亿级规模关系数据;支持多种后端存储(Cassandra,HBase,RocksDB,MySQL,PostgreSQL,ScyllaDB);支持各类索引(二级索引、范围索引、全文索引、联合索引,均无需依赖第三方索引库);提供可视化的Web界面,可用于图建模、数据导入、图分析;提供导入工具支持从多种数据源中导入数据到图中,支持的数据源包括:CSV、HDFS、关系型数据库(MySQL、Oracle、SQL  Server、PostgreSQL);支持REST接口,并提供10+种通用的图算法;支持与Hadoop、Spark GraphX等大数据系统集成。[12]
DataStax Enterprise Graph
v6.0.1 (2018-06)
专有
Java
分布式、实时、可扩展的数据库,支持Tinkerpop并与Cassandra集成[11]
ArangoDB
3.3.11 (2018-06-28)
自由 Apache 2, Proprietary,
C++, JavaScript, .NET, Java, Python, Node.js, PHP, Scala, Go, Ruby, Elixir
由triAGENS  GmbH开发的NoSQL原生多模型数据库系统。 数据库系统支持三个重要的数据模型(键/值、文档、图形)、一个数据库核心和一个统一的查询语言AQL(ArangoDB查询语言)
AnzoGraph
4.0 (2018-02)
专有
C, C++
AnzoGraph是一个大规模并行原生图GOLAP(图形在线分析处理)样式数据库,用于支持复杂的SPARQL连接查询和分析数万亿个关系。AnzoGraph  被设计用于交互式分析广泛的RDF数据,这些数据在数周或数年的交易中累积,可能来自许多不同的GOLTP和其他数据库来源。[7][8][9][10]
Amazon Neptune
1.0.1.0.200237.0 (2018-09)[6]
专有
未披露
Amazon Neptune  是亚马逊公司完全托管的图数据库。它被用作web服务,是亚马逊云计算服务的一部分。支持流行的图形模型属性图和W3C的RDF,以及它们各自的查询语言 Apache  TinkerPop Gremlin和SPARQL。
AllegroGraph
5.1 (2015-05)
专有, 客户端: Eclipse公共许可证 v1
C#, C, Common  Lisp, Java, Python
资源描述框架(RDF)和图数据库
 二、图数据库的发展历史 

图2-1 数据库发展历史一张图(来自RDBMS Genealogy)

图2-2 图数据库发展历史一张图(竹山菌绘制)

起源阶段:图数据库的概念最早起源于20世纪60年代,当时的数据库如IBM的IMS导航型数据库已经支持层次模型和树状结构,这些都是图结构的早期形式。随后,网络模型数据库(Network model Databases)在60年代后期出现,支持更复杂的图结构,如CODASYL定义的网络数据库语言。

单机原生图数据库(Graph 1.0):2002-2010年间,图数据库开始兴起,以单机原生图存储为主,无需索引即可进行遍历查询,提升了查询效率。Neo4j是这一时期的典型代表。

分布式非原生图数据库(Graph 2.0):2010-2016年间,随着大数据时代的到来,图数据库开始向分布式存储发展,提高了扩展性,但查询性能相对较低,无法有效支持多跳深链查询。JanusGraph是这一时期的代表。

原生分布式图数据库(Graph 3.0):从2017年开始,第三代图数据库注重实时更新和查询,提升了存储扩展性和并行计算能力,以满足大数据量下的查询效率。这一时期的图数据库开始与知识图谱平台、人工智能平台融合,如Galaxybase和TuGraph。

国内图数据库的崛起:国内图数据库起步较晚,但发展迅速。从最初的技术引进和研究,到自主创新和应用拓展,国内图数据库在社交网络分析、推荐系统、金融风控等领域发挥了重要作用。

未来展望:图数据库将继续与其他技术如人工智能、物联网、区块链等融合,提供更强大的图分析和预测能力。性能和可扩展性也将进一步增强,以应对日益增长的数据规模和复杂性。

 三、图数据库在处理大规模数据上有什么优势?

高效的查询性能:图数据库专门针对图结构数据的查询进行了优化,能够快速执行复杂的关系查询,尤其是多跳查询。在社交网络分析、推荐系统等场景中,图数据库能够快速找到节点间的关联关系,而传统的关系型数据库在处理这类查询时可能需要多层JOIN操作,效率较低。

数据模型的自然表达:图数据库以节点和边的形式存储数据,这种数据模型更自然地反映了现实世界中实体之间的关系。例如,在社交网络中,用户和用户之间的关系可以通过图数据库直观地表示和查询。

灵活的数据结构:图数据库不需要固定的模式,可以随时添加或修改节点和边的属性,这使得图数据库能够灵活地适应数据结构的变化,特别是在数据模式频繁变化的应用场景中。

可扩展性:许多图数据库设计为可水平扩展,通过增加更多的服务器来处理更大的数据集,这对于大规模数据的处理尤为重要。

支持复杂的图形算法:图数据库通常内置了对复杂图形算法的支持,如最短路径、中心性分析等,这些算法在社交网络分析、网络拓扑分析等领域有着重要应用。

可视化和交互:图数据库的图形结构天然适合可视化,可以帮助用户更直观地理解和分析数据,这对于数据探索和决策支持非常有价值。

事务支持:一些图数据库如Neo4j提供了ACID事务支持,确保数据的一致性和完整性,这对于金融欺诈检测等需要高可靠性的应用场景至关重要。

多模型支持:一些图数据库如ArangoDB支持多模型存储,不仅可以存储图结构数据,还可以存储文档、键值对等,提供了更大的灵活性。

丰富的生态系统:图数据库领域有着活跃的开源社区和丰富的工具生态,如Gremlin、Cypher等图查询语言,以及各种图可视化工具,这些工具和社区支持为图数据库的应用提供了便利。

 四、图数据库有哪些经典应用场景?

图数据库在多个具体应用场景中表现出其独特的优势,以下是一些最为突出的领域:

社交网络分析:图数据库能够高效地处理和分析用户之间的关系,如好友关系、互动行为等,实现社交网络分析和好友推荐系统。社交网络中的复杂关系网可以通过图数据库直观地表示和查询,从而提高社交网络分析的效率和准确性。

推荐系统:在电商、内容分享平台等领域,图数据库能够根据用户的行为和偏好,构建个性化推荐模型,提供实时的相关推荐。通过分析用户与商品或内容之间的复杂关系,图数据库能够快速生成推荐列表。

金融风控:图数据库在金融行业用于实时监测和分析交易行为,识别欺诈行为和洗钱活动。通过构建实体之间的关系图谱,图数据库能够揭示潜在的风险模式和异常交易。

生物信息学:在生物信息学领域,图数据库用于存储和分析生物实体(如基因、蛋白质)及其相互作用。这有助于研究人员更好地理解生物系统的复杂性,并加速新药研发和疾病研究。

网络安全:图数据库在网络安全领域用于分析网络流量、识别恶意软件传播路径和攻击模式。通过构建网络实体和连接的图谱,图数据库能够提高威胁检测的速度和准确性。

供应链管理:图数据库能够处理复杂的供应链网络,优化库存管理、物流跟踪和供应商管理。通过分析产品流、信息流和资金流,图数据库有助于提高供应链的透明度和效率。

知识图谱:图数据库在构建和查询大规模知识图谱方面具有优势,这些知识图谱用于支持智能问答系统、个性化搜索和决策支持系统。

物联网(IoT):在物联网领域,图数据库能够管理和分析来自传感器和设备的大量数据,实现设备间的智能交互和自动化控制。

电信网络:图数据库用于电信网络管理,优化网络拓扑结构、路由分析和故障检测。

内容管理和访问控制:图数据库在内容管理平台中用于处理复杂的权限和访问控制关系,提供快速的权限验证和内容访问。

 五、图数据库的性能评估 

作为上层应用的基础,图数据库的性能和可扩展性是影响应用使用体验的关键因素。以下是一些可以用来参考的关键指标和方法:

查询性能:这是衡量图数据库性能的重要指标之一。可以通过执行标准的图查询,如深度优先搜索、广度优先搜索、最短路径等,来测试数据库的响应时间和吞吐量。不同的图数据库可能支持不同的查询语言,如Neo4j的Cypher、Gremlin等,这些语言的表达能力和执行效率也会影响性能。

写入性能:对于需要大量写入操作的应用场景,图数据库的写入性能至关重要。可以通过批量插入节点和边,以及更新节点和边的属性来测试写入性能。

并发处理能力:图数据库应能够处理多个用户或服务同时进行的查询和写入操作。可以通过模拟多用户环境来测试并发性能。

分布式能力:对于大规模数据集,图数据库的分布式能力决定了其可扩展性。测试分布式能力通常涉及在多个节点上分布数据,并测试跨节点的查询性能。

数据规模:图数据库能够处理的数据规模也是一个重要的考量因素。可以通过逐步增加数据量来测试数据库的性能是否会随着数据规模的增长而下降。

易用性:图数据库的安装、配置、以及提供的管理工具的易用性也会影响其在实际应用中的性能。易用性高的工具可以减少配置错误和维护成本。

生态系统和工具支持:一个成熟的生态系统可以提供更多的工具和库来支持图数据库的使用,这也间接影响数据库的性能和可扩展性。

基准测试:使用标准化的基准测试,如LDBC SNB(Linked Data Benchmark Council Social Network Benchmark),可以提供客观的性能比较数据。

社区和支持:一个活跃的社区和良好的技术支持可以提供更多的资源和解决方案,帮助优化图数据库的性能和可扩展性。

案例研究:参考其他组织如何成功使用图数据库的案例研究,可以提供宝贵的见解,并帮助了解特定数据库的实际优势和挑战。

六、图数据库的性能优化 

在处理大规模数据时,可以通过以下几个策略实现图数据库的性能调优:

索引优化:为节点和边的标签、属性等创建合适的索引,可以加速查询操作,提高数据检索效率。

分片和分区:将大型图分割成多个小图或分片,并将它们分配到不同的存储节点上。这样可以并行处理查询,减少单个节点的负载,提高整体性能。

缓存机制:使用缓存来存储频繁访问的数据,减少对磁盘的访问次数,从而加快查询速度。

查询优化:优化查询逻辑,减少不必要的数据遍历,使用更高效的图遍历算法,以及调整查询执行顺序。

并行计算:利用分布式计算资源,将查询任务分配到多个计算节点上并行执行,提高处理速度。

数据一致性:采用分布式一致性协议,如RAFT或Paxos,确保跨节点的数据一致性。

分布式事务:支持跨节点的ACID事务,确保并发操作的正确性。

动态调整:支持在线水平扩缩容,根据数据量和查询负载动态调整集群资源。

监控和管理:建立有效的监控系统,实时监控数据库性能和资源使用情况,及时发现并解决问题。

选择合适的图数据库:根据业务需求选择支持高效分布式处理的图数据库系统,如JanusGraph、NebulaGraph、ArcGraph等,它们提供了不同的分布式架构和优化策略。

通过上述策略,可以显著提高图数据库在大规模数据环境下的性能和可扩展性。

 七、2024年国内外主流图数据库的基本情况 

截至2024年,图数据库技术在多个领域展现出其独特的优势,国内外众多厂商都在这一领域有所布局。以下是对2024年国内外主流图数据库的架构、特点、发布时间、发布公司背景、性能、安全性、部署成本、部署方式、发展方向、应用场景等方面的总结分析:

7.1国外主流图数据库

7.1.1 Neo4j

产品名称: Neo4j

产品架构: 原生图数据库,支持ACID事务,提供高并发读写能力。

特点:

支持属性图模型,通过节点和关系直观表示数据。

提供 Cypher 查询语言,支持模式匹配和图形算法。

支持 ACID 事务,确保数据的一致性和完整性。

提供图形数据的索引和约束,优化查询性能。

支持插件和扩展,增强数据库功能。

发布时间: Neo4j 的第一个版本发布于 2000 年,此后经历了多个版本的迭代更新。

核心技术:包括图数据模型、Cypher 查询语言、索引技术、事务管理等。

发布公司背景: Neo4j 由 Neo4j, Inc. 开发和维护,是一家总部位于美国加州的公司。

性能: 高效的图遍历性能,适用于实时查询和分析

安全性: Neo4j 提供了包括数据加密、身份验证和授权在内的安全特性。

缺点与缺陷: Neo4j的社区版在功能上有所限制,无法支持某些企业级特性,如集群部署和高可用性,这使得在生产环境中使用时可能不够灵活。

可优化方向: 未明确

部署成本: 社区版免费,企业版收费

部署方式: 支持本地部署、云部署和容器化部署,如 Docker 和 Kubernetes。

发展方向: 持续优化查询性能,增强AI和机器学习集成

应用场景: Neo4j 广泛应用于社交网络分析、推荐系统、知识图谱、网络安全、生物信息学、物联网等领域。

7.1.2 Amazon Neptune

架构: Neptune 核心是专门构建的高性能图形数据库引擎,优化了存储数十亿个关系并提供毫秒级延迟的图形查询。支持属性图模型和 RDF 图模型,以及 Apache TinkerPop Gremlin、openCypher 和 SPARQL 查询语言。

特点: AWS云服务无缝集成,自动扩展;高性能图形数据库引擎;支持多种图查询语言;供高可用性,包括只读副本、时间点恢复、持续备份到 Amazon S3 以及跨可用区复制;支持数据安全特性,包括静态数据和传输中数据的加密;完全托管服务,无需担心硬件配置、软件修补、设置、配置或备份。

发布时间: 2017年。

发布公司背景: 亚马逊网络服务(AWS)提供,美国。

性能: Neptune 存储会自动根据集群卷中的数据进行扩展,容量高达 128TiB。支持高速数据加载和查询,提供实时分析能力。

安全性: 集成AWS安全功能,如VPC和IAM。提供数据加密、身份验证、基于角色的访问控制和审计合规等安全特性。

部署成本: 按实际使用量付费,包括计算、存储和 I/O。具体成本取决于实例类型、存储需求和流量。

部署方式: Neptune 仅支持在 AWS 云环境中部署,用户可以通过 AWS 管理控制台进行配置和管理。

发展方向: 强化与其他AWS服务的集成,提升自动化管理能力。

应用场景: 网络分析、欺诈检测、知识图谱等。

7.1.3 ArangoDB

架构: ArangoDB 是一个原生多模型数据库,支持文档、键/值和图数据模型。它支持集群部署,具有无单点故障、主-主模式的 CP 架构。

特点:

支持多种数据模型:图、文档、键值;统一的查询语言 AQL;支持 ACID 事务;支持水平扩展和分布式部署;内置的 Foxx 微服务框架;支持实时分析和高级地理空间应用。

提供了强大的图形数据处理能力。支持 ACID 事务。

发布时间: ArangoDB 3.2 版本在 2017 年 7 月 27 日发布。

核心技术:包括其多模型支持、统一查询语言 AQL、分布式架构和 Foxx 微服务框架。

发布公司背景: ArangoDB GmbH ,德国 。

性能: ArangoDB 在性能方面表现出色,能够处理大规模数据集和高并发请求。它在 LDBC SNB 基准测试中表现出色,能够每秒处理 1.1 百万 JSON 文档的写入负载 。

安全性: ArangoDB 提供了包括数据加密、身份验证和基于角色的访问控制等安全特性。。

缺点与缺陷: 作为通用型数据库,可能在特定领域不如专用数据库优化。

可优化方向: 持续提升性能和安全性,增加更多数据模型的支持。

部署成本: 根据部署规模和硬件要求而定。

部署方式: 支持单机和集群部署。

发展方向: 持续增强多模型数据处理能力,提升实时分析能力和数据安全防护。

应用场景: 适用于需要处理大量图形数据和复杂关联分析的场景,如社交网络、推荐系统等。

7.1.4 OrientDB

架构: OrientDB 是一个多模型数据库,支持图形、文档、键值和对象数据模型。

特点:多模型支持、高性能、支持 ACID 事务。

发布时间: 2010年。

核心技术:包括其多模型支持、分布式架构、内存中缓存机制和本地索引。

发布公司背景: OrientDB Ltd 公司,英国。

性能: OrientDB 2.2.8 版本在查询性能和并发性能方面有显著提升。

安全性: 支持更强大的身份验证和授权机制、数据加密。

缺点与缺陷: 可作为开源产品,OrientDB 的社区支持可能不如一些商业数据库产品。此外,对于初学者来说,多模型的复杂性可能会增加学习曲线。

可优化方向: 提升分布式处理能力,增加更多集成选项。

部署成本: 提供了社区版和企业版,社区版免费,企业版可能涉及许可费用。。

部署方式: 支持多种部署方式,包括本地部署、云部署和 Docker 容器化部署。。

发展方向: 继续增强查询性能和安全性,提升存储引擎效率。

应用场景: 适用于需要处理复杂数据关系和高并发访问的场景。

7.1.5 JanusGraph

架构: JanusGraph 是一个可伸缩的事务属性图数据库。

特点:分布式图数据库、支持大规模图数据存储和查询。

发布时间: JanusGraph 的开发始于 2016 年,并在 2017 年发布了多个版本。

核心技术:支持多种存储后端,如 Apache Cassandra、Apache HBase 等;支持多种索引后端,如 Elasticsearch、Apache Solr 等。

发布公司背景: JanusGraph 是一个开源项目,由 Linux Foundation 支持。

性能: 针对大规模图数据存储和查询进行了优化。

安全性: 作为开源项目,安全性依赖于社区和用户的贡献。

缺点与缺陷: 可能需要更多的社区支持和文档来提升易用性。

可优化方向: 提升易用性,增加对更多存储和索引后端的支持。

部署成本: 根据部署规模和硬件要求而定。

部署方式: 支持单机和集群部署。

发展方向: 继续增强图数据处理能力,提升与不同存储和索引后端的兼容性。

应用场景: 适用于需要处理大规模图数据的场景,如社交网络分析、推荐系统等。

7.1.6 NebulaGraph

架构: NebulaGraph 由三种服务构成:Graph 服务、Meta 服务和 Storage 服务,采用存储与计算分离的架构。Graph 服务负责处理计算请求,Storage 服务负责存储数据,Meta 服务管理数据管理,如 Schema 操作、集群管理和用户权限管理等。

特点:支持万亿级节点和边的存储、支持高并发场景下的低时延查询。原生分布式图数据库,支持数千亿个点和数万亿条边的超大规模数据集。提供毫秒级查询。支持高并发场景下的低时延查询要求。兼容 openCypher 查询语言。

发布时间: 

NebulaGraph 自 2019 年 5 月开源以来,经历了多个版本的迭代更新。最新发行版本为 v3.0.0,发布于 2022 年 2 月 17 日。

核心技术:存储与计算分离架构。支持横向扩展。兼容 openCypher 的 nGQL 查询语言。

发布公司背景: NebulaGraph 团队。

性能: v3.0.0 版本的性能总体上较 2.6 版本吞吐率有所提高,客户端耗时有所降低,服务端耗时在高并发下有些许提高。

安全性: 开源产品,安全性依赖于社区和用户的贡献。

缺点与缺陷: 可能需要更多的企业级特性支持。

可优化方向: 提升企业级特性,增加更多的图分析工具。

部署成本: 根据部署规模和硬件要求而定。

部署方式: 本地部署、云部署和容器化部署。

发展方向: 继续增强图数据处理能力,提升与不同存储和索引后端的兼容性。

应用场景: 适用于需要处理大规模图数据的场景,如社交网络、推荐系统等。

7.1.7 TigerGraph

产品名称: TigerGraph

产品架构: TigerGraph是一个原生分布式的高性能图数据库,其架构支持高速数据加载和建图,高速并行图算法执行,以及实时数据更新和插入。它包含核心组件GSE(Graph Storage Engine)和GPE(Graph Processing Engine),以及GSQL语言编译执行的程序。

特点: 

高性能:原生分布式架构,支持并行处理。

可扩展性:能够处理大规模图数据,支持从千兆字节到TB的无摩擦扩展。

灵活性:支持实时更新和查询。

ACID兼容:保证数据一致性。

图算法支持:内置多种图算法,如PageRank、社区检测等。

多图分析:支持多图共享同一主数据库。

可视化:提供GraphStudio™图形用户界面。

发布时间: TigerGraph成立于2012年,美国,发布时间未明确。

核心技术:包括原生并行图技术、高速数据加载、实时图数据更新、GSQL 查询语言、GraphStudio 可视化工具。

发布公司背景: TigerGraph全球总部位于美国加利福尼亚州,中国总部位于上海。

性能: 支持上万亿条边的图进行实时分析,TigerGraph在LDBC SNB基准测试中表现出色,能够处理大规模、高复杂度的图数据。

安全性: TigerGraph提供数据加密、企业用户管理、基于角色的访问控制和审计合规等安全特性。

缺点与缺陷: 未明确

可优化方向: 未明确

部署成本: 未明确

部署方式: 支持本地部署和云部署,如Google GCP,Microsoft Azure,Amazon AWS。

发展方向: 未明确

应用场景: TigerGraph 广泛应用于金融、电信、制造、能源、供应链、网络安全、物联网等行业,用于欺诈检测、客户360、主数据管理(MDM)、物联网(IoT)、AI和机器学习等应用程序。

7.2国内主流图数据库

7.2.1 Galaxybase(创邻科技)

架构: Galaxybase 采用原生分布式架构,对图数据存储和处理进行了深度匹配优化,支持横向扩展。

特点:支持动态化图构建、可视化图探索、精细化集群监控、自动化图服务。提供完备的算法支持,执行性能优越。

发布时间: 企业版技术性能基准测试报告发布于 2021 年 5 月。

核心技术:原生分布式架构;支持多源异构数据的关联挖掘、深链查询、可视化分析及行业图智能计算。

发布公司背景: 创邻科技自主研发。

性能: 数据导入时间短、落盘空间小,查询性能全面优于其他产品。

安全性: 底层技术彻底原生化和国产化,不依赖任何第三方开源存储技术,完全自主可控。

缺点与缺陷: 作为商业图数据库,在成本上高于开源解决方案。

可优化方向: 持续提升性能和安全性,增加更多数据模型的支持。

部署成本: 根据部署规模和硬件要求而定。

部署方式: 支持集群部署。

发展方向: 打造成为企业的洞察引擎,通过“连接力”打通企业内部的业务孤岛和信息孤岛。

应用场景: 社交网络、金融、电网等多个领域。

7.2.2 ArcGraph(枫清科技)

架构: ArcGraph 系统架构采用存、算、分析一体化设计,实现在线查询与图计算分析的融合。采用单机分布式一体化内核架构设计。

特点:支持图查询和图分析的存查分析一体化;兼容 OpenCypher 语言,多跳性能显著。

发布时间: 具体发布时间未提供。

核心技术:分布式查询和存储、存算分离架构。

发布公司背景: 枫清科技。

性能: 支持大图查询,性能有明显提高。

安全性: 采用“日志即数据”的思想,设计了存储和计算分离的图数据库架构。

缺点与缺陷: 可能需要更多的社区支持和文档来提升易用性。

可优化方向: 提升易用性,增加对更多存储和索引后端的支持。

部署成本: 根据部署规模和硬件要求而定。

部署方式: 支持单机和集群部署。

发展方向: 继续增强图数据处理能力,提升与不同存储和索引后端的兼容性。

应用场景: 适用于需要处理大规模图数据的场景,如社交网络分析、推荐系统等。

7.2.3 GES(华为云)

架构: 华为云图数据库 GES 使用自研的 EYWA 内核,提供查询、分析服务。

特点:支持丰富的领域算法、提供可视化的图形分析、兼容开源生态。

发布时间: 2020年8月12日。

核心技术:支持 PageRank,k-core,最短路径等算法。支持图查询、图指标统计、Gremlin查询、Cypher查询等。

发布公司背景: 华为云。

性能: 适用于大规模图数据处理和分析。

安全性: 作为云服务,继承华为云的安全特性。

缺点与缺陷: 需要更多的自定义和扩展能力。

可优化方向: 提升自定义算法的支持,增加更多的图分析工具。

部署成本: 作为云服务,成本取决于使用量。

部署方式: 云服务,通过华为云平台部署。

发展方向: 继续增强图数据处理能力,提升与华为云其他服务的集成。

应用场景: 社交关系分析、营销推荐、舆情分析等。

7.2.4 海致星图(海致科技)

产品名称: 海致星图的主要产品包括AtlasGraph图数据库、知识图谱平台、图分析平台、BDP商业智能平台和数据建模平台。

产品架构: 海致星图的产品架构基于高性能的数据处理及建模可视化计算技术,提供从数据整合、清洗、治理到服务、应用的全流程闭环解决方案。

特点: 海致星图的产品特点包括自由灵活快速的数据融合、灵活的分析平台、易用性高,以及强大的图分析功能和挖掘能力。

发布时间: 2015年。

核心技术:

发布公司背景: 海致星图是国家级高新技术企业,工信部大数据产业联盟理事单位,中国技术标准委员会信息创新应用委员会成员单位。

性能: AtlasGraph图数据库在LDBC SNB Interactive基准测试中表现卓越,将测试成绩提高了45%,展现了其在处理大规模、高复杂度图数据方面的高性能。

安全性: 支持国产化硬件和操作系统部署,通过了多项国家级认证,确保了数据的安全性和可靠性。

缺点与缺陷: 未明确

可优化方向: 在提升数据处理性能、增强安全性、降低成本等方面进行优化。

部署成本: 未明确

部署方式: 支持云原生部署,能够灵活地在多种云平台上进行部署。

发展方向: 将继续专注于图计算领域,致力于研发更加先进、高效的图数据库技术。

应用场景: 已在金融、能源、制造等多个领域得到应用,特别是在实时风控、反洗钱、超大规模电网计算、电信反欺诈等场景中展现出其技术优势。

7.2.5 TuGraph(蚂蚁集团)

产品名称: TuGraph

产品架构: 高性能图数据库

特点: 支持万亿级图数据处理,图数据库性能基准测试世界纪录保持者

发布时间: 2024年9月9日

核心技术:

发布公司背景: 蚂蚁集团

性能: 满足实时环境和离线分析的毫秒级复杂查询需求

安全性: 金融级高可用性、可串行化隔离级别

缺点与缺陷: 未明确

可优化方向: 未明确

部署成本: 未明确

部署方式: 支持单实例部署和分布式集群架构

发展方向: 未明确

应用场景: 金融领域、互联网领域、政务领域、工业领域、电信领域、通用领域

7.2.6 HAO图谱(明略科技)

产品名称: HAO图谱

产品架构:核心模块包括语音流监听、语音转文本、标点预测、口语顺滑、文本补全、实体关系抽取、实体对齐以及图谱话题切换。

特点: 能够从多种类型的非结构化数据中提取信息要点,自动构建出行业知识图谱,并支持搜索、推荐、推理等任务。它能够实时将输入的流式语音翻译成由实体和关系组成的图谱,并通过后台知识库的远程监督算法提升准确率。

发布时间: HAO图谱在2020年7月11日的世界人工智能大会上首次公开亮相,并入围了大会最高奖项SAIL奖(Super AI Leader)TOP30的项目及2020年度SAIL榜单。

核心技术:基于三大关键技术,包括实时图谱翻译技术、图谱摘要技术和基于因果图谱的推理引擎。

发布公司背景: 明略科技是一家专注于企业级知识图谱工具套件开发的公司,其产品HAO图谱源自于2018年明略科技提出的HAO智能理论框架。

性能: 能够处理大量数据,实现毫秒级的预测性分析,并在历史数据达到10PB级、日均增量数据超过10TB的环境下进行数据价值的挖掘。

安全性: 在智能导购等场景中,能够在保障用户隐私和数据安全的前提下,将销售对话转为文字,进行话题分类。

缺点与缺陷: 未明确

可优化方向: 继续在提升数据处理性能、增强安全性、降低成本等方面进行优化。

部署成本: 未明确

部署方式: 支持API接口调用,允许开发者通过Text2KG API接口使用已经训练好的开放域模型和特定领域模型。

发展方向: 持续建设软件与硬件平台、开源社区平台、培训平台,构建人工智能众创平台和标准验证实验室,设立人工智能产业基金,全面打造平台生态体系。

应用场景: 数字广告测量与验证、社媒投放运营优化、广告受众投放与管理、智能语音工牌、智能运维、加盟商一体化管理平台等

7.2.7 GDMBASE(蜀天梦图)

产品名称: 蜀天梦图数据库GDMBASE

产品架构: GDMBASE采用服务与存储相分离的架构,支持分布式设计,提供海量数据及并行查询分析处理。

特点:

灵活可靠的分布式架构,支持在线扩缩容。

自主研发的原生图存储,采用类似邻接链表的原生图数据结构。

强大高效的图计算能力,支持分布式图计算引擎和图算法。

卓越的图数据查询能力,支持Gremlin和Cypher语言,并进行额外扩展。

发布时间: 未明确,但公司成立时间为2021年。

核心技术:分布式图计算引擎、图查询引擎、原生图存储技术。

发布公司背景: 蜀天梦图是武汉达梦数据库股份有限公司与天府新区成都管委会在2018年4月27日共同设立的,专注于图数据库业务的子公司。蜀天梦图的核心团队由华中科技大学博士带队,拥有丰富的国产自主数据库软件开发经验。

性能: GDMBASE提供高性能的图数据存储和查询,支持数十种分布式图计算算法和多种图切分模式。

安全性: 采用RBAC(基于角色的访问控制)权限控制,支持用户访问鉴权和细化到点、边的数据权限。

缺点与缺陷: 未明确

可优化方向: 未明确

部署成本: 未明确

部署方式: 支持云原生化和分布式部署,基于云原生系统K8s。

发展方向: GDMBASE将继续在数据安全、性能效率等技术研发上持续投入,探索更多行业应用。

应用场景: 广泛应用于金融、公安、电信、工业制造等行业,用于反洗钱、反欺诈、借贷审核、提升侦查效率、打击犯罪、防骚扰、电信诈骗防范、运营商经营分析、设备管理、物流分析等。

7.2.8 StellarDB(星环科技)

图7-1 StellarDB产品架构图

产品名称: 星环分布式图数据库StellarDB

产品架构:分布式图存储引擎、分布式图查询引擎、通用查询语法解析器、分布式图算法引擎、可视化引擎、安全和运维管理组成。

特点: 原生图存储、可视化图分析、快速数据导入、灵活的数据模型、毫秒级实时更新、支持10+层链路分析、内置50种图算法、访问接口丰富、分布式图查询、

发布时间: StellarDB 4.0版本正式发布于2022年5月10日。

核心技术:

组成部分:分布式图存储引擎、分布式图查询引擎、通用查询语法解析器、分布式图算法引擎

发布公司背景: 星环科技

性能: 提供不少于7种图谱渲染能力;基础知识模型建设的实体数量不少于20000个,关系不少于20000个;知识检索结果响应时间小于1秒,3度以内的智能问答的实体和关系的查询结果响应时间小于3秒,3度以外的智能问答结果响应时间不高于5秒(知识图谱实体数量在100万级,关系数量在200万级的情况下);知识图谱关联挖掘深度不小于5级(知识图谱实体数量在100万级,关系数量在200万级的情况下);知识检索结果前十条准确率不低于85%(检索训练样本不少于1万条的情况下);智能问答结果命中率不低于85%,准确率不低于80%(问法不少于3种,问题语料不少于1万条的情况下);智能问答响应每秒不少于30 个词汇(token);文档切片每秒处理不少于100个文件。(文件平均大小50KB);文本切片向量化服务每秒不少于1000个切片内容。

安全性: 满足国产信创要求,StellarDB 4.0支持数据静态加密,支持SM4分组加密算法,并提供数据脱敏能力,支持HTTPS安全传输。

缺点与缺陷: 未明确

可优化方向: 未明确

部署成本: 未明确

部署方式: 支持离线部署,StellarDB支持在多种国产服务器和操作系统环境中部署,提供丰富的接口支持与第三方系统对接。

发展方向: 未明确

应用场景StellarDB广泛应用于金融、政府和社交网络等领域,如人员社交网络探索、金融风险传播分析等场景。

7.2.9 赢图数据库(赢图)

产品名称:赢图数据库。

产品架构:赢图数据库的架构设计为高并发、分布式、实时图数据库系统,支持高密度并发图计算和线性可扩展性。

特点:

极致的高性能:通过高密度并发图计算实现的超高性能,性能指标稳定超越其他系统100倍以上。

支持超深图层搜索:能够在大型图中实时执行20跳甚至30跳的深层操作。

直观易用的图查询语言:嬴图查询语言嬴图GQL,支持数据关联性、深度穿透查询。

支持不断增长的、热拔插图算法集:满足用户的图数据库查询、搜索、统计、设置等操作需求。

发布时间:具体发布时间未在搜索结果中明确。

核心技术:包括高密度并发计算、线性可扩展性、超深度图遍历与动态图剪枝技术。

发布公司背景:赢图由业内知名的云计算、高性能存储与大数据专家孙宇熙创建,是一家专注于大数据网络计算和存储平台的高科技企业。

性能:赢图数据库系统的运行速度比传统关系型数据库快10000倍,或是其他大数据框架的几百倍。

安全性:赢图数据库提供与现有IT基础架构兼容的特性,确保数据安全。

缺点与缺陷:搜索结果中未明确提及赢图数据库的具体缺点与缺陷。

可优化方向:可能会继续在提升数据处理性能、增强安全性、降低成本等方面进行优化。

部署成本:基于通用PC架构搭建的赢图系统有助于将总拥有成本至少降低70%。

部署方式:支持云服务部署,如嬴图Cloud。

发展方向:赢图将继续在数据安全、性能效率等技术研发上持续投入,探索更多行业应用。

应用场景:广泛应用于金融、电信、互联网等领域,用于风险预测和防范、智能推荐、反欺诈、反洗钱等场景。


 八、参考文献 
1.Nikolaos G. Bourbakis. Artificial Intelligence and Automation. World Scientific. 1998: 381 [2018-04-20]. ISBN 9789810226374. (原始内容存档于2023-11-09).2.Yoon, Byoung-Ha; Kim, Seon-Kyu; Kim, Seon-Young. Use of Graph Database for the Integration of Heterogeneous Biological Data. Genomics & Informatics. March 2017, 15 (1): 1927. ISSN 1598-866X. PMC 5389944 可免费查阅. PMID 28416946. doi:10.5808/GI.2017.15.1.19.3.Angles, Renzo; Gutierrez, Claudio. Survey of graph database models (PDF). ACM Computing Surveys. 1 Feb 2008, 40 (1): 139 [28 May 2016]. CiteSeerX 10.1.1.110.1072 可免费查阅. doi:10.1145/1322432.1322433. (原始内容 (PDF)存档于2017-08-15). network models [...] lack a good abstraction level: it is difficult to separate the db-model from the actual implementation4.Silberschatz, Avi. Database System Concepts, Sixth Edition (PDF). McGraw-Hill. 28 January 2010: D-29 [2019-03-08]. ISBN 978-0-07-352332-3. (原始内容 (PDF)存档于2018-08-26).5.Graph Databases Burst into the Mainstream. www.kdnuggets.com. [2018-10-23]. (原始内容存档于2018-11-13).6.Amazon Neptune Engine Updates 2018-09-06. AWS. [Sep 222018]. (原始内容存档于2021-03-08).7.In-Memory Massively Parallel Distributed Graph Database Purpose-built for Analytics. www.Cambridgesemantics.com. [2018-02-20]. (原始内容存档于2018-02-21).8.Rueter, John. Cambridge Semantics Announces AnzoGraph Graph-Based Analytics Support for Amazon Neptune and Graph Databases. Businesswire. February 15, 2018 [February 20, 2018]. (原始内容存档于2018-11-16).9.Zane, Barry. Semantic Graph Databases: A worthy successor to relational databases. www.dbta.com. November 2, 2016 [February 20, 2018]. (原始内容存档于2018-11-09).10.Cambridge Semantics Announces AnzoGraph Support for Amazon Neptune and Graph Databases. Database Trends and Applications. 2018-02-15 [2018-03-08]. (原始内容存档于2018-03-09).11.Woodie, Alex. Beyond Titan: The Evolution of DataStax's New Graph Database. Datanami. June 21, 2016 [May 9, 2017]. (原始内容存档于2019-09-13).12.HugeGraph Database user documentation. GitHub. [March 20, 2020]. (原始内容存档于2019-12-13).13.JanusGraph version 0.6.1. 2022-01-18 [2022-01-18]. (原始内容存档于2022-01-23) –通过Github.14.JanusGraph storage backends. [2019-03-18]. (原始内容存档于2018-10-02).15.JanusGraph index storages. [2019-03-18]. (原始内容存档于2018-10-02).16.What's New in SQL Server 2017. Microsoft Docs. April 192017 [May 92017]. (原始内容存档于2017-08-21).17.Release Notes: Neo4j 3.1.1. Neo4j. [May 9, 2017]. (原始内容存档于2018-11-16).18.Ranking of Graph DBMS. DB-Engines. [May 9, 2017]. (原始内容存档于2019-03-08).19.Clustering Deployment Architecture Diagrams for Virtuoso. Virtuoso Open-Source Wiki. OpenLink Software. [May 9, 2017]. (原始内容存档于2023-08-08).20.Rudolf, Michael; Paradies, Marcus; Bornhövd, Christof; Lehner, Wolfgang. The Graph Story of the SAP HANA Database (PDF). Lecture Notes in Informatics. [2019-03-18]. (原始内容存档 (PDF)于2017-04-05).21.Vanian, Jonathan. NSA-linked Sqrrl eyes cyber security and lands $7M in funding. Gigaom. 18 February 2015 [May 9, 2017]. (原始内容存档于2019-03-09).22.Woodie, Alex. The Art of Analytics, Or What the Green-Haired People Can Teach Us. Datanami. October 23, 2015 [May 9, 2017]. (原始内容存档于2019-09-15).

#创作团队:

内容:竹山菌

排版:竹山菌

#图片来源:

封面图&插图:竹山菌

#海量数据下载:

1、欢迎点赞、收藏、转发。

2、扫码上图,加入会员星球,定期更新海量科研数据资源长期下载链接。

走天涯徐小洋地理数据科学
一个爱生活的地理土博,分享GIS、遥感、空间分析、R语言、景观生态等地理数据科学实操教程、经典文献、数据资源
 最新文章