5
加州大学伯克利分校AMP实验室的GraphX项目
约瑟夫老师(Joseph Gonzalez)于2024年4月19日介绍说,
数据科学应用,越来越需要创建、操作和分析,从社交网络到语言模型的大型图表。
虽然现有的图系统(例如GraphBuilder、Titan和Giraph)解决了典型的图分析管道的特定阶段(例如图构建、查询或计算),但它们没有解决整个问题,这就使得用户不得不处理多个系统、复杂而脆弱的文件接口,以及低效的数据移动和复制。
GraphX项目能够统一图形和表格,使用户能够在单个系统中表达整个图形分析管道。
GraphX交互式API,可以非常容易地在大型分布式图上构建、查询和计算。
此外,GraphX包括一个不断增长的图形算法库,可用于一系列分析任务。
通过将图形处理系统的最新进展转化,为分布式连接优化,GraphX能够实现与专业图形处理系统相当的性能,同时实现更灵活的API。通过建立数据并行系统,GraphX能够在保持内存性能的同时实现容错,并且无需显式检查点恢复。
自0.9.0版本起,GraphX已经成为Spark Apache孵化器项目的一部分,GraphX的活动研究版本可从github项目页面获得。
关于的GraphX项目的详细资料可以参见如下网址:
http://amplab.cs.berkeley.edu/publication/graphx-graph-processing-in-a-distributed-dataflow-framework/
http://amplab.cs.berkeley.edu/publication/graphx-unifying-data-parallel-and-graph-parallel-analytics/
https://amplab.cs.berkeley.edu/publication/graphx-grades/
该项目的负责单位可能是:
加州大学伯克利分校AMP实验室
约瑟夫老师的联系方式是:
Joseph Gonzalez
http://www.cs.berkeley.edu/~jegonzal/
jegonzal@eecs.berkeley.edu