什么是Nebula Exchange
Exchange由Reader、Processor和Writer三部分组成。Reader读取不同来源的数据返回DataFrame后,Processor遍历DataFrame的每一行,根据配置文件中的映射关系,按列名获取对应的值。在遍历指定批处理的行数后,Writer会将获取的数据一次性写入到Nebula Graph中。下图描述了Exchange完成数据转换和迁移的过程。
Exchange适用于以下场景:
需要将来自Kafka、Pulsar平台的流式数据,如日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接设备或仪器的遥测数据等转化为属性图的点或边数据,并导入Nebula Graph数据库。
需要从关系型数据库(如MySQL)或者分布式文件系统(如HDFS)中读取批式数据,如某个时间段内的数据,将它们转化为属性图的点或边数据,并导入 Nebula Graph数据库。
需要将大批量数据生成Nebula Graph能识别的SST文件,再导入Nebula Graph数据库。
Exchange具有以下优点:
适应性强:支持将多种不同格式或不同来源的数据导入Nebula Graph数据库,便于迁移数据。
异步操作:会在源数据中生成一条插入语句,发送给Graph服务,最后再执行插入操作。
灵活性强:支持同时导入多个Tag和Edge type,不同Tag和Edge type可以是不同的数据来源或格式。
统计功能:使用Apache Spark™中的累加器统计插入操作的成功和失败次数。
易于使用:采用HOCON(Human-Optimized Config Object Notation)配置文件格式,具有面向对象风格,便于理解和操作。
Exchange 2.6.0 支持将以下格式或来源的数据转换为Nebula Graph能识别的点和边数据,然后通过nGQL语句的形式导入Nebula Graph:
数据仓库:
图数据库:Neo4j(Client版本2.4.5-M1)
关系型数据库:
列式数据库:ClickHouse
流处理软件平台:
发布/订阅消息平台:Apache Pulsar 2.4.5
除了用nGQL语句的形式导入数据,Exchange还支持将数据源的数据生成SST文件,然后通过Console。