测试数据准备 在正式开始之前,请先下载好上述所需要的文件。我们首先用命令docker-compose up -d启动docker。我们可以利用以下命令从 Terminal 进...
IP属地:上海
测试数据准备 在正式开始之前,请先下载好上述所需要的文件。我们首先用命令docker-compose up -d启动docker。我们可以利用以下命令从 Terminal 进...
百亿级图数据 JanusGraph 迁移之旅 1. 迁移背景介绍 目前我们的图数据库数据量为 顶点 20 亿,边 200 亿的规模。在迁移之前我们使用的 AgensGraph...
简介 由于Spark应用写数据到Hive表时,容易因为shuffle数过多导致生成过多小文件,影响集群存储利用率;故需要一个能避免读写冲突的小文件合并工具。 工具类 调用 T...
概述 之前写过spark批量导入Hbase的案例:Spark、BulkLoad Hbase、单列、多列,实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。 最近看官网...
1、前言 Logstash是一个开源的服务器端数据处理管道,可以同时从多个数据源获取数据,并对其进行转换,然后将其发送到你最喜欢的“存储”。(当然,我们最喜欢的是Elasti...
在大量数据中对一些字段进行关联。 举例 ipTable:需要进行关联的几千条ip数据(70k)hist:历史数据(百亿级别) 直接join将会对所有数据进行shuffle,需...
写在前面 在一款应用的整个生命周期,我们都会谈及该应用的数据安全问题。用户的合法性与数据的可见性是数据安全中非常重要的一部分。但是,一方面,不同的应用对于数据的合法性和可见性...