淡忧伤 - 简书

发简信

淡忧伤

30
关注
12
粉丝
0
文章
0

字数
0

收获喜欢
1

总资产

IP属地：上海

bigdata三十五画生

【Flink 1.12】深度解析 Flink Upsert-kafka
测试数据准备在正式开始之前，请先下载好上述所需要的文件。我们首先用命令docker-compose up -d启动docker。我们可以利用以下命令从 Terminal 进...

5330 0 5
BlackZhou

百亿级图数据JanusGraph迁移之旅
百亿级图数据 JanusGraph 迁移之旅 1. 迁移背景介绍目前我们的图数据库数据量为顶点 20 亿，边 200 亿的规模。在迁移之前我们使用的 AgensGraph...

6711 3 8
0o青团o0

Spark小文件异步合并工具类
简介由于Spark应用写数据到Hive表时，容易因为shuffle数过多导致生成过多小文件，影响集群存储利用率；故需要一个能避免读写冲突的小文件合并工具。工具类调用 T...

1067 0 1
利伊奥克儿

hbase-spark bulk load(二)
概述之前写过spark批量导入Hbase的案例：Spark、BulkLoad Hbase、单列、多列，实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。最近看官网...

1025 1 3
先生_吕

ELK入门系列（03）——Logstash的快速安装
1、前言 Logstash是一个开源的服务器端数据处理管道，可以同时从多个数据源获取数据，并对其进行转换，然后将其发送到你最喜欢的“存储”。（当然，我们最喜欢的是Elasti...

726 0 4
breeze_lsw

spark broadcast join优化
在大量数据中对一些字段进行关联。举例 ipTable：需要进行关联的几千条ip数据(70k)hist：历史数据（百亿级别）直接join将会对所有数据进行shuffle，需...

16168 0 8
chenxk

本地idea远程提交Spark任务

2917 0 2
日拱一兵

Shiro 这个安全框架小而美
写在前面在一款应用的整个生命周期，我们都会谈及该应用的数据安全问题。用户的合法性与数据的可见性是数据安全中非常重要的一部分。但是，一方面，不同的应用对于数据的合法性和可见性...

3324 3 79