![240](https://cdn2.jianshu.io/assets/default_avatar/9-cceda3cf5072bcdd77e8ca4f21c40998.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
RDD的数据分区策略由Partitioner数据分区器控制,Spark提供两个类型分片函数,如下: Partitioner numPartitions:返回分区数量 key:...
Parquet调研报告 1. 概述 1.1 简介 Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Had...
1. 概述 Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越...
前言 假设现在我们要向mysql插入500万条数据,如何实现高效快速的插入进去?暂时不考虑数据的获取、网络I/O、以及是否跨机操作,本文将在本地进行数据的插入,单纯从mysq...
2018年从一所不知名的本科大学毕业,凭着对大城市的憧憬和一腔热血我来到了北京。 面试两天下来,我坐在出租屋里掉眼泪,原来社会并没有我想象的那般美好。我一直认为自己是同学中的...
在一些物理内存为8g的服务器上,主要运行一个Java服务,系统内存分配如下:Java服务的JVM堆大小设置为6g,一个监控进程占用大约 600m,Linux自身使用大约800...
HashMap 如何解决冲突,扩容机制 我们来看看HashMap的put数据的时候,是怎么处理的: 计算HashCode的操作: 解决冲突的核心逻辑代码: 这里再贴一下创建N...