240 发简信
IP属地:四川
  • 120
    Spark RDD分区策略

    RDD的数据分区策略由Partitioner数据分区器控制,Spark提供两个类型分片函数,如下: Partitioner numPartitions:返回分区数量 key:...

  • 120
    列存储格式Parquet浅析

    Parquet调研报告 1. 概述 1.1 简介 Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Had...

  • 120
    kafka 数据可靠性深度解读

    1. 概述 Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越...

  • 120
    mysql快速插入百万条数据

    前言 假设现在我们要向mysql插入500万条数据,如何实现高效快速的插入进去?暂时不考虑数据的获取、网络I/O、以及是否跨机操作,本文将在本地进行数据的插入,单纯从mysq...

  • 2019年,我成为了被工作压垮的90后!

    2018年从一所不知名的本科大学毕业,凭着对大城市的憧憬和一腔热血我来到了北京。 面试两天下来,我坐在出租屋里掉眼泪,原来社会并没有我想象的那般美好。我一直认为自己是同学中的...

  • 120
    看完你还敢说你懂JVM吗?

    在一些物理内存为8g的服务器上,主要运行一个Java服务,系统内存分配如下:Java服务的JVM堆大小设置为6g,一个监控进程占用大约 600m,Linux自身使用大约800...

  • HashMap 如何解决冲突,扩容机制

    HashMap 如何解决冲突,扩容机制 我们来看看HashMap的put数据的时候,是怎么处理的: 计算HashCode的操作: 解决冲突的核心逻辑代码: 这里再贴一下创建N...