让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上...
Hadoop MapReduce作业执行流程 整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。 1. 提...
基本原理大量的数据散落在互联网中,要分析互联网上的数据,需要先把数据从网络中获取下来,这就需要网络爬虫技术。爬虫的主要目的是将互联网上的网页下载...
Java内存区域 了解Java GC机制,必须先清楚在JVM中内存区域的划分。在Java运行时的数据区里,由JVM管理的内存区域分为下图几个模块...
通过零拷贝实现有效数据传输 很多 Web 应用程序都会提供大量的静态内容,其数量多到相当于读完整个磁盘的数据再将同样的数据写回响应套接字(soc...
Yarn介绍 MapReduce v2最基本的设计思想是将JobTracker的两个主要功能,即资源管理和作业调度及监控拆分为两个独立的进程。在...
HashMap原理 HashMap实际上是一个“链表散列”的数据结构,即数组和链表的结合体。数组:存储区间连续,占用内存严重,寻址容易,插入删除...
Java中的ThreadPoolExecutor类 java.uitl.concurrent.ThreadPoolExecutor类是线程池中最...
Linux中常用的监控CPU整体性能的工具有: mpstat: mpstat 不但能查看所有CPU的平均信息,还能查看指定CPU的信息。 vms...