一、开始使用多线程 Thread类由threading模块提供,通过实例化Thread类可以创建线程,其构造函数如下: 其中关于参数的解释如下: group,保留参数,暂时没...
一、开始使用多线程 Thread类由threading模块提供,通过实例化Thread类可以创建线程,其构造函数如下: 其中关于参数的解释如下: group,保留参数,暂时没...
一、装饰器的定义 装饰器,顾名思义,就是起到装饰的作用,即在不改变已有函数代码及其调用方式的前提下,对已有函数进行功能扩展,实现了低侵入性、高内聚低耦合的目标。 二、装饰器使...
一、RDD介绍 1.1 什么是RDD RDD(Resilient Distributed DataSet),称作弹性分布式数据集,是Spark中最基本的数据抽象,表示一个不可...
一、PySpark是什么 Python PySpark是Spark官方提供的一个Python类库,其中内置了完全的Spark API,使得Python用户在导入这个类库后,可...
一、Marp是什么 Marp是一个轻量的框架,可以将MarkDown编写的文档转换为PPT,从而解放开发者制作PPT的繁琐过程,只要专注于内容的编写即可。 当然,Marp制作...
因公司需要,简单了解下Jira,然后给部了解的同事们科普一下。虽然目前国内有很多的替代者,但是Jira作为老牌和全球使用最为广泛的项目管理工具,还是有其自身的特点的。 一、J...
一、Spark是什么 Spark[https://spark.apache.org/]是Apache下的一个用于大规模数据处理的统一分析引擎,Unified engine f...
为什么要搭建单机环境的Hadoop? 以最小化的成本学习和测试Hadoop; 搭建基于Hadoop的上层应用,比如单机Spark环境需要先拥有单机的Hadoop; 如果需要搭...
一、ZK简介 在大数据技术体系内,很多技术框架都是用动物的名字命名的,比如Hadoop(大象)、Hive(蜜蜂)、Pig(小猪)。大数据服务通常都是分布式的,多个节点之间角色...
一、DataX Web是什么 DataX web是在DataX的基础上开发的分布式的数据同步工具,方便DataX的用户在网页上通过点击和配置就能完成DataX任务的配置和执行...
一、xxl-job是什么 xxl-job是一个分布式的任务调度平台,其核心特点就是简单、能快速上手、轻量级、易扩展。在如今的分布式场景中,已经成为主流的任务调度框架。 二、x...
一、DataX是什么 DataX[https://github.com/alibaba/DataX]是阿里巴巴开源的离线数据同步工具,实现了包括主流RDBMS数据库、NoSQ...
一、Sqoop是什么 Apache Sqoop是Hadoop生态体系和RDBMS体系之间相互传输数据的一种工具,其工作机制是将导入、导出命令翻译为MapReduce程序运行,...
一、什么是数据仓库 数据仓库(Data Warehouse,DW),是一种用于存储、分析和报告的数据系统,其目的是构建面向分析的集成化数据环境,其本身不产生数据,也不消费数据...
一、什么是YARN Hadoop YARN是一种新的Hadoop资源管理器,虽然是Hadoop的组件,但是它被设计成一个通用的资源管理系统和调度平台,可为上层应用提供统一的资...
一、什么是MapReduce Hadoop MapReduce,以下简称MR,是一个分布式计算框架,可以用于轻松编写分布式应用程序,使得这些程序能以可靠的、容错的、并行的方式...
一、HDFS是什么? HDFS,全称Hadoop Distributed File System,即Hadoop分布式文件存储系统,是Hadoop核心组件之一,是大数据生态最...
一、Hadoop3.x介绍 Hadoop是用Java语言实现的,允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理的框架。Hadoop3.x主要包含如下三个...
学会编译Hadoop非常有必要,Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries) 的概念...
可以在dockerhub上搜索sonarqube,默认拉取的是latest,对应的版本应该是8.9.10社区版。
Sonarqube的搭建和使用入门一、SonarQube的安装 Sonarqube的运行离不开数据库,按照官方建议,本文使用postgresql来作为其数据库。 由于Sonarqube依赖ELK的运行,默认情...