![240](https://cdn2.jianshu.io/assets/default_avatar/4-3397163ecdb3855a0a4139c34a695885.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
一、问题现象 1,同样一个执行语句在Spark-shell中就可以执行,但是在Spark-submit中执行时等待了很长时间但是Task一直没有执行 2,通过Spark-su...
一、下载 下载地址:http://www.kafkatool.com/download.html 我们的kafka版本是2.11(kafka_2.11-2.0.0-cdh6....
CDH集群,所需要和后续需要的一些配置。
在CentOS7安装MySQL8.0的时候碰见很多问题,查找网上很多博客或者教程都没能解决,在几经卸载重装后终于完成了安装。下面附上教程。 安装前准备 在安装MySQL之...
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员M...
1.基于 CDH 版本选择安装 (1)登录 CM 控制台,选择“添加服务” (2)选择需要安装的 Kafka 组件 点击“继续”进入: (3)创建 KafkaBroker 节...
一、简介 Conda是目前为止,最流行的Python软件包与管理环境。Conda分为miniconda与anaconda两种。前者从名字上就能猜出是精简版,后者预装了很多常用...
一、DataX3.0概述 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP...
一、简介 最近,蚂蚁正式了开源其机器学习工具SQLFlow。SQLFlow=SQL引擎+AI引擎。其抽象出端到端从数据到模型的研发过程,配合底层的引擎及自动优化,让具备基础S...
首先 我们需要下载一个linux版本的oracle客户端推荐在官网上下载。 这里推荐使用的是instant12版本,目前来说算得上是最稳定的一个版本。 之后我们需要在linu...
由于每家公司预算问题,经常会出现服务器磁盘空间不足问题导致大数据集群服务出现异常,下面介绍下解决方法。 一、问题现象 (1)在项目接口端,提示接口调用超时异常 (2)在移动机...
目前不同公司多多少少存在Hive数据库在不同集群间的数据迁移需求,我们只要在CDH新版本集群搭建完成之后,即可进行数据迁移工作,如下描述hive及HDFS数据的迁移。 一、...
大数据技术学习进阶路线 随着大数据技术的不断发展,大数据的技术体系已经趋于成熟,由于大数据技术体系比较庞大,所以在学习大数据的时候首先应该根据自身的知识结构,找到一个适合的切...
1、镜像命令: docker images 列出所有镜像 docker build 构建镜像 docker rmi 删除镜像 docker sea...
安装 GCC 下载 Python3.7压缩包并解压 安装 Python3.7, 删除压缩包 安装时报错ModuleNotFoundError: No module named...