1. 前言 1.1 Spark 简介 Spark 是快速和通用的大数据处理引擎。Spark的内存计算速度是Hadoop MapReduce的100倍。Spark支持Java、...
1. 前言 1.1 Spark 简介 Spark 是快速和通用的大数据处理引擎。Spark的内存计算速度是Hadoop MapReduce的100倍。Spark支持Java、...
Java序列化 有关Java对象的序列化和反序列化也算是Java基础的一部分,首先对Java序列化的机制和原理进行一些介绍。 Java序列化算法 Serialization(...
A unified & collaborative workspace for your notes, wikis, and tasks. 将笔记、知识库和任务管理无缝整合的...
通常我们将spark任务编写后打包成jar包,使用spark-submit进行提交,因为spark是分布式任务,如果运行机器上没有对应的依赖jar文件就会报ClassNotF...
1 pyspark中的functions 这些内置函数可以极大的简化spark数据分析,到Spark2.2已经拥有307个函数,只有通过大量实践才能熟练掌握其中的udf函数可...
公司新员工学习有用到,Vim官网的手册又太大而全,而网上各方资料要么不全面,要么不够基础。在网上搜集各方资料,按照自己的框架整理一份Vim入门基础教程,分享出来。特点是偏向基...
记录一次更新服务器上踩坑的事件,关于CentOS更新vim版本的操作。至于为什么会写这个,是因为Google教程时,千篇一律的都是爬虫复制的,过时、遗漏关键点、详细程度等等方...
前言 前面几篇讲过,元数据侧重于配置【驱动】编程的思想,通过建立统一的数据资产,进一步【驱动】企业数字化升级。 但数字化升级是个战略性的目标,短期内效果并不明显,甚至很多时候...
起因:部门准备将数据仓库开发工具从Hive SQL大规模迁移至Spark SQL。此前集群已经自带了Spark-1.5.2,系HDP-2.3.4自带的Spark组件,现在需要...
入门指南 1. 简介 Quickstart会让你启动和运行一个单节点单机HBase。 2. 快速启动 – 单点HBase 这部分描述单节点单机HBase的配置。一个单例拥有所...
Hbase的连接和使用 Hbase的连接安装happybase和thriftpip install happybasepip install thrift Hbase表结构c...
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, Delta Lake 初探。本文...
目录 1、利用Binlog和Kafka实时同步mysql数据到Elasticsearch(一) - 开启Binlog日志2、利用Binlog和Kafka实时同步mysql数据...
在实际的业务场景中,经常会遇到这样的需求:插入某条记录,但如果数据库中有这条记录的话那就作相应的处理(忽略或者更新),正常情况下需要程序分多个步骤去完成这样的需求,在MySQ...
前面讲了SQL优化以及索引的使用、设计优化了,那么接下来就到表的设计与优化啦!!!真实地去设计优化单表结构以及讲述多表设计基本原则(结合真实的生产环境的取舍来讲述)。 本系列...