经常能够看到有些大厂的面试题里有一些这样的题目:一个10G的文件,里面全部是自然数,一行一个,乱序排列,对其排序。在32位机器上面完成,内存限制为 2G。 首先来分析一下题目...
1.Hive原理 Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。 通常来说,...
前言 这个周末被几个技术博主的同一篇公众号文章 fastjson又被发现漏洞,这次危害可导致服务瘫痪! 刷屏,离之前漏洞事件没多久,fastjson 又出现严重 Bug。目...
目录 1、利用Binlog和Kafka实时同步mysql数据到Elasticsearch(一) - 开启Binlog日志2、利用Binlog和Kafka实时同步mysql数据...
暂时定义为数仓的质量管理,完全可以定义为数据中台的质量管理 数据质量的理解 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须...
实施工作流: 1)数据调研: ① 业务调研:确定数据仓库要包含所有的业务领域合适各业务各自建设。现在主流做法是在各个领域独自建设数据仓库,业务领域内的业务线相似,业务相关性大...
Kafka史上最详细原理总结分为上下两部分,承上启下 Kafka史上最详细原理总结上 Kafka史上最详细原理总结下 Kafka Kafka是最初由Linkedin公司开发,...
概述 大数据平台每天会产生大量的日志,处理这些日志需要特定的日志系统。 一般而言,这些系统需要具有以下特征: 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; 支持近实...
注:看到掘金上有一篇关于Git的写的很好的文章,转载一下,希望能帮助到大家。若有任何问题,可与本人联系,如侵必删,谢谢。文章出处:一篇文章,教你学会Git作者:Ruheng ...
第1节 前言 1 背景: 2018.8需要为新公司的某项目中某部分逻辑独立出来当作独立服务器,为以后的分布式做准备。有些框架我也是第一次用,所以在此整理了我做的项目,并做出...