经常能够看到有些大厂的面试题里有一些这样的题目:一个10G的文件,里面全部是自然数,一行一个,乱序排列,对其排序。在32位机器上面完成,内存限制为 2G。 首先来分析一下题目...
IP属地:澳门
经常能够看到有些大厂的面试题里有一些这样的题目:一个10G的文件,里面全部是自然数,一行一个,乱序排列,对其排序。在32位机器上面完成,内存限制为 2G。 首先来分析一下题目...
1.Hive原理 Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。 通常来说,...
前言 这个周末被几个技术博主的同一篇公众号文章 fastjson又被发现漏洞,这次危害可导致服务瘫痪! 刷屏,离之前漏洞事件没多久,fastjson 又出现严重 Bug。目...
目录 1、利用Binlog和Kafka实时同步mysql数据到Elasticsearch(一) - 开启Binlog日志2、利用Binlog和Kafka实时同步mysql数据...
暂时定义为数仓的质量管理,完全可以定义为数据中台的质量管理 数据质量的理解 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须...
实施工作流: 1)数据调研: ① 业务调研:确定数据仓库要包含所有的业务领域合适各业务各自建设。现在主流做法是在各个领域独自建设数据仓库,业务领域内的业务线相似,业务相关性大...