@简书交友 哈哈,dog是越来越胖。
劲爆!简书交友2018年上半年精华合集——好看的皮囊在我这里,有趣的灵魂也在我这里这是一个忧伤的故事。 现在是2018年7月1号,下午4点38分,离下午5点20分还有42分钟。 18年前的一个下午5点20分,小贤我正拉着一个三岁多小姑娘的手,告诉她,如果人...
喜欢动漫,喜欢电影,喜欢旅游 那个妹子 能了解下么 =。=
劲爆!简书交友2018年上半年精华合集——好看的皮囊在我这里,有趣的灵魂也在我这里这是一个忧伤的故事。 现在是2018年7月1号,下午4点38分,离下午5点20分还有42分钟。 18年前的一个下午5点20分,小贤我正拉着一个三岁多小姑娘的手,告诉她,如果人...
orc和parquet数据存储格式很相似,都是列式存储,footer存数据相关信息和索引等。有一点不同:parquet对复杂数据结构采用了Google的Dremel的嵌套存储格式。
impala在parquet文件格式上执行count(*)操作parquet是一个支持列式存储的文件格式,对于大数据量,多维来说,如果只查询某些具体维来说,有很好的效率。具体体现在自身列式存储,同一列的数据顺序存放,在取某一列数据时,不...
地震相关的文档和视频 5·12汶川地震发现中国——中国大地震
最近一直沉迷于折腾各种错误注入,总想着把我们的系统给搞挂,有一天,突发奇想,是不是能通过 SystemTap 来捣乱,因为 SystemTap 能 probe 相关的函数,那...
综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种...
Paxos算法在分布式领域具有非常重要的地位。但是Paxos算法有两个比较明显的缺点:1.难以理解 2.工程实现更难。 网上有很多讲解Paxos算法的文章,但是质量参差不齐。...
introduction Vectorized query execution is a Hive feature that greatly reduces the CPU ...
前言 在 TiDB 里面,为了支持分布式事务,我们通过 PD,这个全局的单点服务,为事务分配全局唯一的时间,这个做法就是简单高效,但获取 timestamp 的时候会有网络开...
本文1、2、3节介绍了Spark 内存相关之识,第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor 的内存管理建立在 JVM 的内...
前言 虽然提供了很多Estimator/Transformer, 正如这篇文章所显示的,如何基于SDL+TensorFlow/SK-Learn开发NLP程序,处理的代码依然是...
和impala结构很像
牟宇航:百度OLAP数据库——Palo专家视野 | 牟宇航:百度OLAP数据库——Palo https://mp.weixin.qq.com/s/q8_kdDPdCPwIjI2BCETPZw 3月28日,在工业和...
背景 项目中应用服务直接通过jdbc连接impala做数据查询,其他遇到一个问题,查询impala时因为没有设置查询超时,有些大sql一直占用连接,同时这个sql在impal...