说明 CentOS7是广泛使用的Linux发行版之一,而Python3则是当前最流行的编程语言之一。CentOS7系统中一般自带python2版本,而由于许多应用程序依赖py...
说明 CentOS7是广泛使用的Linux发行版之一,而Python3则是当前最流行的编程语言之一。CentOS7系统中一般自带python2版本,而由于许多应用程序依赖py...
引言 最近几个月我们小组在做SQL拉数据相关的优化工作,主要涉及Trino、ES、Lucene三个模块的开发优化,具体优化包括列存-行转列读取、序列化协议优化、SQL字段Or...
前言 因公司需要验证FlinkCDC的能力,而且要求按照最终的生产模式去部署,因此对安装过程做个记录,小白请多指教~ 一、集群规划 二、部署Flink集群 1.版本选择 2....
前言 因工作需要验证FlinkCDC相关功能,Flink的checkpoint 信息可以放到Hdfs上,因此想部署一套Hadoop进行验证,鉴于之前部署的都没有做记录,本次安...
1. Maven 构建生命周期 Maven 构建生命周期就是 Maven 将一个整体任务划分为一个个的阶段,类似于流程图,按顺序依次执行。也可以指定该任务执行到中间的某个阶段...
trie树用得很溜啊
手写简版倒排索引(Inverted Index)说明 周末闲来无事花点时间,基于Lucene倒排索引的思想,使用Python简单实现了索引文档与短语搜索的小功能,目的是帮助快速理解倒排索引的写入与查询的基本思想。 简单的小...
说明 周末闲来无事花点时间,基于Lucene倒排索引的思想,使用Python简单实现了索引文档与短语搜索的小功能,目的是帮助快速理解倒排索引的写入与查询的基本思想。 简单的小...
引言 因为Docker技术的火热,因此在工作中我们经常会以容器的方式来运行一个应用。每当容器无法成功运行或者想要对容器中的应用参数、应用配置以及应用启动进行深入研究时,当然希...
背景 前段时间客户根据看到的ES日志报了索引无法创建的Bug,研发工作完成差不多后,开始梳理前线客户Bug,调研后才发现原来是Dangling索引的问题;这篇文档算是对Dan...
前言 平时在研究ES的分布式Doc(文档)写入操作时,我们已经知道对将要写入的Doc,ES首先会计算其应该写入到索引的哪个分片,然后在根据集群metaData中的路由信息判断...
Debug说明 记录ES写入数据的整个Debug流程,具体实现细节没有做过多解释说明 Debug的索引,设置1shard、0replicas,便于理清主线 先创建索引,其次再...
引言 在近日的工作中,需要分析出用户的一些行为习惯,因此,需要对日志做一个统计分析。首先要做的是将用户的活跃度做个排序。因此,如何统计每个用户上报的消息量,是首要解决的问题。...