240 发简信
IP属地:北京
  • 240
    SQL-Elasticsearch拉数据优化

    引言 最近几个月我们小组在做SQL拉数据相关的优化工作,主要涉及Trino、ES、Lucene三个模块的开发优化,具体优化包括列存-行转列读取、序列化协议优化、SQL字段Or...

  • 240
    Maven 生命周期

    1. Maven 构建生命周期 Maven 构建生命周期就是 Maven 将一个整体任务划分为一个个的阶段,类似于流程图,按顺序依次执行。也可以指定该任务执行到中间的某个阶段...

  • 240
    手写简版倒排索引(Inverted Index)

    说明 周末闲来无事花点时间,基于Lucene倒排索引的思想,使用Python简单实现了索引文档与短语搜索的小功能,目的是帮助快速理解倒排索引的写入与查询的基本思想。 简单的小...

  • 240
    Docker容器调试应用程序

    引言 因为Docker技术的火热,因此在工作中我们经常会以容器的方式来运行一个应用。每当容器无法成功运行或者想要对容器中的应用参数、应用配置以及应用启动进行深入研究时,当然希...

  • hadoop1.0 安装

    集群规划及环境 虚拟机安装、网络配置 安装jdk 1.8 hadoop 1.2.1 安装 5.修改配置文件 6.初始化hdfs 7.启动hadoop 8.配置创建软连接 8....

  • 240
    VMware扩展Centos虚拟机的硬盘

    引言 在近日的工作中,需要分析出用户的一些行为习惯,因此,需要对日志做一个统计分析。首先要做的是将用户的活跃度做个排序。因此,如何统计每个用户上报的消息量,是首要解决的问题。...

  • 240
    Elasticsearch Dangling Indices知识梳理

    背景 前段时间客户根据看到的ES日志报了索引无法创建的Bug,研发工作完成差不多后,开始梳理前线客户Bug,调研后才发现原来是Dangling索引的问题;这篇文档算是对Dan...

  • 240
    Elasticsearch 获取写入Doc shardID的源码分析

    前言 平时在研究ES的分布式Doc(文档)写入操作时,我们已经知道对将要写入的Doc,ES首先会计算其应该写入到索引的哪个分片,然后在根据集群metaData中的路由信息判断...