240 发简信
IP属地:山西
  • 120
    SQL-Elasticsearch拉数据优化

    引言 最近几个月我们小组在做SQL拉数据相关的优化工作,主要涉及Trino、ES、Lucene三个模块的开发优化,具体优化包括列存-行转列读取、序列化协议优化、SQL字段Or...

  • 120
    ClickHouse数据生命周期管理

    1 概述 如果将ClickHouse作为Log或Metrics这种具有明显时序特征数据的存储和分析引擎,那就需要考虑这些数据的生命周期管理,即设置数据的老化机制,如是否需要根...

  • 哈哈 trie树是个好玩意

    手写简版倒排索引(Inverted Index)

    说明 周末闲来无事花点时间,基于Lucene倒排索引的思想,使用Python简单实现了索引文档与短语搜索的小功能,目的是帮助快速理解倒排索引的写入与查询的基本思想。 简单的小...

  • 120
    手写简版倒排索引(Inverted Index)

    说明 周末闲来无事花点时间,基于Lucene倒排索引的思想,使用Python简单实现了索引文档与短语搜索的小功能,目的是帮助快速理解倒排索引的写入与查询的基本思想。 简单的小...

  • 120
    Elasticsearch Search Phase Debug 详细记录

    Debug说明 记录ES数据搜索的整个debug流程,具体细节没有作过多的解释说明 Debug的索引,设置2shard、0replicas,便于理解每个分片的执行主线 ES ...

  • 120
    ClickHouse集群部署

    一 环境准备 下文以常见ClickHouse集群部署架构[https://www.jianshu.com/p/f1fa7e5cb67f]中方案四的部署架构为例。 节点名称主机...

  • @秦亚军_bf9e 一般的做法是源ip不要是127.0.0.1之类的地址;其次这一块可能要结合机器的iptables规则进行判断了。

    发往Docker容器内的数据包源地址被修改的研究

    引言 此文档是对发往Docker容器内的数据包源地址被修改的研究做的实践记录。 实践环境一 路由信息: 一、通过另一台主机向当前主机发送数据包1.192.168.84.75主...

  • hello,没太明白你这里的意思哈;list insert操作是可以指定索引为0的,比如my_list = [1, 2, 3],执行操作my_list.insert(0,5),则此时my_list会变成[5, 1, 2, 3],即把插入的数据放到列表的最开始位置

    python list 之时间复杂度分析

    引言 我们在使用python开发过程中,list属于使用非常广泛的数据结构。不管是自己程序存放数据,还是处理接口返回的数据,我们都更倾向于使用list。因为list用起来不仅...

  • 120
    Elasticsearch Dangling Indices知识梳理

    背景 前段时间客户根据看到的ES日志报了索引无法创建的Bug,研发工作完成差不多后,开始梳理前线客户Bug,调研后才发现原来是Dangling索引的问题;这篇文档算是对Dan...

  • Elasticsearch 索引数据被删除问题的研究

    背景 前段时间帮着客户排查ES相关的问题,客户环境后期接入的数据量比当初规划的多了很多,依据机器资源的使用情况决定对当前ES集群进行扩容;由2data扩充为4data且专门独...

  • 120
    Elasticsearch 获取写入Doc shardID的源码分析

    前言 平时在研究ES的分布式Doc(文档)写入操作时,我们已经知道对将要写入的Doc,ES首先会计算其应该写入到索引的哪个分片,然后在根据集群metaData中的路由信息判断...

  • 120
    Elasticsearch Write Debug 详细记录

    Debug说明 记录ES写入数据的整个Debug流程,具体实现细节没有做过多解释说明 Debug的索引,设置1shard、0replicas,便于理清主线 先创建索引,其次再...

  • 老兄 再请教个问题,你这里对ES平均每秒写入的次数,这个值是咋计算的呢?

    PB级大规模Elasticsearch集群运维与调优实践

    背景 某中型互联网公司的游戏业务,使用了腾讯云的Elasticsearch产品,采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps),...

  • 120
    PB级大规模Elasticsearch集群运维与调优实践

    背景 某中型互联网公司的游戏业务,使用了腾讯云的Elasticsearch产品,采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps),...

  • @bellengao 谢老兄 详细解答

    PB级大规模Elasticsearch集群运维与调优实践

    背景 某中型互联网公司的游戏业务,使用了腾讯云的Elasticsearch产品,采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps),...

  • “1GB堆内存支持20-30个分片为宜;另外需要控制集群整体的分片数量,集群总体的分片数量一般不要超过3w”,老兄,这些经验值是如何得出的呢?ES数据节点1GB的堆内存支持20~30个分片,可是有的索引mapping信息复杂,有些简单啊,这个应该会有差异吧?对于集群总体的分片数量一般不要超过3w的说法,主要是怕集群的master节点中需要存放的metadata信息太大吗?之前看过一个说法说master在管理cluster state这块是通过单线程的方式来做的,因此这里3w的限制与这些都有关吗?很想知道ES集群变大之后,对Master节点内存造成压力的主要包含哪几块?望老兄帮忙解答下

    PB级大规模Elasticsearch集群运维与调优实践

    背景 某中型互联网公司的游戏业务,使用了腾讯云的Elasticsearch产品,采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps),...

  • 总结最近半年对Elasticsearch开源项目的贡献

    自从2019年对Elasticsearch项目提交过一次代码之后,开始逐渐关注社区里的新动态,并且尝试去解决一些issue,通过这个过程去理解源码从而深入理解Elastics...