240 发简信
IP属地:广东
  • 自定义分词器

    前言 es能够实现快速的全文搜索,除了依赖其本身倒排索引的思想,还依赖其分词器 分析器 es本身内置了一些常用的分析器(analyzer),分析器由三种构建组成:charac...

  • awk与sed命令用法整理

    awk awk是一种处理文本文件的语言,在对数据分析并生成报告时,表现的十分强大,简单来说awk就是八人间逐行的读入,以空格为默认分割符将每行切片,切开的部分再进行各种分析梳...

  • hive字段级别血缘实现

    背## 背景 为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源),需要构建hive字段级别的数据血缘,hive本身提供提供了一个用于打印数据血缘的钩子类...

  • 120
    jvm问题排查

    写在前面 线上系统中:如果突然运行缓慢,CPU 100%,以及Full GC次数过多的问题,最终导致的直观现象就是系统运行缓慢。本文主要针对系统运行缓慢这一问题,提供该问题的...

  • 120
    akka编程demo

    AKKA akka基于actor模型, 是一个用于构建可扩展的弹性的快速响应的应用程序的平台;actor模型:是一个并行计算模型。 它把actor作为基本元素来对待:未响应一...

  • spark Streaming 背压实现(对接kafka)

    本文的介绍以DirectDStream为例进行介绍 启动sparkStreaming的背压 涉及类 RateController: 背压入口,了实现StreamingList...

  • 120
    kylin cube优化

    1. 查看相关统计 1.1 查看cuboid物化状态 命令:./kylin.sh org.apache.kylin.engine.mr.common.CubeStatsRea...

  • kylin hbase迁移

    一、背景 现kylin作为数据源提供报表支撑的场景持续增多,经常出现查询慢的问题,为提高hbase支撑的稳定性,同时可以应对读写组合的情况,考虑一种方案即kylin的读写分离...

  • es写优化

    es写入流程 写入lucene缓存,此时数据不可见,同时会写一份数据到translog; 如果此时写入成功,会将写请求转发到对应的副分片上. 到达一定时间,或内存中的数据达到...

  • 120
    es读优化

    es搜索数据 es搜索数据流程 es读写流程示意图 分布式搜索示意图image.png es的几种搜索类型 QUERY_THEN_FETCH(默认的方式) QUERY_AND...

  • 120
    GC 及引用类型

    gc范围 在JVM五种内存模型中,有三个是不需要进行垃圾回收的:程序计数器、JVM栈、本地方法栈。因为它们的生命周期是和线程同步的,随着线程的销毁,它们占用的内存会自动释放,...

  • 120
    Hive是怎么转化hql为mr程序的

    hive是怎么转化hql为MR程序的? 总的来说,Hive是通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore...

  • 120
    HiveServer2、metaStore以及HiveThriftServer2究竟都是什么?

    HiveServer2和metaStore hiveServer2和metaStore其实都是hive本身带的组件,那么两者究竟有什么不同呢? metaStore:hive的...

  • Spark HiveThriftServer2 高可用的实现

    Spark HiveThriftServer高可用的问题 spark HiveThriftServer 继承了HiveServer2,但是却没有继承HiveServer2的H...

  • 120
    Spark性能优化总结

    总结一下个人看了一些Spark性能调优文章之后的理解,主要框架来自于meituantech,会在此框架上加入个人关注点,目录如下, Overview Spark的瓶颈一般来自...

  • 120
    spark streaming一次调试过程

    记录一下最近调试Streaming程序的过程中所发现的问题和解决方案, 背景,batch interval = 120s,10个receiver,吞吐量每秒1000条,一个b...

  • 120
    终于明白为什么要加 final 关键字了!

    在开发过程中,由于习惯的原因,我们可能对某种编程语言的一些特性习以为常,特别是只用一种语言作为日常开发的情况。但是当你使用超过一种语言进行开发的时候就会发现,虽然都是高级语言...

  • 120
    IDEA远程调试Spark

    1.前言 本文讲述如何使用IDEA远程调试spark,这里所说的调试spark包括: 调试spark应用程序,也就是使用spark算子编写的driver applicatio...