240 发简信
IP属地:甘肃
  • 从零开始实现中文分词器(2)

    先回顾一下上一篇文章的内容:我们简单介绍了中文分词的原理,并且实现了一个前缀树,以及实现了加载词典的方法,还实现了给定一个句子输出里面收录于词典中的词语。 我们最终目标是实现...

  • 120
    从零开始实现中文分词器(1)

    前言 前阵子面试的到时候有个面试官问到,你知不知道分词器怎么实现的?当时老实回答,确实不知道。随后面试官就说有空的时候可以看看。 不过看归看,总感觉如果不自己实现一下的话还是...

  • openjdk 1.8 hotspot 的arguments.cpp 中 Arguments::set_cms_and_parnew_gc_flags()方法有这么一行

    const size_t preferred_max_new_size_unaligned =
    MIN2(max_heap/(NewRatio+1), ScaleForWordSize(young_gen_per_worker * parallel_gc_threads));

    似乎hotspot默认情况下也希望新生代停顿时间更短而使新生代更小一点。所以我感觉普遍情况下eden越大,回收时间会越长。
    但是与狼哥说的的也不冲突,狼哥应该是特指某一次young GC。 决定某一次GC的停顿时间确实应该是取决于存活对象的多少,而某次 young GC存活对象的多少确实跟eden的大小关系不大。

    JVM知识点扫盲系列(1)

    每次young gc的时间,和eden空间的大小是正比关系吗? 在进入公司之后,这个问题先后被多次问到,那young gc的时间到底和哪些因素有关呢? 来看一段代码,逻辑很简...

  • 120
    干货:mysql索引的数据结构

    索引 MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。 我们知道,数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能...

  • 120
    RDD的依赖关系:宽依赖和窄依赖

    RDD之间的依赖关系是指RDD之间的上下来源关系,RDD2依赖RDD1,RDD4依赖于RDD2和RDD3,RDD7依赖于RDD6和RDD4。 shuffle的算子一般都会是宽...

  • 120
    Kibana汉化

    从6.7版本开始,Kibana支持中文,无需再像之前那样下载汉化包,甚至自己进行翻译。 设置方法很简单,下面用7.1.1版本演示一下 打开Kibana解压目录下的 confi...

  • 深入浅出parallelStream

    about Stream 什么是流? Stream是java8中新增加的一个特性,被java猿统称为流. Stream 不是集合元素,它不是数据结构并不保存数据,它是有关算法...

  • Elasticsearch SQL模块

    Elasticsearch SQL Elasticsearch SQL是由X-Pack组件提供的它允许针对Elasticsearch实时执行类似SQL的查询 可以在JDBC、...

  • 120
    《Scikit-Learn与TensorFlow机器学习实用指南》 第01章 机器学习概览

    看完书可以看看这两则面试招聘:面试:5万字近百页,数据科学面试终极指南招聘·OPPO高级爬虫架构师 本书翻译已加入ApachCN的开源协作项目,见 https://githu...

  • 120
    elasticsearch索引和检索优化与压测监控

    写一下个人的es优化经历,主要分下面五个模块, Overview 先来看看es的整体架构图,上面有多个重要模块,今天主要写在lucene上面的index模块与search模块...

  • 120
    【教程】使用腾讯云主机搭建持续集成/部署环境

    最近一段时间腾讯云和阿里云都在开展非常实惠的活动购买云主机,很多小伙伴都买了云主机来学习和实践。对此,本文主要介绍了如何用云主机从零开始搭建CI/CD(持续集成/持续部署)的...