240 发简信
IP属地:上海
  • 索引压缩

    索引压缩 信息检索中有两个主要数据结构:词典和倒排记录表,索引压缩主要是压缩这两个数据结构。索引压缩的优点:节省磁盘空间增加高速缓存技术的利用率加快数据从磁盘到内存的传输速度...

  • 120
    索引构建

    1 索引构建 索引构建 建立倒排索引的过程,就是索引构建 索引器 构建索引的程序或者计算机,就是索引器 索引器需要原始文本,但是文档可能采用多种编码格式,索引器对中间文件和最...

  • 120
    干了四年的Java面试官,给大家分享我面试时最爱问的Java面试题

    2015 年,因为工作岗位的变动,开始负责给集团招聘一些技术人员,出于对公司的负责,也为了更好的胜任技术经理的职位,在面试的这件事上,我做了大量的“功课”,首先我研究了几乎所...

  • 拼写纠错

    对大多数拼写纠错来说,存在两个基本原则: 对于一个拼写纠错的查询,在其中正确的拼写中,选择距离最近的一个。当两个正确拼写查询临近度相等时,选择更常见的那个。 有两大类拼写纠错...

  • 词项词典与倒排记录表

    构建倒排索引的几个主要步骤: 1 收集待建索引的文档2 对这些文档中的文本进行词条化3 对步骤2中的词条进行语言学预处理,得到此项4 根据词项对所有文档建立索引 重要概念 词...

  • 120
    Google文件系统--GFS详解

      Google File System(简称GFS)是适用于大规模且可扩展的分布式文件系统,可以部署在廉价的商务服务器上,在保证系统可靠性和可用 性的同时,大大降低了系统的...

  • 120
    RocksDB系列二十二:RocksDB使用场景和特性

      存储和访问数百PB的数据是一个非常大的挑战,开源的RocksDB就是FaceBook开放的一种嵌入式、持久化存储、KV型且非常适用于fast storage的存储引擎。 ...

  • RocksDB系列二十一:持久化读缓存

    Introduction   很长一段时间,持久化数据存储都是使用磁盘。随着SSD的引入,我们现在有了新的持久化的存储介质,这种存储介质比传统的磁盘更快,也给人们提供了探索分...

  • RocksDB系列二十:Simulation Cache

      Simulation Cache(SimCache)可以帮助用户在模拟的内存容量而不是物理上实际占用内存下预测block cache的性能数据,比如:hit、miss。 ...

  • RocksDB系列十九:Iterator Implementation

    RocksDB Iterator   RocksDB Iterator提供用户以有序的方式前向或者后向遍历DB,也可以seek 到DB的特定key上。为了做到这样,Itera...

  • RocksDB系列十八:二阶段提交

      本文主要讲解了RocksDB中二阶段提交的实现。本文总结一下共有如下几个要点: Modification of the WAL format Extension of t...

  • RocksDB系列十七:Repairer

    Overview   Repairer会在RocksDB出现宕机等严重问题时尽最大努力去恢复尽可能多的数据,但是,并不能保证恢复数据库到一个一致性的状态。 Usage   C...