240 发简信
IP属地:浙江
  • 索引压缩

    索引压缩 信息检索中有两个主要数据结构:词典和倒排记录表,索引压缩主要是压缩这两个数据结构。索引压缩的优点:节省磁盘空间增加高速缓存技术的利用率...

  • Resize,w 360,h 240
    索引构建

    1 索引构建 索引构建 建立倒排索引的过程,就是索引构建 索引器 构建索引的程序或者计算机,就是索引器 索引器需要原始文本,但是文档可能采用多种...

  • 拼写纠错

    对大多数拼写纠错来说,存在两个基本原则: 对于一个拼写纠错的查询,在其中正确的拼写中,选择距离最近的一个。当两个正确拼写查询临近度相等时,选择更...

  • 词项词典与倒排记录表

    构建倒排索引的几个主要步骤: 1 收集待建索引的文档2 对这些文档中的文本进行词条化3 对步骤2中的词条进行语言学预处理,得到此项4 根据词项对...

  • Resize,w 360,h 240
    Google文件系统--GFS详解

      Google File System(简称GFS)是适用于大规模且可扩展的分布式文件系统,可以部署在廉价的商务服务器上,在保证系统可靠性和可...

  • Resize,w 360,h 240
    RocksDB系列二十二:RocksDB使用场景和特性

      存储和访问数百PB的数据是一个非常大的挑战,开源的RocksDB就是FaceBook开放的一种嵌入式、持久化存储、KV型且非常适用于fast...

  • RocksDB系列二十一:持久化读缓存

    Introduction   很长一段时间,持久化数据存储都是使用磁盘。随着SSD的引入,我们现在有了新的持久化的存储介质,这种存储介质比传统的...

  • RocksDB系列二十:Simulation Cache

      Simulation Cache(SimCache)可以帮助用户在模拟的内存容量而不是物理上实际占用内存下预测block cache的性能数...

  • RocksDB系列十九:Iterator Implementation

    RocksDB Iterator   RocksDB Iterator提供用户以有序的方式前向或者后向遍历DB,也可以seek 到DB的特定ke...