DB4AI,即Database for AI,是用数据库和数据管理的技术提升AI流水线全过程性能的技术,包括前期的数据准备、加速训练推理、降低模型成本、以及产业化部署等。 在...
DB4AI,即Database for AI,是用数据库和数据管理的技术提升AI流水线全过程性能的技术,包括前期的数据准备、加速训练推理、降低模型成本、以及产业化部署等。 在...
标题:近似搜索的乘积量化算法。乘积量化也是在向量空间数据的KNN搜索中比较特色的一类算法,本篇是开山之作。 编者的总结 量化实际上就是找k-means做聚类,乘积量化就是分段...
十亿级深度学习向量数据集的高效索引 作者来自俄罗斯Yandex 编者的总结 核心思路是使用VQ而非PQ避免分段产生各分段之间的互信息损失。 技术手段是使用VQ中的RVQ做两层...
说明:本人8月5日成功申请到“2020年国家建设高水平大学公派研究生项目”联合培养博士,由于疫情影响网申时间顺延为5月15日至6月10日,本文记录了我的CSC申请全过程。 申...
Steiner Tree是一个经典的NP-hard问题,问题定义不在这里重复了,主要介绍几种近年来典型的解法思路。Steiner Forest扩展了Tree的定义,设置一组起...
本文作者来自丹麦和意大利,曾设计ann-benchmarks获得ANN领域广泛关注。 编者的思考 只选了数据集中的点当做query,可能会有bias。 LID, expans...
标题:大规模分布式分区iSAX本文是2018TKDE-Massively Distributed Time Series Indexing and Querying的会议版本...
2019BIGVIS-Progressive Similarity Search on Time Series Data标题:时间序列similarity-search的一个...
作者来自英伟达 编者:本文只介绍图结构,GPU部分暂时省略。 编者的总结(图结构方面) 是NSSG的一个改版,用一个K较大的KNN-Graph做初始化,然后在其中通过两条绕路...