Product Quantization for Nearest Neighbor Search 论文笔记
摘要 本文介绍了一种基于乘积量化的近似最近邻搜索方法。 这个想法是将空间分解为低维子空间的笛卡尔积,并分别量化每个子空间。 矢量由其子空间量化索引和短码表示。 可以从它们的码字有效地估计两个矢量之间的欧氏距离。 非对称版本增加了精度,因为它计算向量和码字之间的近似距离。 实验结果表明,我们的方法有效地搜索最近邻居,特别是与倒置文件系统相结合。 SIFT和GIST图像描述符的结果显示出优异的搜索精度,优于三种最先进的方法。 我们的方法的可扩展性在20亿个向量的数据集上得到验证。 简介 在本文中,我们使用量化构造短码字。 目标是使用向量到质心距离来估计距离,即,不对量化查询向量,仅将代码分配给数据库向量。 这减少了量化噪声并随后提高了搜索质量。 为了获得精确的距离,必须限制量化误差。 因此,质心的总数k应该足够大,例如,对于64位代码,k = 2^64。 这引发了关于如何学习码本和分配的几个问题: 首先,学习量化器所需的样本数量很大,即几倍于k。 其次,算法本身的复杂性令人望而却步。 最后,地球上可用的计算机内存量不足以存储表示质心的浮点值。 分层k均值(HKM)提高了学习阶段和相应分配程序的效率[13]。 然而,上述限制仍然适用,特别是关于存储器使用和学习集的大小。 另一种可能性是标量量化器,但就存储器和重建误差之间的权衡而言,它们提供了差的量化误差特性。