怎么架构网站/哪些平台可以做推广
该论文提出多索引哈希算法,虽然题目包含Fast Exact Search,但是其实并没有那么Exact,不过相比于前序工作确实Fast。对于该文章的解读将偏简略,因为阅读它只是我的课程作业(狗头
论文标题:Fast Exact Search in Hamming Space with Multi-Index Hashing
所在期刊:TPAMI 2013
思维导图
1. 问题背景
1.1 二进制编码
该论文发表时,许多人使用二进制编码表示图像数据和特征描述子,并用于快速近邻搜索。二进制编码的近邻搜索被用于图像搜索、局部特征匹配、图像分类、目标分割和参数估计等方向。
1.2 现存挑战
虽然可以快速计算二进制码之间的海明距离,但是线性查询只能处理小规模的数据集。当二进制码的位数大于32位时,即使采用一个很小的查询半径,二进制哈希在理论上需要比对的数据规模可能比整个数据集的容量还要大[1]。
2. 文章主要内容
2.1 本文主要贡献
针对以上挑战,Mohammad Norouzi等人提出了多索引哈希算法(Multi-Index Hashing, MIH)。MIH建立多个⼆进制编码子字符串的哈希表,使得汉明空间中的精确k近邻搜索成为可能,同时达到了次线性搜索时间。文章主要解决了两个问题:
- kNN search in Hamming distance:对于⼀个给定的查询,在数据集
内找到
个汉明距离最近的编码
- Approximate Query problem:在数据集
中找距离查询⼩于⼀个固定的汉明距离的所有编码
2.2 算法思路
多索引哈希算法在建立索引时将二进制码划分为多个连续不重合的子串,并为每个子串建立一个哈希表;在查询时,按照同样的方式把待查询二进制码划分为多个子串,然后在相应的哈希表中进行查找以返回候选结果;最后,根据候选结果和查询之间的海明距离对候选结果排序,从而得到最近邻.对每一个子串,其所需的查询半径与整个二进制码相比大大减小。因此,多索引哈希算法极大地降低了需要比对的待检测数据量,从而提高了查找最近邻的速度[1]。
对于算法细节有两个不错的阅读笔记可以参考:
论文笔记 《Fast Search in Hamming Space with Multi-Index Hashing》tangxman.github.io多下标哈希表--Fast Exact Search in Hamming Space with Multi-Index Hashingblog.csdn.net参考
- ^ab[1]马艳萍,姬光荣,邹海林,谢洪涛.数据依赖的多索引哈希算法[J].西安电子科技大学学报,2015,42(04):159-164.