转载请注明链接：有问题请及时联系博主：Alliswell_WP

本地图像描述符：现代方法

——
作者：Bin Fan，Zhenhua Wang，Fuchao Wu

有关该系列的更多信息，请访问http://www.springer.com/series/10028

前言1

在过去的15年中，特征点描述符已成为计算机视觉社区中必不可少的工具。它们是从图像检索到多图像立体匹配以及从表面重建到图像增强等应用程序的重要组成部分。

从原始的SIFT向量开始，已经提出了很多方法来实现所需的视点和光照不变性，并达到了高性能水平。描述符通常表示为高维向量，例如128维SIFT或64维SURF向量。
当仅需要表示数百个点时，描述符的高维度并不是问题，但是当必须在计算和存储资源有限的设备上使用数百万个设备时，描述符就成为一个重大问题。例如，在将大型城市场景的所有描述符存储在移动电话中以基于图像的定位目的时，就会发生这种情况。这不仅需要大量存储，而且速度慢且可能不可靠，因为大多数识别算法都依赖于最近邻计算，并且计算长向量之间的欧几里得距离既不便宜也不理想。

解决这些问题的一种传统方法是使用较短的描述符，这可以通过执行降维来实现。但是，近年来，使用二进制描述符已成为一种更好的选择。通过使用现代处理器在硬件中计算汉明距离的能力，这些描述符不仅体积小得多，而且描述能力几乎没有损失，而且比浮点描述符要快得多。

由于有无数种方法来计算这样的二进制描述符，从二进制化浮动描述符到通过使用适当的二进制测试从头开始计算它们，选择正确的描述符变得困难。这是从业者必须面对的挑战，本书旨在帮助他们找到自己的出路。

本书从传统的浮点数移到了依赖强度顺序的浮点数，最后是二进制的浮点数。然后，演示了如何在实践中使用它们，并通过对它们进行基准测试并为将来的研究提出建议来得出结论。由于本书涵盖了从传统到非常新的描述符的整个范围，并对其进行了仔细的对比，因此，本书是计算机视觉领域很大一部分的宝贵指南。

Pascal Fua教授
IEEE院士
洛桑联邦理工学院(EPFL)

前言2

人类通过视觉获得有关其环境的绝大多数信息。视觉也是构建可感知和理解其环境的人工系统的关键组件。由于其广泛的应用和重大的研究挑战，计算机视觉是信息技术中最活跃的研究领域之一。

近年来，有效描述图像内容的方法已成为计算机视觉研究中非常感兴趣的主题。图像描述符在大多数计算机视觉系统和应用程序中起着关键作用。描述符的功能是将像素级信息转换为有用的形式，该形式可以捕获成像场景的最重要因素，但对环境变化引起的无关方面不敏感。有效的描述符能够忽略环境变化所引起的不相关方面。此外，应该在不损害该方法的描述能力的情况下进行此操作。尽管无关紧要的定义取决于应用程序，但最常见的情况与成像条件有关，例如照明，视角，比例，噪声和模糊。当前，SIFT(尺度不变特征变换)，HOG(定向梯度直方图)，LBP(局部二进制模式)及其变体是最有效和最常用的描述符，可提供有关图像内容的补充信息。在许多应用中，仅使用一个描述符是不够的，但是应该使用不同描述符的适当组合。

图像描述符通常以三种替代方式使用。一个是稀疏描述符，它首先检测给定图像中的显着兴趣点，然后对局部补丁进行采样并描述其不变特征。 SIFT是最常用的稀疏描述符。第二种方法基于对均匀间隔的单元格的密集网格进行计算。 HOG和SIFT是此任务的常用替代方法。通过对输入图像或区域进行定期采样，可以密集使用普通纹理描述符。近年来，LBP已成为使用最广泛的密集纹理描述符，但也可以用作稀疏局部描述符(如SIFT)或在像HOG的网格上计算。

自1990年代初期以来，我的个人研究就为本地二进制模式方法，其变体以及诸如面部图像分析之类的不同应用做出了贡献。 LBP方法的巨大成功表明，图像描述符对于计算机视觉及其应用具有多么重要的意义。

本书为本地图像描述符提供了出色的概述和参考。在介绍之后，在第2章中，将回顾最常见的经典局部描述符，包括SIFT，SURF和LBP。第三章讨论了最近提出的基于强度阶的描述符。第4章介绍了二进制描述符，例如Brief，ORB和BRISK，它们可提供与广泛使用的兴趣区域描述符(例如SIFT和SURF)相当的匹配性能，但是提取时间非常快，并且所需的内存要求非常低，例如，在新兴应用中使用计算能力有限的移动设备。第5章提供了在诸如移动和3D重构的结构，对象识别，基于内容的图像检索以及同时定位和映射(SLAM)之类的现代应用问题中使用本地描述符的说明。第6章介绍了用于评估局部图像描述符的常用基准，并提出了结论和一些未来的研究方向。

本书很好地概述了本地图像描述符以及如何将它们用于解决各种计算机视觉问题。它还包含对该领域最重要论文的引用，使学生可以研究特定领域的更多细节。作者在写这本书方面做得很出色。对于从事计算机视觉，图像分析及其应用的研究人员，工程师和研究生而言，它将是宝贵的资源。

MattiPietikäinen教授
IEEE院士，IAPR院士
奥卢大学

前言

计算机视觉是计算机科学和人工智能的交叉学科。它旨在使计算机能够像人一样理解和感知图像和视频，涵盖许多典型任务，例如识别，重建，运动分析等。本地图像描述符在大多数这些任务中起着关键作用。特别是自2004年系统提出尺度不变特征变换(SIFT)的里程碑式工作以来，过去十年来，我们见证了基于局部描述符的各种视觉应用。经过10年的发展，在本地图像描述领域提出了许多出色的方法，这些方法在许多应用中都可以胜过SIFT。

本书专门研究本地图像描述符，涵盖了经典方法和最新方法以及该领域的新兴研究主题。它主要包括三个部分。第一部分介绍了在文献中广泛使用的经典局部描述符。第二部分着眼于现有技术，即最近基于强度顺序开发了更健壮的方法，以及一些可能成为未来研究方向的新兴方法。第三部分给出了局部描述符的一些实际应用示例。因此，通过阅读本书，读者可以快速了解什么是本地图像描述符以及它可以做什么。由于本书中介绍了许多具有不同属性的本地描述符，以及它们的优缺点，这对于正在寻找针对其特定应用或问题的解决方案的研究人员和从业人员来说将是有益的。

这本书提供了理论和实践的丰富融合。它适合对计算机视觉感兴趣的毕业生，研究人员和从业人员，既可以作为学习教材，也可以作为参考书。

我感谢洛桑联邦理工学院(EPFL)的Pascal Fua教授邀请我作为他的实验室访问学者。本书的大部分内容都是在这段时间内完成的。那是在这里进行研究的快乐时光。我还要感谢中国科学院自动化研究所的胡占义教授，将我带入计算机视觉世界，并对我的研究和职业生涯提出了宝贵建议。特别感谢CASIA的潘春红教授在我的研究小组中一直支持我探索未知的科学世界。最后，感谢SpringerBriefs的出版团队的协助。

本书的编写得到了中国国家自然科学基金(No.61203277,61272394)，北京自然科学基金会(No.4142057)和中国奖学金委员会的支持。

瑞士洛桑
范斌
2015年八月

1 引言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 经典的本地描述符. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 尺度不变特征变换 (SIFT) . . . . . . . . . . . . . . . . . . 5
2.1.1 SIFT中的比例尺空间表示. . . . . . . . . . . . . . . . . 6
2.1.2 关键点检测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.3 功能描述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 加快了鲁棒性 (SURF) . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 积分图像. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 SURF中的尺度空间表示 . . . . . . . . . . . . . . . . 11
2.2.3 尺度不变兴趣点检测 . . . . . . . . . . . . . . 14
2.2.4 方向分配和描述符的构造 . . . . . 14
2.3 局部二元模式及其变异 . . . . . . . . . . . . . . . . . . . . . 16
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 基于强度顺序的本地描述符. . . . . . . . . . . . . . . . . . . . . 25
3.1 序数和空间强度分布描述符 (OSID). . . . . 25
3.2 基于强度顺序的特征描述池化 . . . . . . . . . 26
3.2.1 基于几何的空间池分析 . . . . . 27
3.2.2 基于强度顺序的补丁分区. . . . . . . . . . . . . . . . 30
3.2.3 MROGH和MRRID描述符的构造 . . . . . . 31
3.3 用于特征描述的局部强度顺序模式 . . . . . . . . . . 33
3.3.1 LIOP描述符的构造 . . . . . . . . . . . . . . . . 34
3.4 基于强度阶的二进制描述符 . . . . . . . . . . . . . . . . . . . 34
3.4.1 次区域生成 . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.2 区域不变式和成对比较 . . . . . . . . . 37
3.4.3 学习好的二进制描述符 . . . . . . . . . . . . . . . . . . 39
3.4.4 使用多个支持区域. . . . . . . . . . . . . . . . . . . 40
3.4.5 级联过滤以加快匹配速度 . . . . . . . . . . . 40
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4 Burgeoning方法：二进制描述符. . . . . . . . . . . . . . . . . . . . 43
4.1简介：二进制健壮的独立基本特征. . . . . . . 43
4.2 ORB：定向的FAST和旋转的Brief. . . . . . . . . . . . . . . . . 44
4.2.1尺度不变FAST检测器. . . . . . . . . . . . . . . . . . . . 45
4.2.2强度中心的方向计算. . . . . . . . . 45
4.2.3学习良好的二进制特性. . . . . . . . . . . . . . . . . . . . 46
4.3 BRISK：二进制鲁棒和不变的可扩展关键点. . . . . . . 47
4.3.1关键点检测. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.2方向分配和关键点描述. . . . . . . 49
4.4 FREAK：快速视网膜关键点. . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4.1描述符的构造. . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4.2与FREAK的节奏匹配. . . . . . . . . . . . . . . . . . . 51
4.5 FRIF：快速鲁棒不变特征. . . . . . . . . . . . . . . . . . . . . . 52
4.5.1 FALoG检测器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5.2混合二进制描述符. . . . . . . . . . . . . . . . . . . . . . . . 53
4.6通过监督信息学习二进制描述符. . . . . . . . 54
4.6.1从原始映像补丁开始. . . . . . . . . . . . . . . . . . . . . . . . . 55
4.6.2来自中间表示. . . . . . . . . . . . . . . . 62
参考文献. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65岁
5视觉应用程序. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.1运动和3D重建的结构. . . . . . . . . . . . . . . 69
5.2对象识别. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3基于内容的图像检索. . . . . . . . . . . . . . . . . . . . . . . . . 77
5.4同时定位和映射(SLAM). . . . . . . . . . . . 81
参考文献. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6资源和未来工作. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.1数据集和评估协议. . . . . . . . . . . . . . . . . . . . . . . . 89
6.1.1图像匹配基准. . . . . . . . . . . . . . . . . . . 89
6.1.2对象识别基准. . . . . . . . . . . . . . . . . 92
6.1.3图像检索基准. . . . . . . . . . . . . . . . . . . 93
6.2结论和今后的工作. . . . . . . . . . . . . . . . . . . . 95
参考文献. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

第1章

简介本地图像描述符是一种矢量(浮动类型或二进制类型)，用作本地图像的签名。这种表示的目的是使局部图像尽可能独特，同时保持对各种图像转换(包括光度和几何图像转换)的鲁棒性，包括视点更改(平面外旋转)，比例更改，平面内旋转，图像通过实现这些特征，可以容易地在从不同位置拍摄的同一场景的图像之间或相似图像之间建立对应关系。然后，基于这些对应关系构建了许多计算机视觉应用程序，例如3D重建[1]，图像针迹[16]，对象/实例识别[10]等[13、15、22]。

但是，设计一个出色的本地图像描述符(对各种图像转换具有高度区分性和鲁棒性)并不是一件容易的事。实际上，判别能力和鲁棒性是局部描述符的两个矛盾因素，不能同时加以很好的照顾。一种极端的情况是，我们可以使用本地图像中所有像素的强度作为其描述符。它是如此独特，以至于即使局部图像的微小变化也会导致其描述符之间的巨大差异。因此，它一点也不健壮。另一方面，如果我们使用统计量(例如平均值)来表示局部图像，则它对于许多转换非常鲁棒，但仅具有非常低的判别能力。结果，该领域的研究目的是设计不同的方法来在判别能力和鲁棒性之间进行权衡。

尺度不变特征变换(SIFT)[10]是局部图像描述领域的一个里程碑式的工作。它已被广泛用于之前描述的许多视觉应用中，并在很大程度上启发了该领域稍后提出的许多本地图像描述符。
在行人检测中广泛使用的定向梯度直方图(HoG)[5]是一个示例。另一个例子是加速鲁棒特征(SURF)[3]，它通过使用积分图像技术加快SIFT的计算速度，同时保持可比的匹配性能。 SURF在许多需要快速处理的应用中是SIFT的替代品，但与SIFT相比，其匹配性能稍差一些。这是因为尽管SURF可以在基准数据集中获得与SIFT相当甚至更好的性能[11]，但在实际情况下有时还是不如SIFT。

自从提出SIFT以来已有十多年了，并且已经提出了许多方法。同时，关于设计更好的本地图像描述符的一些新技术和新见识不断涌现。因此，本书旨在及时总结过去的成就，并介绍一些新兴但蓬勃发展的技术。我们还介绍了局部图像描述符在其中发挥关键作用的几种典型应用。最后，我们想给读者一些建议，希望他们通过描述有用的评估协议和基准数据集来对此领域进行研究，并总结现有工作并列出未来工作的一些可能的方向。

本书的其余部分安排如下：

•第2章介绍了一些经典的本地描述符，这些描述符已在计算机视觉社区中广泛使用。这些描述符包括SIFT [10]和SURF [3]，它们不仅对宽基线图像匹配，而且对许多高级计算机视觉应用(例如图像分类和检索)都具有深远的影响。同时，本章还介绍了广泛使用的本地二进制模式(LBP)[12]及其变体。

•第3章详细介绍了一系列基于强度顺序的最近提出的方法，用于特征描述。尽管梯度方向分布在特征描述中已显示出其有效性，但由于强度对光照变化的敏感性，强度在很大程度上被研究界忽略。然而，最近的工作(例如，局部强度阶模式(LIOP)[19]，基于多支持区域阶的梯度直方图(MROGH)[7]，区域不变性的序数和空间信息(OSRI)[21])使我们重新认识了我们。注意它。通过使用强度顺序，某些方法不仅在区分能力上更强，而且在鲁棒性和紧凑性上都比SIFT更好。本章将介绍这种方法。

•第4章介绍了二进制描述符，由于其在大规模和实时应用中的潜力，近年来已变得越来越流行。这些二进制描述符包括二进制健壮的独立元素特征(BRIEF)[4]，面向FAST和旋转的Brief(ORB)[14]，二进制健壮和不变的可伸缩关键点(BRISK)[8]，快速视网膜关键点(FEARK)[2]。，快速鲁棒不变特征(FRIF)[20]和一些基于学习的特征[6、9、17、18]。

•第5章提供了有关如何在不同的实际计算机视觉应用程序中使用本地图像描述符的说明，包括3D重建，对象识别，图像搜索以及同时定位和映射(SLAM)。
本章详细介绍了每种应用程序的非典型实现，以便读者可以看到本地图像描述符如何在计算机视觉中发挥关键作用。

•第6章最后通过向该领域的潜在研究人员提供一些建议来总结本书。这些建议包括常用的基准数据集和标准评估协议。此外，在总结该领域现有工作的基础上，我们将讨论未来工作的一些潜在方向。

参考文献

Agarwal, S., Snavely, N., Simon, I., Seitz, S., Szeliski, R.: Building Rome in a day. In: International Conference on Computer Vision, pp. 72–79 (2009)
Alahi, A., Ortiz, R., Vandergheynst, P.: FREAK: Fast retina keypoint. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 510–517 (2012)
Bay, H., Ess, A., Tuytelaars, T., Gool, L.V.: SURF: speeded up robust features. Comput. Vis.Image Underst. 110(3), 346–359 (2008)
Calonder, M., Lepetit, V., Ozuysal, M., Trzcinski, T., Strecha, C., Fua, P.: BRIEF: computing a local binary descriptor very fast. IEEE Trans. Pattern Anal. Mach. Intell. 33(7), 1281–1298 (2012)
Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 886–893 (2005)
Fan, B., Kong, Q., Trzcinski, T.,Wang, Z., Pan, C., Fua, P.: Receptive fields selection for binary feature description. IEEE Trans. Image Process. 23(6), 2583–2595 (2014)
Fan, B., Wu, F., Hu, Z.: Rotationally invariant descriptors using intensity order pooling. IEEE Trans. Pattern Anal. Mach. Intell. 34(10), 2031–2045 (2012)
Leutenegger, S., Chli, M., Siegwart, R.: BRISK: Binary robust invariant scalable keypoints.In: International Conference on Computer Vision, pp. 2548–2555 (2011)
Liu, W., Wang, J., Ji, R., Jiang, Y.G., Chang, S.F.: Supervised hashing with kernels. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 2074–2081 (2012)
Lowe, D.: Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vis. 60(2), 91–110 (2004)
Mikolajczyk, K., Schmid, C.: A performance evaluation of local descriptors. IEEE Trans.
Pattern Anal. Mach. Intell. 27(10), 1615–1630 (2005)
Ojala, T., Pietikainen, M., Harwood, D.: A comparative study of texture measures with classification based on feature distributions. Pattern Recogn. 29, 51–59 (1996)
Philbin, J.,Chum,O., Isard, M., Sivic, J., Zisserman,A.: Object retrievalwith large vocabularies and fast spatial matching. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 1–8 (2007)
Rublee, E., Rabaud, V., Konolige, K., Bradski, G.: ORB: An efficient alternative to SIFT or SURF. In: International Conference on Computer Vision, pp. 2564–2571 (2011)
Sironi, A., Tekin, B., Rigamonti, R., Lepetit, V., Fua, P.: Learning separable filters. IEEE Trans.
Pattern Anal. Mach. Intell. 37(1), 94–106 (2015) 16. Szeliski, R.: Image alignment and stitching: a tutorial. Found. Trends Comput. Graph. Vis. 2, 1–104 (2006)
Trzcinski, T., Christoudias, M., Fua, P., Lepetit, V.: Boosting binary keypoint descriptors. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 2874–2881 (2013)
Trzcinski, T., Lepetit, V.: Efficient discriminative projections for compact binary descriptors.
In: European Conference on Computer Vision, pp. 228–242 (2012)
Wang, Z., Fan, B.,Wu, F.: Local intensity order pattern for feature description. In: International Conference on Computer Vision, pp. 603–610 (2011)
Wang, Z., Fan, B., Wu, F.: FRIF: Fast robust invariant feature. In: British Machine Vision Conference (2013)
Xu, X., Tian, L., Feng, J., Zhou, J.: OSRI: a rotationally invariant binary descriptor. IEEE Trans. Image Process. 23(7), 2983–2995 (2014)
Zhang, J.,Marszalek,M., Lazebnik, S., Schmid,C.: Local features and kernels for classification of texture and object categories: a comprehensive study. Int. J. Comput. Vis. 73(2), 213–238 (2007)

转载请注明链接：有问题请及时联系博主：Alliswell_WP

《Local Image Descriptor: Modern Approaches》_1

转载请注明链接：有问题请及时联系博主：Alliswell_WP

本地图像描述符：现代方法

前言1

前言2

前言

目录

第1章

参考文献