图像检索

论文笔记(关于图像检索的总结性论文):Content-Based Image Retrieval and Feature Extraction: A Comprehensive Review(上)

淺唱寂寞╮ 提交于 2020-03-04 02:07:38
放上引用:Latif, Afshan and Rasheed, Aqsa and Sajid, Umer and Jameel, Ahmed and Ali, Nouman and Ratyal, Naeem Iqbal and Zafar, Bushra and Dar, Saadat and Sajid, Muhammad and Khalil, Tehmina:Content-Based Image Retrieval and Feature Extraction: A Comprehensive Review,Mathematical Problems in Engineering,Mathematical Problems in Engineering 这是巴基斯坦的一个团队的研究论文,因为无意中看到其实还挺全面且详细的。一切论文都不是完全正确且最新的,这里就当和大家一起基于这篇论文重新整理一下关于Content-Based 图像检索和特征抽取的种种。然后也是为了跟着这篇文章的参考文献思路,各取所需。以下内容仅代表个人观点,有问题欢迎交流。 关于什么叫 content-based,参考以下论文: Gudivada, Venkat N., and Vijay V. Raghavan. "Content-based image retrieval systems."

无监督图像检索 《Unsupervised Part-based Weighting Aggregation of Deep Convolutional Features...》

匿名 (未验证) 提交于 2019-12-03 00:36:02
基于部件的CNN特征加权聚合的无监督图像检索 该文提出了一种利用卷积神经网络中的 filters 作为部件检测器,采用无监督方式选择部件检测器的图像特征提取方法,属于特征聚合方法,用于图像检索领域。代码在: 点击打开链接 特征聚合方法一般用于具有不同个数的局部特征(如SIFT)的图像特征表示。卷积神经网络的全连接层得到的分类特征维数是固定的,无需进行特征聚合,以及其他特征聚合方法如WoF,VLAD,FV类方法,它们都忽视了物体各个部件的所具有的判别性能力。 文章重点不在重现这个效果,而是将该性质用来分别表达物体的各个部件的特征,从而提出一种新的特征聚合方法。【我看到这篇文章是被Unsupervised 一词吸引的】,下面着重分析其unsupervised是怎么做的。 Unsupervised part detector selection 1. 训练阶段。采用预训练好的模型(如ImageNet VGG16)跑inference,得到所有图像的某个feature map。如上图所示,假设分类数为C,那么输出层一共有C个通道,HxW大小,【根据前面性质,每个通道对应一个类别】,那么计算出一张图像的每个通道特征,得到所有图像C个通道后,计算每个通道的平均值及各个通道的方差,将方差降序排列,选出方差最大的前N个通道(why?)作为部件检测器。从而所有图像的部件可表示为一个 HxWxN

图像检索评价指标mAP

匿名 (未验证) 提交于 2019-12-03 00:22:01
mAP为AP的平均值 AP为不同召回率上的正确率的平均值。 如果数据库中和查询信息相关的5条信息,分别出现在查询结果中的第1、3、6、9、10位,那么这次查询的AP就是: 得到多条查询的AP值,对其进行平均,就得到了mAP 转载请标明出处: 图像检索评价指标mAP 文章来源: 图像检索评价指标mAP

(转载)图像检索:基于内容的图像检索技术

Deadly 提交于 2019-11-28 12:28:21
图像检索:基于内容的图像检索技术 背景与意义 在Web2.0时代,尤其是随着Flickr、Facebook等社交网站的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如, Facebook注册用户超过10亿,每月上传超过10亿的图片;Flickr图片社交网站2015年用户上传图片数目达 7.28亿 ,平均每天用户上传约200万的图片;中国最大的电子商务系统淘宝网的后端系统上保存着286亿多张图片。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。基于内容的图像检索方法充分发挥了计算机长于处理重复任务的优势,将人们从需要耗费大量人力、物力和财力的人工标注中解放出来。经过十来来的发展,基于内容的图像检索技术已广泛应用于搜索引擎、电子商务、医学、纺织业、皮革业等生活的方方面面。 图像检索按描述图像内容方式的不同可以分为两类,一类是基于文本的图像检索(TBIR, Text Based Image Retrieval),另一类是基于内容的图像检索(CBIR, Content Based Image Retrieval)。 基于文本的图像检索方法始于上世纪70年代,它利用文本标注的方式对图像中的内容进行描述,从而为每幅图像形成描述这幅图像内容的关键词,比如图像中的物体、场景等

图像检索-乘积量化

ⅰ亾dé卋堺 提交于 2019-11-28 05:38:14
参考链接:https://blog.csdn.net/guanyonglai/article/details/78468673 看了两天的乘积量化,先说下我自己的理解吧:(以下蓝字使我的理解,红字是我看别人的博客暂时没弄懂的,我写的比较啰嗦以便我回头自己翻看时不会再有疑问(#^.^#)) 假设我们的图片检索库有100万张图片,每张图片提取多个128维的特征向量,把这128维向量分成8个短向量,每个短向量是16维,也就是说检索库总共包含100万*8这么多向量(我们暂且称为8堆短向量,每一堆有100万个短向量),我们把每一堆短向量都用 k-means 聚类为 256 类。对于检索库里面的每一张图片都由多个128维的向量表示,把每个128维的向量分为8个16维的短向量,对于每一个短向量我们都找到他属于一堆短向量的256类中的哪一类(可是这里如果归错类了那么查找图片岂不是一步错步步错?又一疑问:如果把大量的库图片归类为这256类呢,而且还要索引好每一张图片的需要以方便查找,k-means算法可以具体实现这一步骤吗?),依此类对,8个短向量分别在8个堆中查找属于256类中的哪一类,这样一张图片8个短向量的每一个短向量都有256种选择,即一张图片总共有256的8次方种选择(2的64次方,即相当于一幅图片的特征可以表示为64位(8*8bit)二进制数),这样图片库的数量就可以很大了(2的64次方

图像检索:layer选择与fine-tuning性能提升验证

懵懂的女人 提交于 2019-11-27 20:48:31
这个世界上肯定有另一个我,做着我不敢做的事,过着我想过的生活。一个人逛街,一个人吃饭,一个人旅行,一个人做很多事。极致的幸福,存在于孤独的深海。在这样日复一日的生活里,我逐渐和自己达成和解。 作为迁移学习的一种,finetune能够将general的特征转变为special的特征,从而使得转移后的特征能够更好的适应目标任务,而图像检索最根本的问题,仍在于如何在目标任务上获得更好的特征表达(共性与可区分性)。一种很自然的方式便是在特定的检索任务上,我们对imageNet学得的general的特征通过finetune的方式,使得表达的特征能够更好的适应我们的检索任务。在 End-to-end Learning of Deep Visual Representations for Image Retrieval 和 Collaborative Index Embedding for Image Retrieval 中已经很清楚的指出,通过基本的classification loss的finetune的方式,能够较大幅度的提高检索的mAP。因此,在本篇博文中,小白菜针对检索,主要整理了下面四个方面的内容: CNN网络中哪一层最适合于做图像检索 基于pre-trained模型做图像检索几种典型的特征表示方法 抽取网络任意层的特征 数据增强(Data Augmentation)