Mask_RCNN

ResNet、Faster RCNN、Mask RCNN是专利算法吗?盘点何恺明参与发明的专利

爱⌒轻易说出口 提交于 2021-02-08 13:22:39
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 前段时间OpenCV正式将SIFT算法的实现从Non-free模块移到主库,因SIFT专利到期了(专利授权后,从申请日开始有20年的保护期)。 美国林肯总统称" 专利制度是给天才之火浇上利益之油 ",专利保护了申请人的利益,促进了科技的进步,但现在也有越来越多的滥用专利权对产业机构敲诈的案例出现。 SIFT 专利权的终结让我们不得不思考,还有哪些著名的算法被申请了专利?对于做研究的朋友来说不需要考虑这个问题,专利算法依然可以参考、复现、对比,但对于产业界朋友就不得不确认清楚:项目中有没有可能使用了别人专利保护算法。 作为计算机视觉领域当今翘楚,两度获得CVPR 最佳论文奖的何恺明大佬有很多论文都具有重大影响力。其部分论文引用数据: 残差网络 ResNet 被引用 51939 次、目标检测算法 Faster RCNN 被引用 20291 次、实例分割算法 Mask RCNN 被引用 7249 次,暗通道去雾被引用 4274 次,这些知名的算法有成百上千的开源实现,也肯定被大量的商业公司使用,有没有被申请专利? 想想 ResNet 如果被申请专利,那恐怕大多数使用深度学习的商业公司都在侵权了!价值难以估计! 带着这样的疑问,CV君检索了所有与“ Kaiming He ”相关的已经公开的授权专利和专利申请

旷视科技提出SPCNet:一种任意形状的场景文本检测算法

情到浓时终转凉″ 提交于 2021-01-30 08:31:27
【AAAI 2019】SPCNet 这篇文章是谢恩泽在face++实习期间完成的一个工作,被AAAI2019接收,主要是做任意形状的场景文本检测,同时抑制错误样本的检测。 arXiv: https://arxiv.org/abs/1811.08605 Motivation 过去场景文字检测模型大多分为如下两类:1,基于语义分割的检测。2,基于边界框回归的检测。 这些方法的劣势在于不能很好的处理弯曲文字,而弯曲文字在自然场景中也是大量存在的。 我们考虑到弯曲文字可以通过实例分割的方法去处理,于是基于Mask R-CNN 去做。 ECCV2018有一篇Mask Text Spottor也是用了mask rcnn做了端到端识别,比我们早一点,做研究有局部撞车是常态了。。。不过eccv那篇对Maskrcnn本身并未做过多修改,创新之处主要在识别部分。 言归正传,本文的SPCnet将Mask R-CNN作为baseline,同时引入了text context 模块和re-score机制,从而提高检测准确率,降低FP的出现。 这张图是re-score模块的可视化图,可以看到,mask rcnn将水平box的分类分数最终的score,对于倾斜文本不是很友好,并且可能会引入fp,我们在这里将语义分割图上的响应和原本的score融合起来,得到的fus-score可以缓解mask

从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

会有一股神秘感。 提交于 2020-12-04 13:24:39
作者: Derrick Mwiti 编译:ronghuaiyang 来源公众号:AI公园 导读 作者参加了39个Kaggle比赛,总结了非常多的技巧和经验,现在全部分享给大家。 想象一下,如果你能得到所有的tips和tricks,你需要去参加一个Kaggle比赛。我已经超过39个Kaggle比赛,包括: Data Science Bowl 2017 – $1,000,000 Intel & MobileODT Cervical Cancer Screening – $100,000 2018 Data Science Bowl – $100,000 Airbus Ship Detection Challenge – $60,000 Planet: Understanding the Amazon from Space – $60,000 APTOS 2019 Blindness Detection – $50,000 Human Protein Atlas Image Classification – $37,000 SIIM-ACR Pneumothorax Segmentation – $30,000 Inclusive Images Challenge – $25,000 现在把这些知识都挖出来给你们! 外部数据 使用 LUng Node Analysis Grand

RoIPooling、RoIAlign笔记

非 Y 不嫁゛ 提交于 2020-11-21 03:19:29
一)、RoIPooling 这个可以在Faster RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map 先贴出一张图,接着通过这图解释RoiPooling的工作原理 针对上图 1)Conv layers使用的是VGG16,feat_stride=32(即表示,经过网络层后图片缩小为原图的1/32),原图800*800,最后一层特征图feature map大小:25*25 2)假定原图中有一region proposal,大小为665*665,这样,映射到特征图中的大小:665/32=20.78,即20.78*20.78,如果你看过Caffe的Roi Pooling的C++源码,在计算的时候会进行取整操作,于是,进行所谓的 第一次量化 ,即映射的特征图大小为20*20 3)假定pooled_w=7,pooled_h=7,即pooling后固定成7*7大小的特征图,所以,将上面在 feature map上映射的20*20的 region proposal划分成49个同等大小的小区域,每个小区域的大小20/7=2.86,即2.86*2.86,此时,进行 第二次量化, 故小区域大小变成2*2 4)每个2*2的小区域里,取出其中最大的像素值,作为这一个区域的‘代表’,这样,49个小区域就输出49个像素值,组成7*7大小的feature

目标检测Anchor的What/Where/When/Why/How

妖精的绣舞 提交于 2020-10-31 06:22:22
编译|yanwan,https://zhuanlan.zhihu.com/p/150332784 来 源|https://www.wovenware.com/blog/2020/06/anchor-boxes-in-object-de tection-when-where-and-how-to-propose-them-for-deep-learning-apps/%23.XvFzo0YzY2w 本文仅作学术分享,如有侵权,请联系后台作删文处理。 也许你正在学习计算机视觉的路上,并且已经深入研究了图像分类和滑动窗口检测器。 在掌握了这些概念之后,了解最新技术(SOTA)目标检测,往往会变得令人望而生畏和晦涩难懂,尤其是在理解 Anchor 时。 毋庸讳言,深入大量流行的YOLO、SSD、R-CNN、Fast RCNN、Faster RCNN、Mask RCNN和RetinaNet,了解 Anchor 是一项艰巨的工作,尤其是在您对实际代码了解有限时。 如果我告诉你,你可以利用今天深入学习目标检测背后的 Anchor 呢?本文目标是帮助读者梳理Anchor的以下内容: What :anchor是什么? Where :如何以及在何处对图像生成anchor以用于目标检测训练? When :何时可以生成anchor? Why: 为什么要学习偏移而不是实际值? How

vaptcha、京东、58等手势验证码图像识别与轨迹提取(思路)

烂漫一生 提交于 2020-10-27 16:21:23
本文来自老大哥,文安哲提供! 博客跳转: https://wenanzhe.com/ 弟弟这边将会根据哲哥的文章做一个深入的总结!(文章略有改动,如果觉得有点啰嗦,可以去看看我大哥的文章!) 最近看群里面大家讨论研究手势验证码比较多,然后我也顺带研究做了一下,给各位老公们分享一下做的过程。 首先,一起来康康手势验证码长啥样! vaptcha: 京东(个人挺喜欢京东手势的背景): 58: 大概就是长这个样子,需要按照图像中的那条轨迹再图片上滑动,不得不说这类验证码确实体验感拉满,让人很想立马关掉这个网站。 下面我们以vaptcha 来进行一个讲解(vaptcha是这三个里面最恶心的,恶心程度下面会介绍到): 那么言归正传,这类验证码该怎么做识别部分呢? 按照我们正常的思维方式就是要提取出来图中轨迹的部分和形状。 之前我试验了通过opencv二值化然后提取物体轮廓等等方法,可能对单一一张图有用,但是拿到其他图上效果就不是很好了。 直到有一天我看到了一张图 瞬间就反应过来我们可以通过语义切割的方式去获取轨迹部分。 使用MaskRcnn即可相对准确的切割出我们想要的部分。 1、采集图像样本。 这里没啥好说的,通过不断地请求获取验证码得到原始的手势验证码的图像。这里我大概采集了100张左右。 2、标记样本 这里我们使用Labelme工具来标注。 传送门 标记出来的效果大概就这这个样子 3

【Keras】基于SegNet和U-Net的遥感图像语义分割

半城伤御伤魂 提交于 2020-10-13 00:22:33
上两个月参加了个比赛,做的是对遥感高清图像做语义分割,美其名曰“天空之眼”。这两周数据挖掘课期末project我们组选的课题也是遥感图像的语义分割,所以刚好又把前段时间做的成果重新整理和加强了一下,故写了这篇文章,记录一下用深度学习做遥感图像语义分割的完整流程以及一些好的思路和技巧。 数据集 首先介绍一下数据,我们这次采用的数据集是CCF大数据比赛提供的数据(2015年中国南方某城市的高清遥感图像),这是一个小数据集,里面包含了5张带标注的大尺寸RGB遥感图像(尺寸范围从3000×3000到6000×6000),里面一共标注了4类物体,植被(标记1)、建筑(标记2)、水体(标记3)、道路(标记4)以及其他(标记0)。其中,耕地、林地、草地均归为植被类,为了更好地观察标注情况,我们将其中三幅训练图片可视化如下:蓝色-水体,黄色-房屋,绿色-植被,棕色-马路。更多数据介绍可以参看 这里 。 现在说一说我们的数据处理的步骤。我们现在拥有的是5张大尺寸的遥感图像,我们不能直接把这些图像送入网络进行训练,因为内存承受不了而且他们的尺寸也各不相同。因此,我们首先将他们做随机切割,即随机生成x,y坐标,然后抠出该坐标下256*256的小图,并做以下数据增强操作: 原图和label图都需要旋转:90度,180度,270度 原图和label图都需要做沿y轴的镜像操作 原图做模糊操作

【Keras】基于SegNet和U-Net的遥感图像语义分割

删除回忆录丶 提交于 2020-10-04 03:54:44
上两个月参加了个比赛,做的是对遥感高清图像做语义分割,美其名曰“天空之眼”。这两周数据挖掘课期末project我们组选的课题也是遥感图像的语义分割,所以刚好又把前段时间做的成果重新整理和加强了一下,故写了这篇文章,记录一下用深度学习做遥感图像语义分割的完整流程以及一些好的思路和技巧。 数据集 首先介绍一下数据,我们这次采用的数据集是CCF大数据比赛提供的数据(2015年中国南方某城市的高清遥感图像),这是一个小数据集,里面包含了5张带标注的大尺寸RGB遥感图像(尺寸范围从3000×3000到6000×6000),里面一共标注了4类物体,植被(标记1)、建筑(标记2)、水体(标记3)、道路(标记4)以及其他(标记0)。其中,耕地、林地、草地均归为植被类,为了更好地观察标注情况,我们将其中三幅训练图片可视化如下:蓝色-水体,黄色-房屋,绿色-植被,棕色-马路。更多数据介绍可以参看 这里 。 现在说一说我们的数据处理的步骤。我们现在拥有的是5张大尺寸的遥感图像,我们不能直接把这些图像送入网络进行训练,因为内存承受不了而且他们的尺寸也各不相同。因此,我们首先将他们做随机切割,即随机生成x,y坐标,然后抠出该坐标下256*256的小图,并做以下数据增强操作: 原图和label图都需要旋转:90度,180度,270度 原图和label图都需要做沿y轴的镜像操作 原图做模糊操作

聊一聊今年实例分割领域的进展和未来展望

喜夏-厌秋 提交于 2020-10-03 13:56:21
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 作者:林大佬 | 来源:知乎 https://zhuanlan.zhihu.com/p/150321886 本文仅做学术分享,如有侵权,请联系删除。 聊一聊今年实例分割领域的进展和未来展望 This article was original written by 林大佬, welcome re-post, first come with zhuanlan.zhihu.com/ai-m(https://zhuanlan.zhihu.com/ai-man) . but please keep this copyright info, thanks, any question could be asked via wechat: jintianandmerry 实例分割发展至今可谓是八仙过海各显神通,大家都在为打造一个精度足够高,速度足够快的方法不断地开拓着。从MaskRCNN这一开山鼻祖的方法到最新的SOLO,SOLOv2等,精度在不断刷新,速度在不断提高。然而对这一领域问题的定义并非是一成不变。Instance segmentation不同于Detection,围绕着这个问题可以展开非常多的方法去做它,甚至是把问题推翻,重新定义一遍instance segmentation然后再来想办法解决它

Mask-RCNN:教你如何制作自己的数据集进行像素级的目标检测

南笙酒味 提交于 2020-09-29 05:54:17
概述 Mask-RCNN,是一个处于像素级别的目标检测手段.目标检测的发展主要历程大概是:RCNN,Fast-RCNN,Fster-RCNN,Darknet,YOLO,YOLOv2,YOLO3(参考 目标检测:keras-yolo3之制作VOC数据集训练指南 ),Mask-RCNN.本文参考的论文来源于 https://arxiv.org/abs/1703.06870 . 下面,开始制作用于Mask训练的数据集。 首先展示一下成果,由于个人设备有限,cpu仅迭代5次的结果。 使用labelme进行图片标注 注意:   **标注之前将图片的名字通过linux或者python脚本改名,改为有序即可,我的命名格式为 升序 , 下面为linux脚本。 i= 1 ; for x in *; do mv $x $i.png; let i=i+ 1 ; done   **将所有图片的尺寸改为 600*800 .(一般设置为2的整数次幂,否则,后序训练时会报错). 脚本自取 https://github.com/hyhouyong/Mask-RCNN/blob/master/train_data/resize.py pip install labelme labelme 1.新建文件夹train_data,并创建子文件夹json,将标注后的json格式的文件放入该文件夹中 2