计算机视觉发展历程
1.人类想了解视觉的原理→探测猫的大脑皮层→发现它对边缘信息更敏感
2.视觉世界太复杂了→简化为简单的几何形状→识别和重建这些形状
3.(表示物体)建立3D模型:边缘、端点、虚拟线条→边缘与深度信息、场景的不连续性拼凑起来→3D4.(表示物体)用圆柱或圆圈-线表示人形
5.(识别物体)猫对边缘信息更敏感,所以尝试通过物体边缘来识别物体
6.(识别物体)目标识别太难了,先做目标分割→把图片中的像素点归类到不同的区域(虽然我们并不知道它是什么东西,但是我们知道他们是类似的)
7.(识别物体)人类对面部信息很敏感,所以面部检测发展得比较快
8.(识别物体)SIFT特征匹配(基于特征的目标识别):直接识别一个整体是很困难的(影响因素:遮挡、尺度缩放、旋转、亮度变化等)但是有些特征在上面的影响因素下保持不变。
先找出不变的特征,用这些特征进行精确匹配,最后匹配整个目标
9.(识别物体)金字塔匹配(识别整幅图像):图片里的各种特征可以告诉我们这是厨房还是风景。
从图片的各个分块中提取这些特征,并把它们放在一起作为一个整体,然后拿去做分类
10.(识别物体)特征用于识别人体姿态(方向梯度直方图、可变形部件模型)
11.识别是很复杂的问题,所以模型的维数往往比较高,训练数据量不够时容易发生过拟合(一个不恰当的比喻:这个本子上的题全都会做了,但是出一道不在本子上的题就做错了)。所以要求有较大的训练数据集。21世纪早期我们才真正有标注的数据集
2015年ImageNet挑战识别的错误率低于人类的识别率
12.可以看到上图中2012年的错误率明显下降,这是因为使用了卷积神经网络,后来的团队也都使用了卷积神经网络
看下图你会发现1998年用来识别手写数字的卷积神经网络和2012年的结构非常像,为什么2012才变得流行?
1)计算能力(比如晶体管的数量)提高就能得到更好的结果
2)还有GPU这样的图像处理单元(非常适合卷积神经网络)
3)大量的标注数据
计算机视觉的各种任务
1.图像分类:输入一张图像,从固定的类别集合中选出所属的类别
2.目标检测(Object detection):先画出边界框,再进行分类
图像摘要(Image Captioning):给一幅图像,生成一段句子,用到图像分类
3.实例分割(每个图像代表什么)、让计算机理解3D、识别动作、增强现实和虚拟现实
4.不只识别出物体,还能识别出对象关系、对象属性、场景中的动作等
5.人眼在一闪而过的图片中依然能够写出一长段的描述段落。花更长时间看这张图,人类可能写出一部小说(脑补能力)
6.一张图片中能包含非常多的信息,而计算机还不能识别出来(我们看到这幅图会笑出来,而计算机并不了解)
来源:CSDN
作者:树天先森
链接:https://blog.csdn.net/qq_40923177/article/details/103831773