【深度之眼cs231n第七期】笔记(二)
目录 数据驱动方法 语义鸿沟 数据驱动方法 k最临近算法(KNN) 距离度量方法 L1距离 L2距离 K的选择 超参数 KNN的问题 测试时非常慢 距离度量的问题 维度灾难 总结 数据驱动方法 语义鸿沟 对于一幅图像,人眼看到的是猫,计算机看到的是数字矩阵。猫的标签和数字矩阵间的差距就是语义鸿沟。 如何把标签和数字矩阵联系起来(事实上就是图片分类)对计算机来说是一个很难的问题。 问题1:如何把它们联系起来? 问题2:当我们移动相机,从另一个方向拍摄猫的照片时,图像上的数字几乎都改变了,但是它还是表示同一只猫。如何才能把变化后的图像也认成猫? 光线改变时,它还是猫 这些不同姿势的还是猫 我们没有直接的方法识别一只猫。一个较直接的想法就是,先识别出耳朵,眼睛等,然后写一些方法来识别它。比如耳朵、眼睛等符合一定条件的就是猫。 但这并不是一个很好的方法。首先,这种算法很容易出错(看上面神奇的姿势);其次,识别其他的东西又需要设计新的算法。 所以我们考虑用数据驱动的方法。 数据驱动方法 首先获取带标签的数据集,然后训练分类器,得出一个模型,模型已经总结出识别的要素。最后用模型识别新的图片。 函数不再是只有一个(输入图片,识别它是否是猫),而是有两个,一个训练函数(用数据集来训练模型),一个预测函数(使用模型来识别这是不是一只猫)。 k最临近算法(KNN)