Unsupervised

自学习 与 无监督特征学习

♀尐吖头ヾ 提交于 2019-12-03 03:59:15
基本内容 在之前课程的基础上,本章的内容很好理解。 比如要对手写数字进行识别,我们拥有大量未标注的和少量已标注的手写数字图片。图片是灰度图,尺寸是 28×28(=784),可以将 784 维向量直接作为输入,但此时模型复杂度较高,也没有减小噪音和次要特征的影响。所以如果能提取原数据的主要特征作为输入,可以提高预测的准确度。 稀疏自动编码器就是一个很好的特征选择算法。 经过训练,隐藏层的输出(Features)可以替代原数据作为分类算法的输入。 基本概念就这么多,本章的难点在于理论与实践的结合。 课后作业 先吐槽一下 oschina 博客的代码插件,没有 Matlab 选项 却有 Google Go,oschina 认为 Go 比 Matlab 应用更广泛吗? 这也是我在这个系列文章里不贴代码只给链接的原因。 主要代码及运算结果 代码地址 stlExercise.m - 程序的入口和主线 稀疏自编码器可视化: 使用提取出的特征训练 Softmax 分类器,测试结果: 使用原数据训练 Softmax 分类器,测试结果: 加入数据白化 如果在交给稀疏自编码器提取特征之前,对原数据做一些预处理结果会怎样? 我们知道对图像数据做白化处理可以平滑去噪、减小特征之间的相关性。下面就看看加入数据白化后的结果。 图1是原始图像、图2是白化后的图像、图3是稀疏自编码器学到的特征。 预测准确度为: