Feature

scikit-feature: Open-Source Feature Selection Repo

删除回忆录丶 提交于 2020-05-02 11:01:01
scikit-feature is an open-source feature selection repository in python, with around 40 popular algorithms in feature selection research. It is developed by Data Mining and Machine Learning Lab at Arizona State University. By Jundong Li , ASU . scikit-feature is an open-source feature selection repository in Python developed at Arizona State University. It is built upon one widely used machine learning package scikit-learn and two scientific computing packages Numpy and Scipy. scikit-feature contains around 40 popular feature selection algorithms, including traditional feature selection

对Git Flow做点微创新 (1)

不打扰是莪最后的温柔 提交于 2019-12-04 01:29:05
昨天写了Git Flow印象( http://www.jiangyouxin.net/2013/02/11/git_flow.html ),总体来说这是个不错的东西,与现在厂里的研发模型非常契合。所以打算稍稍做些修改,然后拿到厂里去推广。 今天做的修改(按老周的话,这叫“微创新”),是在git flow feature finish的时候,提供一个选项,可以将所有修改合并为一个commit提交到develop分支上;feature分支本身的提交历史不再保留。 为什么需要这样一个选项?首先当前的git flow在将feature分支向develop合并的时候,使用了--no-ff,强制生成了一个merge结点。见下图(左): 左图通过merge结点来确定feature之间的边界 —— 如果不使用--no-ff就会形成右图(类似SVN的线性提交历史),日子一久就分不清哪些提交属于同一个feature了。 这已经很好了,但仍不是最好。事实上,feature分支的原始提交历史,很多情况下是无用的。比如说在我厂推广git flow时,feature分支将伴随某个功能“开发 + 测试”的全过程,上面的提交历史体现的是开发和BUG FIX的节奏次序;等合并到develop时,功能基本稳定,只需要合并最终结果,以后也很少会关心这个feature的开发过程中发生了什么事情。 综上

自学习 与 无监督特征学习

♀尐吖头ヾ 提交于 2019-12-03 03:59:15
基本内容 在之前课程的基础上,本章的内容很好理解。 比如要对手写数字进行识别,我们拥有大量未标注的和少量已标注的手写数字图片。图片是灰度图,尺寸是 28×28(=784),可以将 784 维向量直接作为输入,但此时模型复杂度较高,也没有减小噪音和次要特征的影响。所以如果能提取原数据的主要特征作为输入,可以提高预测的准确度。 稀疏自动编码器就是一个很好的特征选择算法。 经过训练,隐藏层的输出(Features)可以替代原数据作为分类算法的输入。 基本概念就这么多,本章的难点在于理论与实践的结合。 课后作业 先吐槽一下 oschina 博客的代码插件,没有 Matlab 选项 却有 Google Go,oschina 认为 Go 比 Matlab 应用更广泛吗? 这也是我在这个系列文章里不贴代码只给链接的原因。 主要代码及运算结果 代码地址 stlExercise.m - 程序的入口和主线 稀疏自编码器可视化: 使用提取出的特征训练 Softmax 分类器,测试结果: 使用原数据训练 Softmax 分类器,测试结果: 加入数据白化 如果在交给稀疏自编码器提取特征之前,对原数据做一些预处理结果会怎样? 我们知道对图像数据做白化处理可以平滑去噪、减小特征之间的相关性。下面就看看加入数据白化后的结果。 图1是原始图像、图2是白化后的图像、图3是稀疏自编码器学到的特征。 预测准确度为: