04_数据降维
04 数据降维 降维: 降低特征的数量 特征选择 主成分分析 特征选择: 特征选择的原因 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对计算结构有影响 特征选择是什么? 定义: 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可以不改变值,但是选择后的特征维数肯定比选择前小。因为我们只选择了其中的一部分特征。 主要方法: Filter (过滤式):Variance Threshold (方差的过滤) Embedded (嵌入式):正则化、决策树 Wrapper (包裹式) VarianceThreshold 模块 from sklearn.feature_selection import VarianceThreshold def var(): """ 特征选择-删除低方差的特征 :return: None """ var = VarianceThreshold(threshold=0.0) #取值根据实际情况 data = var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]]) print(data) return None if __name__ == '__main__': var() 主成分分析(PCA Principal Component Analysis)