This section covers algorithms for working with features, roughly divided into these groups
本节介绍使用功能的算法,大致分为以下几组:
- 提取: 从数据中抽取特征。
- 转变: Scaling, converting, or modifying features
- 选择: 在多个特征中挑选比较重要的特征。
- 局部敏感哈希(LSH): 这类算法将特征变换的各个方面与其他算法结合起来。
Table of Contents
- Feature Extractors 特征提取
- TF-IDF
- Word2Vec
- CountVectorizer
- Feature Transformers 特征变换
- Tokenizer 分词器
- StopWordsRemover 停用字清除
- nn-gram
- Binarizer 二元化方法
- PCA 主成成分分析
- PolynomialExpansion 多项式扩展
- Discrete Cosine Transform (DCT-离散余弦变换)
- StringIndexer 字符串-索引变换
- IndexToString 索引-字符串变换
- OneHotEncoder 独热编码
- VectorIndexer 向量类型索引化
- Interaction
- Normalizer 范数p-norm规范化
- StandardScaler 标准化 基于特征矩阵的列,将属性值转换至服从正态分布
- MinMaxScaler 最大-最小归一化[0,1]
- MaxAbsScaler 绝对值归一化[-1,1]
- Bucketizer 分箱器
- ElementwiseProduct Hadamard乘积
- SQLTransformer SQL变换
- VectorAssembler 特征向量合并
- QuantileDiscretizer 分位数离散化
- Imputer
- Feature Selectors 特征选择
- VectorSlicer 向量选择
- RFormula R模型公式
- ChiSqSelector 卡方特征选择
- Locality Sensitive Hashing 局部哈希敏感
- LSH Operations
- Feature Transformation 特征转换
- Approximate Similarity Join 近似相似联接
- Approximate Nearest Neighbor Search 近似最近邻搜索
- LSH Algorithms
- Bucketed Random Projection for Euclidean Distance 欧式距离分桶随机投影
- MinHash for Jaccard Distance 杰卡德距离
- LSH Operations
Feature Extractors
TF-IDF
频率逆文档频率(TF-IDF)是一种特征向量化方法,广泛用于文本挖掘中,以反映词语对语料库中文档的重要性。 用tt表示词语,用dd表示文档,用DD表示语料库。 词语频率TF(t,d)TF(t,d)
是词语tt在文档dd中出现的次数,而文档频率DF(t,D)DF(t,D)
是包含词语的文档数量 tt。 如果我们仅使用词语频率来衡量重要性,则很容易过分强调那些经常出现但几乎没有有关文档信息的词语,e.g. “a”, “the”, and “of”。 如果一个词语在整个语料库中经常出现,则表示该词语不包含有关特定文档的重要信息。 反向文档频率是一个词语提供多少信息的数字度量:
IDF(t,D)=log|D|+1DF(t,D)+1,
来源:oschina
链接:https://my.oschina.net/u/3209854/blog/4953373