Pandas_特征提取
one-hot encoding
基本思想是将离散型特征的每一种取值都看成一种状态,保证每一个取值只会使得一种状态处于激活状态。
编码函数pd.get_dummies()
dummy encoding
哑变量编码的基本思想是任意的将一个状态位去除,其他的状态位都不激活时,自然就表示被去除的状态位。
注意:
- Series 里的整数会被one-hot编码,但是DataFrame里则不会。
来源:https://www.cnblogs.com/Cobby-baby/p/12366322.html