算法-机器学习—特征工程

详细pdf:
链接:https://pan.baidu.com/s/1pUWhb_y7kK7_fU0Gjqfe0Q 密码:602l
sklearn中的特征工程:https://www.cnblogs.com/jasonfreak/p/5619260.html

特征工程实则是数据深度清洗过程

1.数据清洗

a. 数据格式化(日期,数值格式化)
b. 脏数据清洗(不合理数据)
c. 缺失值处理方案
方案一 : 如果缺失值的样本占总数比例行高,可直接舍弃该字段,反倒成为噪声
方案二 : 如果缺失值的样本占总数比例适中,且该字段是离散型值,将缺失值作为新的一类
方案三:如果缺失值的样本占总数比例适中,且该字段是连续型数值,将数值离散化处理,将缺失值作为新的一类
方案四: 如果缺失值得样本占总数比例较少,可根据已有的值,拟合一定的数据补充上

2.数据采样

. 采样方式
1.随机采样
2.分层采样
. 正负样本不平衡处理办法
1.上采样(量大)
2.下采样(量小)

3.特征处理

1.数值型

image.png
2. 类别型
image.png
3. 时间型
image.png
4. 文本型
image.png
image.png
5. 统计型
image.png
6. 组合类型
image.png

4.特征选择

过滤型
包裹型
嵌入型