详细pdf:
链接:https://pan.baidu.com/s/1pUWhb_y7kK7_fU0Gjqfe0Q 密码:602l
sklearn中的特征工程:https://www.cnblogs.com/jasonfreak/p/5619260.html
特征工程实则是数据深度清洗过程
1.数据清洗
a. 数据格式化(日期,数值格式化)
b. 脏数据清洗(不合理数据)
c. 缺失值处理方案
方案一 : 如果缺失值的样本占总数比例行高,可直接舍弃该字段,反倒成为噪声
方案二 : 如果缺失值的样本占总数比例适中,且该字段是离散型值,将缺失值作为新的一类
方案三:如果缺失值的样本占总数比例适中,且该字段是连续型数值,将数值离散化处理,将缺失值作为新的一类
方案四: 如果缺失值得样本占总数比例较少,可根据已有的值,拟合一定的数据补充上
2.数据采样
. 采样方式
1.随机采样
2.分层采样
. 正负样本不平衡处理办法
1.上采样(量大)
2.下采样(量小)
3.特征处理
1.数值型
2. 类别型
3. 时间型
4. 文本型
5. 统计型
6. 组合类型
4.特征选择
过滤型
包裹型
嵌入型