您的位置:首页 > 博客中心 > 互联网 >

特征工程

时间:2022-05-11 13:02

L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大)

数据和特征处理

数据清洗

正负样本不平衡的处理方法:上采样,下采样,修改损失函数

数值型特征:幅度调整,归一化,离散化

类别型特征:one-hot 编码

组合特征

文本特征中的TF-IDF:TF(t)=(t在当前文中出现的次数)/(t在全部文档中出现的次数) IDF(t)=ln(总文档数/含t的文档数)IF-IDF=TF*IDF

特征选择

原因:冗余,噪声

特征选择VS降维  :前者是踢掉特征里面和预测结果关系不大的特征,后者是做特征的计算组合构成新的特征

特征选择的3种方法:

过滤型

技术分享

 

 包裹型

 技术分享

嵌入型:加入L1正则化,有2-3千万是有权值的,其没有权值

 

 技术分享

 

本类排行

今日推荐

热门手游