两个月没更新了,没有其它理由,就是懒惰,间接持续性的懒惰,一直持续了2个月,简直懒惰!!!大家的好多的私信也没回就过期回不了了。请大家批评我!!!。

看了很多高深的算法之后,实在是看不太明白,所以今天又来带大家复习基本功,都是两个非常非常重要的东西,先定两个基调,所谓的特征工程就是数据预处理,所谓的特征选择就是变量筛选,这样大家就不觉得这么难了。

Feature engineering improves the performance of the machine learning model by selecting the right features for the model and preparing the features in a way that is suitable for the machine learning model.

并且你也可以将特征选择看作是特征工程的一部分,概念上不去纠结它。同时特征工程的整个过程也要结合具体问题具体分析,需要经验,需要背景知识,也是没有金标准的。是一项科学与艺术相结合的工作。

特征工程

特征工程又称特征提取或特征发现,是使用领域知识从原始数据中提取特征的过程(怎么提,怎么将背景知识和提取方法结合其实是个艺术活)。这就涉及到一系列的操作,主要的目的就是将原始数据处理成可以直接喂给算法的数据特征。比如有些算法要求数据不能有缺失,你就得处理缺失值吧,比如有些算法需要正态数据,你就得进行数据转换吧,这些都是特征工程。

特征工程具体的操作包括

基础的操作:像One-hot encoding(哑变量转换),log转换,Outlier handling离群值处理,简单插补,Binning连续变量分箱都暂时略过(之后给大家写)。今天我们看下面的内容

1.插补

随机森林插补缺失应该是大家的首选方法,这个方法既可以处理连续特征又可以处理分类特征,而且对离群值和非线性数据的适合性都较好,其大概流程如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(1)

首先是将缺失的连续值用变量均值,分类值用众数插补好,然后将数据切为2部分,一部分是完整数据集(training set),一部分是插补后的数据集 (prediction set),然后用完整数据集训练随机森林模型,在插补后的数据集中更新缺失值,这样迭代,直到插补值稳定或者达到最大迭代次数。代码示例如下:

imp_train_X <- missForest(train_X)$ximp

KNN插补的思路是用缺失值附近(Euclidean distance)的K个值的均值将缺失插补上,只需要用kNN函数就可以实现,其示例如下,大家应该一读就知道这个方法只适合连续变量,因为其要计算距离

air_imp_knn <- kNN(airquality, k = 5, variable = "Ozone") n_miss(air_imp_knn$Ozone)

3.特征放缩

特征缩放有下面的三种常见的方法:

Min Max Scaler:MinMaxScaler method is one of the methods of standardizing the data where values are made to lie between 0 and 1

Normalization : All values are scaled in a specified range between 0 and 1 via normalisation (or min-max normalisation)

Standardization: Standardization (also known as z-score normalisation) is the process of scaling values while accounting for standard deviation

特征处理好之后,接下来的问题就是用哪些特征来训练我们的模型,就是特征选择。

特征选择

特征选择的方法又可以分为三个大类Filter Methods, Wrapper Methods 和 Embedded Methods(也叫Intrinsic Method).

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(2)

Filter Methods就是我们平常论文中常用的单变量筛选方法,比如ANOVA, Pearson Correlation, Chi-Square.--单因素分析有意义的时候纳入模型就是说的这个,这一部分有一个方法叫做“低信息特征过滤”,大家不常见到,但是很好理解,就是说有些变量基本上没有变异,全部观测都是取的同一个值或者接近全是同一个值,这样的特征其实是没有用的,需要过滤出去,此时用到的函数叫做nearzeroVar(),或者可以用preProcess()函数将method参数设置成“nzv”也是可以的。这个方法应该是特征选择的时候第一步使用。

Wrapper Methods指的是依靠模型表现来筛选变量,将筛选过程包装在建模过程里面,从而看看到底用哪些变量可以使模型表现更加好,这类方法就更加的有模型针对性了。常见的Wrapper Method包括递归式特征消除,逐步法Stepwise selection和基因算法。

Stepwise selection逐步法的概念统计书上将回归的章节都会有提到,要么就是在spss实操的书中会有的,包括前进和后退以及逐步3中方法。这儿要提醒大家的是前进法和逐步法都是可以用在高维数据中的(比如你的变量比观测多都可以用),但是后退法不行。

Embedded Methods这个方法和Wrapper Methods方法其实有点像的,都是要基于模型表现的,不同的地方就在于Embedded Methods结合了模型的固有特征(intrinsic properties),代表性的方法包括lasso法和决策树法。

接下来给大家写几个特征选择的具体例子:

变量重要性计算

首先我们要理解同一个机器学习问题,用不同的算法的时候,各个特征的重要性是不一样的,通常我们都会去用多个模型去解决我们的问题,具体例子,比如说一些在基于树的模型中表现很好的变量,在放在回归模型中有可能就没那么重要了。

所以变量重要性这种方法是属于Wrapper Methods的一种,同时其依赖于具体算法。

看实例:

我现在有这么一个数据集,特征全部是数值,标签是2分类因子:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(3)

首先我用rpart训练一个决策树模型,得到其变量重要性,代码如下:

rPartMod <- train(Class ~ ., data=trainData, method="rpart") rpartImp <- varImp(rPartMod)

输出结果如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(4)

同样的数据,我再考虑另外一个模型,比如说随机森林模型:

rrfMod <- train(Class ~ ., data=trainData, method="RRF") rrfImp <- varImp(rrfMod, scale=F)

得到结果如下

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(5)

可以看到2个算法给出的特征的重要性排序是不一样的。

lasso法筛选变量

lasso回归的基本思路是给回归方程加一个惩罚项,惩罚作用和系数大小成比例,这么一来将起到的作用就是部分的原来回归系数比较小的特征就给惩罚没了。从而达到了减少特征的作用。在lasso回归中有一个超参λ,越大惩罚越强,越小越弱:

实操:

我现在有特征矩阵如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(6)

总共有62个特征,然后我的结局是同样长度的一个2分类的向量,此时我要进行一个lasso回归筛选一下到底取哪些特征可以更好地预测我的结局,我可以写出如下代码:

cv.lasso <- cv.glmnet(x, y, family='binomial', alpha=1, parallel=TRUE, standardize=TRUE, type.measure='auc') plot(cv.lasso)

运行代码后可以出图如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(7)

图的横轴是lasso的超参取值(λ的对数),纵轴是模型的AUC,图中最上面的一排数值是对于的特征个数,可以看到当我们的特征是21个的时候模型的AUC其实是相对较高的,所以其实我们并不需要将所有的特征都纳入到模型中的。

递归式特征消除

递归特征消除Recursive feature elimination (RFE)递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征,其基本原理如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(8)

就是首先用所有的特征来拟合模型,然后对特征进行排序,去掉最垃圾的特征后再次拟合模型,并对模型进行排序,再去掉最垃圾的特征,这样循环下来,模型表现最好的时候对应的特征就是最后留下的特征。和倒推法筛选变量的思想有点类似的。

之前有给大家写过模型外部验证的重要性,思考这么一个问题,在使用rfe的时候决定特征的标准依然是模型的表现,我们知道模型表现是受样本影响的,所以整个的rfe过程依然需要在交叉验证中考虑:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(9)

就是我们得在交叉验证中去考虑模型表现,什么意思呢,就是将整个rfe过程封装在resampling中,这样最大限度避免模型表现的随机性。

实例操练

我现在有数据如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(10)

这个数据集有303个观测,14个变量,其中一个是我们要预测的标签。所以其实我们是有13个可用的特征的,我现在就用递归特征消除看看,多少个特征适合模型。

做rfe需要用到的函数为rfe,其需要的参数如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(11)

其中有两个参数比较重要,一个是需要参数的个数,另一个是选择参数的算法。

算法是在rfeControl参数中设置的,我们可以设置的参数算法体现在functions中

functions选择用什么样的模型进行自变量排序,可以选择的有rfFuncs(随机森林),lmFuncs(线性回归),nbFuncs(朴素贝叶斯,只能用于分类),treebagFuncs(装袋决策树),ldaFuncs(只能用于分类),lrFuncs,caretFuncs等等。

比如我现在使用随机森林作为变量筛选的模型,我就可以写出如下代码:

control <- rfeControl(functions = rfFuncs, # random forest method = "repeatedcv", # repeated cv repeats = 5, # number of repeats number = 10) # number of folds result_rfe1 <- rfe(x = x_train, y = y_train, sizes = c(1:13), rfeControl = control)

运行后得到结果:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(12)

可以看到我们分别尝试了使用1到13个这么多的变量进行建模,每个数量特征表现都有列出,当模型中特征数量为8的时候,整体的AUC最好,然后最重要的5个特征是哪5个结果中都有提示。具体的8个特征使用predictors()函数就可以调出来。

实例操练2

接下来给大家写逐步法筛选变量的操作,我现在有数据如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(13)

我要预测的变量是Fertility,其余全是我的备选特征,此时使用逐步法的代码如下:

train.control <- trainControl(method = "cv", number = 10) step.model <- train(Fertility ~., data = swiss, method = "leapBackward", tuneGrid = data.frame(nvmax = 1:5), trControl = train.control ) step.model$results

运行后得到结果如下:

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(14)

可以看到在模型中特征数量为4的时候模型的R方最大,rmse最小,所以4个特征的时候模型的表现最好,同时运行step.model$bestTune也可以得到最好的模型是4个特征的模型,运行下面的代码即可以得到具体的使得模型表现最好的特征:

summary(step.model$finalModel)

r语言机器学习模型怎么用(特征工程与特征选择的介绍)(15)

从图中可以看到,我们将Examination拿掉之后模型的表现是最好的。

上面介绍的方法都可以达到特征选择的目的,以上就是给大家介绍的特征选择的方法,大家自行选择使用。

小结

今天给大家写了机器学习中特征选择的几个方法和思想,对这些内容有个基本的掌握其实对传统的统计建模和机器学习应用都是大有裨益的。

感谢大家耐心看完,自己的文章都写的很细,重要代码都在原文中,希望大家都可以自己做一做,请转发本文到朋友圈后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先记得收藏,再点赞分享。

也欢迎大家的意见和建议,大家想了解什么统计方法都可以在文章下留言,说不定我看见了就会给你写教程哦,有疑问欢迎私信,有合作意向请直接滴滴我。

如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、模型构建,科研统计设计等发愁,如果你在使用SPSS, R,Mplus中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。

如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节,量表信效度等等统计技巧有任何问题,请私信我,获取详细和耐心的指导。

如果你或你的团队需要专业的科研数据清洗,建模服务,教学培训需求等等。请联系我。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #Reports, #Composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

If You or Your Research Team Need Professional Scientific Data Cleaning, Model Building Services or Statistical Consulting... Please Contact Me.

往期精彩

R数据分析:用R建立预测模型

R数据分析:ROC曲线与模型评价实例

R数据分析:用R语言做潜类别分析LCA

Mplus数据分析:性别差异gendergap的相关研究如何做?

R数据分析:二分类因变量的混合效应,多水平logistics模型介绍

R数据分析:Lasso回归筛选变量构建Cox模型并绘制列线图

R机器学习:分类算法之logistics回归分类器的原理和实现

R数据分析:变量间的非线性关系,多项式,样条回归和可加模型

R数据分析:PLS结构方程模型介绍,论文报告方法和实际操作

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

R数据分析:跟随top期刊手把手教你做一个临床预测模型

R数据分析:结合APA格式作图大法讲讲ggplot2和ggsci,请收藏

R数据分析:嵌套数据分析为什么要用加随机效应?终于解释清楚了

R数据分析:cox模型如何做预测,高分文章复现

R数据分析:结构方程模型画图以及模型比较,实例操练

R数据分析:临床预测模型中校准曲线和DCA曲线的意义与做法

R数据分析:双连续变量交互作用的简单斜率图作图及解释

R数据分析:潜增长模型LGM的做法和解释,及其与混合模型对比

R数据分析:纵向数据如何做中介,交叉滞后中介模型介绍

R数据分析:广义估计方程式GEE的做法和解释

R数据分析:生存分析与有竞争事件的生存分析的做法和解释

R可视化:plot函数基础操作,小白教程

R数据分析:鸢尾花数据集的聚类分析实操

R数据分析:再写潜在类别分析LCA的做法与解释

,