针对样本数据的描述性探索分析,是我们模型开发任务的一个必要步骤,其中特征变量之间的相关性量化评估,往往是数据分析处理的重要内容,只有对样本特征数据相关程度的整体把握,才能为特征性能评价与特征字段筛选提供合理的参考依据,也为特征工程的实施提供更有效的保障。但是,在实际业务场景中,我们很多情况下对样本数据的特征相关性进行分析时,只是通过最常用的pearson系数来分析数值型自变量的相关性能,这里暂且不考虑pearson系数针对数值型变量所应当具备的分布类型,仅对数值型自变量的相关性能评估,在数据分析任务中并没有全面考虑不同特征的分布类型、取值维度、变量属性等情况。因此,围绕样本数据不同特征类型场景下的变量相关性解析,是我们从事数据分析工作应当具备的思维之一,也是数据测试评估、建模样本处理等任务的必备内容。

结合以上实际场景描述,本文根据不同特征类型的情形,从多个维度来全面分析下特征变量之间的相关性程度,详细区分特征的取值类型(连续型和离散型)、字段属性(自变量与因变量)、类别数量(二分类与多分类)等常见组合,同时采用相关图表可视化形式展示相关结果,具体分析维度及其方法如下:

(1)连续自变量与连续自(因)变量——相关系数

(2)连续自变量与二分类因变量——z检验

(3)二分类自变量与连续因变量——t检验

(4)多分类自变量与连续因变量——方差分析

(5)分类自变量与分类自(因)变量——卡方检验

接下来我们围绕以上分析维度,来探索下不同场景特征相关性的实现过程,为了更好的理解各种情形的原理逻辑与处理方式,现结合实际样本数据通过python实操来展开详细分析。实例数据包含10000条样本与8个特征,具体样例如图1所示,其中ID为样本主键,X1~X5为特征变量,Y1、Y2为目标变量,为了区分不同特征类型的组合情况,各字段的取值类型与业务属性如图2所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(1)

编辑

添加图片注释,不超过 140 字(可选)

图1 样本数据

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(2)

编辑

添加图片注释,不超过 140 字(可选)

图2 特征类型

1、连续自变量与连续自(因)变量

在样本数据中,连续自变量为X3、X4、X5,连续因变量为Y2,对其相关性分析最常用的方法是pearson系数,在python环境中可以通过corr(method='pearson')函数来实现。pearson相关系数的取值范围为[-1,1],绝对值越大说明相关性越强,正值代表正相关,负值代表负相关。在实际业务场景中,通常以阈值0.5~0.7来判断特征变量间相关性程度的强弱,也是特征相关性筛选的参考标准。以上连续自变量之间的pearson相关系数结果具体如图3所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(3)

编辑

添加图片注释,不超过 140 字(可选)

图3 特征相关系数

由以上结果可知,连续变量X3、X4、X5、Y2之间的相关系数均表现较低,最大值也仅有0.277892,说明各字段的相关性较弱。这里需要注意的是,针对特征自变量X3、X4、X5来讲,变量的相关性较弱可以有效降低模型的共线性问题,这也是我们期望的指标结果,而对于自变量X3、X4、X5与因变量Y2之间的相关程度很弱,并非实际建模所需的,原因是自变量与因变量的相关性较差,在很大程度上说明自变量对因变量的信息关联度一般。

2、连续自变量与二分类因变量

针对连续自变量X3、X4、X5,以及二分类因变量为Y1,常采用z检验来分析特征组合的相关性。我们先通过箱线图来预览下各自变量与因变量的分布关系,然后再对各字段间的z检验结果进行输出,具体实现过程如图4所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(4)

编辑

添加图片注释,不超过 140 字(可选)

图4 特征z检验实现

通过以上过程得到各自变量X3、X4、X5与因变量Y1的箱线图结果如图5所示,可见在因变量Y1二分类取值情况下,各自变量的中位数分布有较明显的差异,但具体量化评估特征分布的差异性,需要进一步通过各变量组合的t检验结果来说明,具体结果如图6所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(5)

编辑

添加图片注释,不超过 140 字(可选)

图5 特征箱线图分布

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(6)

编辑

添加图片注释,不超过 140 字(可选)

图6 特征z检验结果

从上图可知,变量X3、X4、X5与Y1的z检验结果p值分别为1.62797843e-09、9.4355311e-20、7.77242436e-31,在默认置信度为0.05的情况下,各变量组合p值均远小于0.05,拒绝原假设,通过显著性检验,也就是自变量X3、X4、X5与因变量Y1都有较强的相关性。

3、二分类自变量与连续因变量

样本数据中的二分类自变量为X1,连续因变量为Y2,这种特征组合场景常采用t检验的方式来评估其相关性。我们仍然采用箱线图形式来展示自变量X1与因变量Y2的分布情况,然后再对特征组合进行t检验分析,具体实现过程如图7所示,箱线图与t检验结果分别如图8、图9所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(7)

编辑

添加图片注释,不超过 140 字(可选)

图7 特征t检验实现

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(8)

编辑

添加图片注释,不超过 140 字(可选)

图8 特征箱线图分布

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(9)

编辑

添加图片注释,不超过 140 字(可选)

图9 特征t检验结果

从以上结果可知,二分类自变量X1与连续因变量Y2的箱线图分布较明显的体现出二者的差异性,而通过t检验结果对应的p值为8.6005009e-08,远小于置信度0.05,拒绝原假设,通过显著性检验,说明二分类自变量X1与连续因变量Y2之间具有较强的相关性。

4、多分类自变量与连续因变量

对于多分类自变量X2与连续因变量Y2的特征组合情形,通常采用方差分析来评估变量之间的相关性,首先来展示下变量X2与Y2的箱线图分布情况,具体可视化结果如图10所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(10)

编辑

添加图片注释,不超过 140 字(可选)

图10 特征箱线图分布

从上图结果初步可知,多分类自变量X2与连续因变量Y2具有显著的差异性,为了进一步通过量化指标来验证结论,下面采用方差分析的方式来评估。对于方差分析,在实践中有两种思路可以完成,一种是单因素方差分析的f检验,另一种是构建线性回归模型对其方差分析,这里我们采用单因素方差分析f检验的方式来完成分析,具体实现过程如图11所示,输出结果如图12所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(11)

编辑

添加图片注释,不超过 140 字(可选)

图11 特征方差分析实现

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(12)

编辑

添加图片注释,不超过 140 字(可选)

图12 特征方差分析结果

通过单因素方差分析f检验结果可知,p值(3.296516212089719e-15)远小于置信度0.05,拒绝原假设,通过显著性检验,说明多分类自变量X2与连续因变量Y2之间具有较强的相关性。

5、分类自变量与分类自(因)变量

针对样本数据中分类自变量X1、X2,以及分类因变量Y1,这种特征组合情形的相关性分析通常采用卡方检验的方式来实现,这里我们选取X1、X2变量组合来进行介绍。为了更形象体现出变量之间的分布关系,我们采用堆叠图的形式展现变量X1与X2的数据分布,具体可视化结果如图13所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(13)

编辑

添加图片注释,不超过 140 字(可选)

图13 特征堆叠图分布

由上图结果可以直观的了解到分类变量X1与X2的分布形态以及取值概率情况,若需要量化分析变量之间的相关性,需要通过卡方检验方式来评估,具体实现过程如图14所示,输出结果如图15所示。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(14)

编辑

添加图片注释,不超过 140 字(可选)

图14 特征卡方检验实现

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(15)

编辑

添加图片注释,不超过 140 字(可选)

图15 特征卡方检验结果

通过以上结果可知,变量X1与X2的卡方检验p值(6.016053087941892e-78)远小于置信度0.05,拒绝原假设,通过显著性检验,说明分类变量X1与分类变量X2之间具有较强的相关性。

综合以上内容,我们围绕实际场景的多维度特征类型情形,全面分析了不同特征变量之间相关性分析的解决方法,详细介绍了特征在取值类型(连续型和离散型)、字段属性(自变量与因变量)、类别数量(二分类与多分类)等组合下的相关性评价方式,具体包括连续自变量与连续自(因)变量、连续自变量与二分类因变量、二分类自变量与连续因变量、多分类自变量与连续因变量、分类自变量与分类自(因)变量的细分场景,对应的分析方法包括相关系数、z检验、t检验、方差分析、卡方检验等。这些有针对性的解决方法,可以有效解决实际业务场景特征相关性评估任务,为数据建模的变量筛选提供更合理的分析依据,这正是我们日常开展数据分析工作所需的重要思维与方法。

为了便于大家全方位掌握不同场景下的特征相关性分析方法与实现过程,本文额外附带了与以上内容同步的样本数据与python代码,供大家参考学习,详情请移至知识星球查看相关内容。

五招教你拥有数据分析思维(领略数据分析师一大重要必会处理技能)(16)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

...

~原创文章

,