关注“金科应用研院”,回复“ 头条”
领取风控资料合集
在风险管理中,对于所获得数据的深度挖掘至关重要。因为如果只是从数据的面相上得出结论,往往容易被数据欺骗从而做出错误的决策。
在众多的描述性统计指标之外,为了更好的摸清数据与数据之间的真实关系,也经常会用到一些方法来进行监测,卡方检验就是常用的一种方法。就和少数新冠无症状患者一样,单凭症状评估还不够准确,需要核酸检测才能将人群中的潜在危险给排查出来。卡方检验就是常用的一种方法。
什么是卡方检验?
卡方检验的英文是Chi-Square Test,主要可以用来检验两个变量之间有没有关系。比如我们信贷风险管理场景中某一个特征X在不同取值的情况下,在结果Y的表现上是否有区别。如果有显著区别,我们可以考虑把这些变量放到模型或者策略中去。
卡方检验的核心逻辑
卡方检验的核心逻辑就是通过样本频数与理论频数之间的差异大小来判断两个变量之间有没有关系。举个简单的小例子帮大家理解“样本频数与理论频数之间的差异”这个概念。
比如我们统计2021年全年全国的男孩与女孩出生人数为1000万/1300万,接下来我们把这个数据分得更细一些,我们按照省份把这个数据再做进一步的细分统计,就能得到2021年每个省份男孩与女孩出生人数,这个数据就是样本频数,如下表:
有了样本频数,接下来就需要计算理论频数了。既然是理论频数,就一定有一个理论的基石,也就是假设,这里的假设我们先设定为地域与男孩/女孩出生比率无关。
在这个假设下,我们就能计算理论频数了,我们以计算广东省新出生男孩的理论频数为例:
1)全国男孩比=1000/2300
2)广东新生儿比=113/2300
3)因为假设地域与男孩/女孩出生比率无关,所以广东省新出生男孩数=总新生儿数*全国男孩比*广东新生儿比=49.13
从上述计算过程可以很清晰的看出理论频数其实就是按照假设计算出来的某一个格子内的理论值。如果我们的假设成立,那么这个理论值与样本值理应相差不大。所以我们就能通过样本频数与理论频数之间的差异大小来判断两个变量之间有没有关系,也就是假设是否成立。
案例计算
我们在信贷风险管理分析场景中,经常会遇到需要判断两个变量之间是否存在关系,这里就可以使用卡方检验来进行检测。我们以放款季度与是否逾期两个变量为例:
我们先假设:是否逾期与放款季度无关
然后按照我们计算理论频数的步骤计算每个格子的理论频数,然后计算卡方统计量,公式与计算过程如下:
(注:Aij代表样本频数,Tij代表理论频数)
得出卡方统计量X2(Pearson)=8.68后,我们可查表得出对应的比较值为7.815。
因为X2(Pearson)>7.815,所以拒绝原假设,故是否逾期与放款季度有关,也就是逾期指标的变化有季节性。
END
FAL经过大量行业调查和精心的设计后,为大家推出了一门“真”项目课程「金融数据分析师训练营」,项目案例真正贴合企业用工需求、且体系达到企业级、完全符合商用级上线应用标准,边做项目边学习,通过项目课程达到“一举多得”的学习效果。
,