> Photo by Thought Catalog on Unsplash
暂时忘记深度学习和神经网络。
随着越来越多的人开始进入数据科学领域,我认为重要的是不要忘记这一切的基础。
统计。
如果您不熟悉分析领域,那就可以了! 我们都是从某个地方开始的!
但是,重要的是要意识到我将在本文中分享的机器学习模型假设的存在。
很幸运,我在大学时代就已经研究了所有这些概念,所以我认为回到基础知识并撰写一些有关它们的知识会很令人振奋。
关怀就是共享。
让我们开始!
线性回归又称普通最小二乘(OLS)回归OLS回归试图解释您的自变量(预测变量)和因变量(目标)之间是否存在关系。
它通过最小化残差平方和来使数据拟合一条线。
残差是观测值与预测值之差。 残差用于指示模型与数据的拟合程度。
但是,为了能够信任结果并对结果充满信心,在建模之前必须满足一些假设。
满足所有这些假设将使您能够为模型创建最佳估计。
OLS回归模型有5个关键假设。
假设1:自变量和因变量之间存在线性关系。当我第一次在统计课上听说这个假设时,我就措手不及。
我记得当我复习考试成绩后,这种感觉已经被欺骗和欺骗了,以至于它铭刻在我的记忆中。
值得深思。
这些方程中的哪一个满足此假设?
Y =β1 β1 X 1 β2 X 2
Y =β₀ β₁X₁ β2 X 22
事实证明两者都是线性的。
通常认为线性方程式有误解。
线性方程=直线非线性方程=曲线这是错误的。
当统计学家说方程是线性的时,他们指的是参数中的线性,并且方程采用某种格式。
格式如下:
Y =常数 参数1 变量1 参数2 变量2…
注意:
· 必须有一个常数
· 其他术语遵循"参数*变量"的模式,所有内容加在一起。
变量是否为非线性(即平方)并不重要,只要方程遵循此指定格式,它就是线性方程。 任何其他不遵循此格式的方程式都是非线性的。
这也意味着一些线性方程线在拟合时是弯曲的。
因此,从技术上讲……仅使用散点图并不能真正告诉您所看到的拟合曲线是否为线性。 您可能需要查看曲线方程。
假设2:没有多重共线性多重共线性是指自变量之间的高度相关性。
多重共线性是一个问题,因为它会创建多余的信息,从而导致回归模型的结果不可靠。
为了避免此问题,您可以部署两种技术:
· 对所有自变量进行关联分析。
· 删除具有高方差膨胀因子(VIF)*的自变量。 一般而言,VIF> 10是多重共线性的有力指示。
· VIF = 1÷(1-R²)
假设3:无自相关自相关是指残差彼此不独立。 即以前的观测残差会导致您当前观测到的残差有系统地增加/减少。
结果,它会使您低估方差,这会影响置信区间或假设检验的结果。
要检查自相关,可以部署Durbin-Watson'D'测试。 1.5 <d <2.5之间的任何值都满足此假设。
否则,为了补救自相关,在计算标准误差以校正自相关时,应应用"自相关-稳健的标准误差(HAC)"公式。
注意:您可能会遇到" HAC"作为" Newey–West估计量"。
假设4:残留物应为同方的同方性是指您的残差图应在所有观测值中显示均匀且随机的模式。
换句话说,残差的方差在所有观察结果中都应保持一致,并且不应遵循某种形式的系统模式。
在下图中,第一幅图显示了残差图中的系统模式。 这也称为异方差; 使假设无效。
它下面的图显示了同方差残差图的样子。
> Example of Homoskedasticity, 29 Jul 2010, by Protonk (CC3.0) (Source)
那么异方差到底有什么问题呢?
· 您的无偏估计将不再是最好的。
· 它会影响标准误差的计算,而这会无意中影响任何假设检验的结果。
要解决第一个异方差问题,一个好方法是增加样本量。
对于第二个问题,您应该应用"稳健标准误差"公式来考虑异方差对误差的影响。
注意:"鲁棒标准误差"也称为"异方差一致性标准误差"(HC)。 编程时,您可能会遇到" HC"字样。
假设5:所有自变量都是正态分布的就产生最佳无偏估计而言,此假设是可选的。
但是,如果要执行假设检验以产生置信区间或预测区间,则需要此方法。
注意:您可以在此处查看两者之间的区别。
有两种检查正常性的方法:
· 为每个自变量创建直方图。
> Example of Histograms, 16 Mar 2009 by Gbdivers (CC2.0) (Source)
2.在残差上运行Q-Q图。 如果残差正常,则所有观察值均应沿一条直线。
> Example of QQ-Plot, 19 Oct 2009 by Skbkekas (CC3.0) (Source)
如果您需要满足此假设,但变量不是正态分布的,则可以转换变量。
逻辑回归逻辑回归假设与OLS回归的不同之处在于:
· 自变量和因变量之间不需要线性关系。
· 不需要残差是正常的。
· 无需满足同方差假设
那么逻辑回归需要满足哪些假设?
这是逻辑回归的5个关键假设。
假设1:适当的因变量结构该假设仅说明二进制逻辑回归要求您的因变量是二分法,而有序逻辑回归要求它是有序的。
此外,因变量既不应该是区间标度,也不应该是比率标度。
假设2:结果的对数与每个自变量之间存在线性关系。logit函数由以下方式提供:
logit(p)= log(p /(1-p)),其中p是结果的概率
要检查此假设,可以通过在散点图上绘制每个自变量和logit值来直观地做到这一点。
> Checking linearity assumption for logistic regression
在上图中,Y轴是自变量,而X轴显示对数值。 然后查看曲线的方程式,看它是否符合线性假设。
请记住,线性在参数中。 只要方程满足上述线性方程形式,就可以满足线性假设。
注意:我对x轴标签弄错了,应该是" Logit"而不是" Logit Probability"
假设3:没有多重共线性与OLS回归的假设一样,这里也可以这样说。
(有关详细信息,请参阅有关OLS回归的部分。)
假设4:无影响异常值有影响的离群值是影响逻辑回归模型质量的极端数据点。
并非所有异常值都有影响力。
在删除或转换它们以进行分析之前,您需要检查哪些点是有影响力的。
要检查异常值,可以对数据值运行"库克距离"。 较高的库克距离值表示存在异常值。
找出有影响力的异常值的经验法则是当Cook的距离> 1时。
假设5:观察独立该假设要求逻辑回归观察值彼此独立。
也就是说,观察结果不应来自重复的测量设计。
重复测量设计是指在不同的实验条件下或跨时间对同一个人进行的同一变量的多个测量。
重复测量的一个很好的例子是纵向研究-跟踪学科多年的进展。
支持向量机(SVM)没有模型假设可以验证SVM。
基于树的模型对于基于树的模型,例如决策树,随机森林和梯度增强,没有模型假设可以验证。
与OLS回归或逻辑回归不同,基于树的模型对异常值具有鲁棒性,不需要因变量满足任何正态性假设。
为什么基于树的模型对异常值具有鲁棒性?
单击此处获取Quora的详细说明。
尾注好吧,就是这样!
我认为这里的关键是要计划使用回归或任何广义线性模型(GLM),在构建模型之前必须验证模型假设。
对于SVM或基于树的模型,没有任何模型假设可以验证。
希望这篇文章对您有所帮助!
下篇再见!
参考文献· https://www.lexjansen.com/wuss/2018/130_Final_Paper_PDF.pdf
· https://www.statisticssolutions.com/assumptions-of-logistic-regression/
· http://www.sthda.com/english/articles/36-classification-methods-essentials/148-logistic-regression-assumptions-and-diagnostics-in-r/#logistic-regression-assumptions
· http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/R/R5_Correlation-Regression/R5_Correlation-Regression4.html
· https://www.statisticssolutions.com/assumptions-of-linear-regression/
· https://www.quora.com/Why-are-tree-based-models-robust-to-outliers
(本文翻译自Timothy Tan的文章《Back to Basics: Assumptions of Common Machine Learning Models》,参考:https://towardsdatascience.com/back-to-basics-assumptions-of-common-machine-learning-models-e43c02325535)
,