全文共1220字,预计学习时长4分钟

统计学的基本概念及举例(这些基本术语你分清了吗)(1)

图源:unsplash

统计方法学习之路是艰难而漫长的,万事开头难,你面临的第一关就是一些十分基础的术语的技术性解释,他们可能会有点儿难理解。本文旨在用通俗易懂的语言解释一些统计学基础术语,以揭开统计学的“难懂的”神秘面纱。

1. 因变量(反应变量)VS自变量(预测变量)

比如,我们会基于不同参数,如阅读等级、字句数量、阅读时间等,来判断一篇文章是否成功。那么,成功的概率是因变量或反应变量,而用于预测该事件的变量(标记为D)为自变量或预测变量。

2. 预测法VS 推理法

若仅关心最佳输出预测值而不考虑因变量和自变量间的关系,可使用预测法(通常是复杂的,并且像决策树一样难以解释)。但是,如果目的是理解反应变量与预测变量间的关系属性,便使用推理法(易于理解,如线性回归)。

3.参数法VS非参数方法

参数法为两步法。首先,假设自变量的属性和变化趋势,在此,我们假设自变量是线性的。

统计学的基本概念及举例(这些基本术语你分清了吗)(2)

图源:unsplash

成功概率= a b(阅读等级) c(句子词数) …….. n(阅读时间)

接着第二步,使用OLS(普通最小二乘法)等技巧预测系数(a至n)。这种基于模型的简化方法本质上是参数法。

然而,使用非参数方法时,无需明确假设自变量的函数形式。该方法相对于参数方法具有明显优势,通过避免任何对自变量的假设,非参数法有可能准确地拟合更大范围的自变量的变化趋势。

4. 监督学习法VS无监督学习法

我们讨论的问题是一篇文章的成功与一些预测变量之间的关系,从而帮助判定文章是否会成功。为了开发这个模型,需要访问适当的、拥有大量已发布文章的成功结果的训练数据,来训练能够预测未来文章成功与否的模型。这就是监督学习法。

然而,如果我们遇到一个问题,比如,确定特朗普是否会喜欢下个他会见的国家元首(他从未会过面)。面对这个问题,我们没有任何过去可用的数据,因此不能训练模型。

统计学的基本概念及举例(这些基本术语你分清了吗)(3)

图源:unsplash

在此,我们可以部署一个能自学的模型,并能随着每次新会议的召开逐渐变得智能。这类模型需要定期的输入,才能随着时间推移变为可靠预测指标。这就是无监督学习法。

5. 回归VS分类

最后,这点也很重要。变量可以表征为定量的或定性的(也称为分类的)。定量变量取为数值,例如每个句子中的单词数、阅读文章时间等。而分类变量则取为K个不同等级或类别之一的值,如表示标题中句首字母是否大写的“是”和“否”变量。

简单来说,我们将具有定量反应变量的问题称为回归问题,而通常将涉及分类反应变量的问题称为分类问题。

用文章能否10万 的例子来理解这些基础术语,统计学似乎看起来也没那么可怕了,你还可以代入别的例子试试,理解会更深入一点。

统计学的基本概念及举例(这些基本术语你分清了吗)(4)

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

,