统计学的基本概念及举例（这些基本术语你分清了吗）

全文共1220字，预计学习时长4分钟

统计学的基本概念及举例（这些基本术语你分清了吗）(1)

图源：unsplash

统计方法学习之路是艰难而漫长的，万事开头难，你面临的第一关就是一些十分基础的术语的技术性解释，他们可能会有点儿难理解。本文旨在用通俗易懂的语言解释一些统计学基础术语，以揭开统计学的“难懂的”神秘面纱。

1. 因变量（反应变量）VS自变量（预测变量）

比如，我们会基于不同参数，如阅读等级、字句数量、阅读时间等，来判断一篇文章是否成功。那么，成功的概率是因变量或反应变量，而用于预测该事件的变量（标记为D）为自变量或预测变量。

2. 预测法VS 推理法

若仅关心最佳输出预测值而不考虑因变量和自变量间的关系，可使用预测法（通常是复杂的，并且像决策树一样难以解释）。但是，如果目的是理解反应变量与预测变量间的关系属性，便使用推理法（易于理解，如线性回归）。

3.参数法VS非参数方法

参数法为两步法。首先，假设自变量的属性和变化趋势，在此，我们假设自变量是线性的。

统计学的基本概念及举例（这些基本术语你分清了吗）(2)

图源：unsplash

成功概率= a b(阅读等级) c(句子词数) …….. n(阅读时间)

接着第二步，使用OLS（普通最小二乘法）等技巧预测系数(a至n)。这种基于模型的简化方法本质上是参数法。

然而，使用非参数方法时，无需明确假设自变量的函数形式。该方法相对于参数方法具有明显优势，通过避免任何对自变量的假设，非参数法有可能准确地拟合更大范围的自变量的变化趋势。

4. 监督学习法VS无监督学习法

我们讨论的问题是一篇文章的成功与一些预测变量之间的关系，从而帮助判定文章是否会成功。为了开发这个模型，需要访问适当的、拥有大量已发布文章的成功结果的训练数据，来训练能够预测未来文章成功与否的模型。这就是监督学习法。

然而，如果我们遇到一个问题，比如，确定特朗普是否会喜欢下个他会见的国家元首（他从未会过面）。面对这个问题，我们没有任何过去可用的数据，因此不能训练模型。

统计学的基本概念及举例（这些基本术语你分清了吗）(3)

图源：unsplash

在此，我们可以部署一个能自学的模型，并能随着每次新会议的召开逐渐变得智能。这类模型需要定期的输入，才能随着时间推移变为可靠预测指标。这就是无监督学习法。

5. 回归VS分类

最后，这点也很重要。变量可以表征为定量的或定性的（也称为分类的）。定量变量取为数值，例如每个句子中的单词数、阅读文章时间等。而分类变量则取为K个不同等级或类别之一的值，如表示标题中句首字母是否大写的“是”和“否”变量。

简单来说，我们将具有定量反应变量的问题称为回归问题，而通常将涉及分类反应变量的问题称为分类问题。

用文章能否10万的例子来理解这些基础术语，统计学似乎看起来也没那么可怕了，你还可以代入别的例子试试，理解会更深入一点。

统计学的基本概念及举例（这些基本术语你分清了吗）(4)

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范