数据分析问题及解题方法（数据科学家45题自测）

介绍

回归分析远远不止线性或逻辑回归，它包含了许多针对多个变量建模和分析的技巧。该测试旨在考察关于回归技巧的理论和实践知识。

1845人参加了这次测试，我确信他们都认为这是他们参与过的最好的回归技巧评估测试。

如果你错过了这次技巧测试，那也无妨，我们给出了所有问题和详细解答，来试一试吧。

总体成绩

下图为分数分布图，可以帮助自我评价。

数据分析问题及解题方法（数据科学家45题自测）(1)

你可以在这里评价自己的表现。大约530人参与了技巧测试，最高分为38，平均分为23.15，中位数得分和模式得分都是23。

有用的材料

如果你想完善自己的知识，这里有一些回归知识可供参考：

Going Deeper into Regression Analysis with Assumptions, Plots & Solutions

5 Questions which can teach you Multiple Regression (with R and Python)

7 Types of Regression Techniques you should know

A. 10/27

B. 20/27

C. 50/27

D. 49/27

答案：D

我们需要计算每个交叉验证点的残差，拟合后得到两点连线和一点用于交叉验证。

数据分析问题及解题方法（数据科学家45题自测）(2)

留一法交叉验证均方差为(2^2 (2/3)^2 1^2) /3 = 49/27

Q3.下列哪一项关于极大似然估计（MLE）的说法是正确的？

1.MLE并不总是存在

2.MLE一直存在

3.如果MLE存在，它可能不特异

4.如果MLE存在，它一定是特异的

A. 1 and 4

B. 2 and 3

C. 1 and 3

D. 2 and 4

答案：C

MLE可能不是一个转折点，即它可能不是一个似然函数的一阶导数消失的点

数据分析问题及解题方法（数据科学家45题自测）(3)

MLE可能并不特异

数据分析问题及解题方法（数据科学家45题自测）(4)

Q4.假设线性回归模型完美拟合训练数据（即训练误差为零），则下列哪项是正确的？

A.测试误差一定为零

B.测试误差一定不为零

C.以上都不对

答案：C

如果测试数据无干扰，则测试误差可能为零。换言之，如果测试数据是训练数据的典型代表，测试误差即为零，但这种情况并不总是出现。

Q5.在线性回归问题中，我们用“R方”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。下列哪一项是正确的？

A.如果R方上升，则该变量是显著的

B.如果R方下降，则该变量不显著

C.单单R方不能反映变量重要性，不能就此得出正确结论

D.都不正确

答案：C

单单R方不能表示变量显著性，因为每次加入一个特征值，R方都会上升或维持不变。但在“调整R方”的情况下这也有误（如果特征值显著的话，调整R方会上升）。

Q6.下列关于回归分析中的残差表述正确的是

A.残差的平均值总为零

B.残差的平均值总小于零

C.残差的平均值总大于零

D.残差没有此类规律

答案：A

回归的残差之和一定为零，故而平均值也为零

Q7.下列关于异方差性哪项是正确的？

A.线性回归有变化的误差项

B.线性回归有恒定的误差项

C.线性回归有零误差项

D.以上都不对

答案：A

在误差项中，非恒定方差的存在导致了异方差性。一般来说，非恒定方差的出现时因为异常值或极端杠杆值的存在。可以参考这篇文章。

Q8.下列哪一项说明了X，Y之间的较强关系

A.相关系数为0.9

B.Beta系数为0的空假设的p-value是0.0001

C.Beta系数为0的空假设的t统计量是30

D.都不对

答案：A

变量间的相关系数为0说明了变量间的较强关系；另一方面，p-value和t统计量仅仅衡量了非零联系的证据有多强。在数据足够多的情况下，哪怕弱影响都可能是显著的。

Q9.在导出线性回归的参数时，我们做出下列哪种假定？

1.因变量y和自变量x的真实关系是线性的

2.模型误差是统计独立的

3.误差通常服从一个平均值为零，标准差恒定的分布

4.自变量x是非随机的，无错的

A. 1,2 and 3

B. 1,3 and 4

C. 1 and 3

D. 以上都对

答案：D

当导出回归参数时，我们做出以上全部4种假设，缺少任何一种，模型都会出错。

Q10.为了检验连续变量x，y之间的线性关系，下列哪种图最合适？

A.散点图

B.条形图

C.直方图

D.都不对

答案：A

为了检验连续变量的线性关系，散点图是最好的选择，可以看出一个变量如何关于另一个变量变化。散点图反映两个定量变量之间的关系。

Q11.下列哪种方法被用于预测因变量？

1.线性回归

2.逻辑回归

A.1和2

B.1

C.2

D.都不是

答案：B

逻辑回归是用于分类问题的

Q12.一个人年龄和健康之间的相关系数是-1.09，据此可以得出：

A.年龄是健康预测的好的参考量

B.年龄是健康预测的不好的参考量

C.都不对

答案：C

相关系数的范围是[-1,1]，-1.09 是不可能的。

Q13.下列哪个坐标用于最小二乘拟合？假设水平轴为自变量，垂直轴为因变量。

数据分析问题及解题方法（数据科学家45题自测）(5)

A.垂直坐标

B.正交坐标

C.都可以，视情况而定

D.都不对

答案：A

一般将残差想作垂直坐标，正交坐标在PCA的例子中很有用

Q14.假设我们有由三次多项式回归产生的数据（三次多项式完美契合数据），下列说法哪些是对的？

1.简单线性回归有高偏差和低方差

2.简单线性回归有低偏差和高方差

3.三次多项式有低偏差和高方差

4.三次多项式有低偏差和低方差

A.1

B.1和3

C.1和4

D.2和4

答案：C

如果选择比3更高的次数来拟合，则会过拟合，因为模型会变得更复杂。如果选择比3低的次数，模型会变得简单，这样会有高偏差和低方差。但是在三次多项式拟合的情况下，偏差和方差都是低的。

Q15.假设你在训练一个线性回归模型，以下哪项是正确的？

1.数据越少越易过拟合

2.假设区间小则易过拟合

A.都是错的

B.1是错的，2是对的

C.1是对的，2是错的

D.都是对的

答案：C

1.小训练数据集更容易找到过拟合训练数据的假设

2.从偏差和方差的权衡中可以看出，假设区间小，偏差更大，方差更小。所以在小假设区间的情况下，不太可能找到欠拟合数据的假设

Q16.假设我们用Lasso回归拟合一个有100个特征值(X1,X2…X100)的数据集，现在，我们重新调节其中一个值，将它乘10（将它视作X1），并再次拟合同一规则化参数。下列哪一项正确？

A. X1很可能被模型排除

B. X1很可能被包含在模型内

C.很难说

D.都不对

答案：B

大特征值=⇒小相关系数=⇒更少lasso penalty =⇒更可能被保留

Q17.关于Ridge和Lasso回归在特征值选择上的方法，一下哪项正确？

A. Ridge回归使用特征值的子集选择

B. Lasso回归使用特征值的子集选择

C.二者都使用特征值的子集选择

D.以上都不正确

答案：B

Ridge回归在最终模型中用到了所有自变量，然而Lasso回归可被用于特征值选择，因为相关系数可以为零。点击此处阅读更多细节。

Q18.在线性回归模型中增加一个变量，下列哪一项是正确的？

1.R方和调整R方都上升

2.R方上升，调整R方下降

3.R方和调整R方都下降

4.R方下降，调整R方上升

A.1和2

B.1和3

C.2和4

D.以上都不对

答案：A

每次加入特征值，R方总是上升或维持不变。但调整R方并非如此，当它上升时，特征值是显著的。

Q19.下图显示了对相同训练数据的三种不同拟合模型（蓝线标出），从中可以得出什么结论？

数据分析问题及解题方法（数据科学家45题自测）(6)

1.同第二第三个模型相比，第一个模型的训练误差更大

2.该回归问题的最佳模型是第三个，因为它有最小的训练误差

3.第二个模型比第一、第三个鲁棒性更好，因为它在处理不可见数据方面表现更好

4.相比第一、第二个模型，第三个模型过拟合了数据

5.因为我们尚未看到测试数据，所以所有模型表现一致

A.1和3

B.1和2

C.1,3和4

D.只有5

答案：C

数据的趋势看起来像以X 为自变量的二项式。更高的次数（最右边的图）的多项式对于训练数据可能具有更高的准确性，但在测试集上毫无疑问的惨败。在最左面一张图中，由于数据欠拟合，将会得到最大训练误差。

Q20.下列哪项可以评价回归模型？

1.R方

2.调整R方

3.F统计量

4.RMSE/MSE/MAE

A.2和4

B.1和2

C.2,3和4

D.以上所有

答案：D

以上这些都是评价回归模型的指标

Q21.我们可以通过一种叫“正规方程”的分析方法来计算线性回归的相关系数，下列关于“正规方程”哪一项是正确的？

1.我们不必选择学习比率

2.当特征值数量很大时会很慢

3.不需要迭代

A.1和2

B.1和3

C.2和3

D.1,2和3

答案：D

正规方程可替代梯度下降来计算相关系数，参考这篇文章获得更多关于正规方程的知识。

Q22.Y的预期值是关于变量X(X1,X2….Xn)的线性函数，回归线定义为Y = β0 β1 X1 β2 X2…… βn Xn，下列陈述哪项正确？

1.如果Xi的变化量为 ∆Xi，其它为常量，则Y的变化量为βi ∆Xi，常量βi可以为正数或负数

2. βi 的值都是一样的，除非是其它X的βi

3.X对Y预期值的总影响为每个分影响之和

提示：特征值间相互独立，互不干扰

A.1和2

B.1和3

C.2和3

D.1,2和3

答案：D

1.Y的预期值是关于X的线性函数，这表示：

1. 如果Xi的变化量为 ∆Xi，其它变量不变，Y的预期值随β i ∆X i而变化，β i可以为正数或负数

2.βi 的值都是一样的，除非是其它X的βi

3.X对Y预期值的总影响为每个分影响之和

2.Y的未知变化独立于随机变量（特别之处，当随机变量为时间序列时，Y与随机变量不是自动关联的）

3.它们的方差一致（同方差性）

4.它们一般是分散的

Q23.为了评价一个简单线性回归模型（单自变量），需要多少个参数？

A.1

B.2

C.不确定

答案：B

在简单线性回归模型中，有一个自变量，需要两个参数（Y=a bX）

Q24.下图展示了两条对随机生成的数据的回归拟合线（A和B），请探究A，B的各自的残差之和

提示：

1.两张图的横纵轴大小一致

2.X轴是自变量，Y 轴是因变量

数据分析问题及解题方法（数据科学家45题自测）(7)

下列对A，B各自残差和的陈述哪项正确？

A.A比B高

B.A比B低

C.两者相同

D.以上都不对

答案：C

残差之和总为零

Q25.若两个变量相关，它们之间一定有线性关系吗？

A.是

B.否

答案：B

不是必要条件，二者可以没有线性关系

Q26.相关变量的相关系数可以为零，对吗？

A.是

B.否

答案：A

Q27.假设对数据提供一个逻辑回归模型，得到训练精度X和测试精度Y。在数据中加入新的特征值，则下列哪一项是正确的？

提示：其余参数是一样的

1.训练精度总是下降

2.训练精度总是上升或不变

3.测试精度总是下降

4.测试精度总是上升或不变

A.只有2

B.只有1

C.只有3

D.只有4

答案：A

向模型中加入更多特征值会提高训练精度，低偏差；如果特征值是显著的，测试精度会上升

Q28.下图显示了由X预测Y的回归线，图上的值展示了每个预期的离差，请据此计算SSE（残差平方和）

数据分析问题及解题方法（数据科学家45题自测）(8)

A. 3.02

B. 0.75

C. 1.01

D. 以上都不对

答案：A

SSE是预估误差的平方之和，所以SSE = (-.2)^2 (.4)^2 (-.8)^2 (1.3)^2 (-.7)^2 = 3.02

Q29.众所周知，身高体重呈正相关。忽略图表大小（变量被标准化了）下列两张图哪张更像描绘身高（X轴）体重（Y轴）的图表？

数据分析问题及解题方法（数据科学家45题自测）(9)

A.图2

B.图1

C.两张都是

D.无法确定

答案：A

图2很明显更好的展现了身高体重之间的联系，个体身高更高，体积就越大，体重就相应越大，所以预期身高体重是正相关的。右图是正相关而左图是负相关。

Q30.假设X公司的员工收入分布中位数为$35,000，25%和75%比例处的数值为$21,000 和$53,000。收入$1会被认为是异常值吗？

A.是

B.否

C.需要更多信息

D.以上都不对

答案：C

Q31.关于回归和相关，下列哪项是正确的？

提示：y是因变量，x是自变量

A.在两者中，x、y关系都是对称的

B.在两者中，x、y关系都是不对称的

C.x、y在相关情况下不对称，在回归中对称

D.x、y在相关情况下对称，在回归中不对称

答案：D

1.相关是衡量两个变量线性联系的统计度量，对待x、y是对称的

2.回归是用于根据x预测y，其关系不对称

Q32.可以根据平均值和中位数计算斜率吗？

A.可以

B.不可以

答案：B

斜率不是直接和平均值中位数相关的

Q33.假设你有n个有两个连续变量的数据集（y是因变量，x是自变量）下表给出了这些数据集的信息总结：

数据分析问题及解题方法（数据科学家45题自测）(10)

这些数据集都是一致的吗？

A.是

B.不是

C.无法确定

答案：C

为了回答这个问题，你需要了解Anscombe的四幅图，请参考这篇文章。

Q34.观测值是如何影响过拟合的？

提示：余下所有参数都一致

1.观测更少更易过拟合

2.观测更少更不易过拟合

3.观测更多更易过拟合

4.观测更多更不易过拟合

A.1和4

B.2和3

C.1和3

D.都不正确

答案：A

特别地，当观测值太少，规模太小，模型很容易过拟合。因为我们只有很少的点，当提升模型复杂度（比如多项式拟合）时，就会很容易覆盖所有观测值点。

另一方面，如果有很多很多观测值，哪怕模型很复杂，也很难过拟合。

Q35.假设用一个复杂回归模型拟合一个数据集，使用带固定参数lambda的Ridge回归来减小它的复杂度，下列哪项描述了偏差和方差与lambda的关系？

A.对于非常大的lambda，偏差很小，方差很小

B.对于非常大的lambda，偏差很小，方差很大

C.对于非常大的lambda，偏差很大，方差很小

D.对于非常大的lambda，偏差很大，方差很大

答案：C

Lambda很大表示模型没有那么复杂，这种情况下偏差大，方差小

Q36. 假设用一个复杂回归模型拟合一个数据集，使用带固定参数lambda的Ridge回归来减小它的复杂度，下列哪项描述了偏差和方差与lambda的关系？

A.对于非常小的lambda，偏差很小，方差很小

B.对于非常小的lambda，偏差很小，方差很大

C.对于非常小的lambda，偏差很大，方差很小

D.对于非常小的lambda，偏差很大，方差很大

答案：B

Lambda很小表示模型复杂，这种情况下偏差小，方差大，模型会过拟合数据

Q37.关于Ridge回归，下列哪项正确？

1.lambda为0时，模型作用类似于线性回归模型

2.lambda为0时，模型作用与线性回归模型不相像

3.当lambda趋向无穷，会得到非常小，趋近0的相关系数

4.当lambda趋向无穷，会得到非常大，趋近无穷的相关系数

A.1和3

B.1和4

C.2和3

D.2和4

答案：A

当lambda为0时我们得到了最小的最小二乘解；当lambda趋近无穷时，会得到非常小、趋近0的相关系数。

Q38.下列三张残差图，哪张与其它相比是最糟糕的模型？

提示：

1.所有残差都被标准化了

2.这些图是关于预期值和残差的

数据分析问题及解题方法（数据科学家45题自测）(11)

数据分析问题及解题方法（数据科学家45题自测）(12)

数据分析问题及解题方法（数据科学家45题自测）(13)

A. 1

B. 2

C. 3

D. 1和2

答案：C

预期值和残差之间应该没有任何关系，若果有则说明模型未能完美捕获数据信息。

Q39.下列哪一种回归方法的相关系数没有闭式解？

A.Ridge回归

B. Lasso回归

C. Ridge回归 and Lasso回归

D.两者都不是

答案：B

Lasso不允许闭式解，L1-penalty使解为非线性的，所以需要近似解。参考这篇文章获得更多关于闭式解的知识。

Q40.参考如下数据集，移除哪一个黑点将会对回归拟合线（黑虚线所示）产生最大影响

数据分析问题及解题方法（数据科学家45题自测）(14)

A.a

B.b

C.c

D.d

答案：D

线性回归对数据中的异常值敏感，虽然C也是给定数据区间内的异常值，但它离回归拟合线很近，所以不会造成太多影响

Q41.在简单线性回归模型中（单自变量），如果改变输入变量1单元，输出变量会变化多少？

A.1单元

B.无变化

C.截距值

D.斜率值

答案：D

简单线性回归公式为Y=a bx，如果给x增加1，y就变成了a b(x 1)，即y增加了b

Q42.逻辑回归是输出结果落在[0,1]区间内，下列哪个函数用于转换概率，使其落入[0,1]？

A. Sigmoid

B. Mode

C. Square

D. Probit

答案：A

Sigmoid函数用于转换输出结果，使之落在逻辑回归区间[0,1]内

Q43.考虑线性回归和逻辑回归中的重量/相关系数，关于cost函数的偏导，下列哪一项是正确的？

A.都不一样

B.都一样

C.无法确定

D.以上都不对

答案：B

参考这个链接

Q44.假设使用逻辑回归模型处理n元分类问题，可以用到One-vs-rest方法，则下列哪一项是正确的？

A.在n元分类问题中，需要拟合n个模型

B.为了分类为n类，需要拟合n-1个模型

C.为了分类为n类，只需要拟合1个模型

D.都不正确

答案：A

如果有n类，就有n个分散的逻辑回归需要拟合，每一类的概率都是基于其余类来预测的。以三类分类(-1,0,1)为例，需要训练三个逻辑回归分类器：

1. -1 vs 0 and 1

2.0 vs -1 and 1

3.1 vs 0 and -1

Q45.下图是两种有不同β0 和β1值的逻辑回归模型

下列关于两种逻辑回归模型中β0 和β1的叙述哪项是正确的？

数据分析问题及解题方法（数据科学家45题自测）(15)

提示：Y = β0 β1*X，β0为截距，β1是斜率

A.绿线的β1比黑线的大

B.绿线的β1比黑线的小

C.两个模型的β1是一样的

D.无法得出结论

答案：B

β0和β1: β0 = 0, β1 = 1是黑线的情况；β0 = 0, β1 = −1是绿线的情况

总结

我们希望你能发现这个测试和提供的解决方法有趣而实用。这个测试注重回归的理论知识和它的多种技巧。我们试着通过这篇文章解释你们的所有疑惑，如果你发现了任何错误和遗漏，或者你有好的建议，请和我们联系。

文章原标题《45 questions to test a Data Scientist on Regression (Skill test – Regression Solution)》，作者： ANKIT GUPTA

文章为简译，更为详细的内容，请查看原文：https://yq.aliyun.com/articles/67213

数据分析问题及解题方法（数据科学家45题自测）

最新推荐

热门推荐