readyboost支持多少速度 Boosting硬核入门-XGBoost

1 Boosting 方法概述

本文需要读者有以下的前置知识储备：决策树算法、梯度下降法、泰勒展开式。

1.1 集成方法

集成方法（ Ensemble Learning ）是一种应用得非常广泛的机器学习方法，主流的集成方法包括 Bagging 、 Boosting 、 Stacking 。

俗话说“三个臭皮匠，顶个诸葛亮”，这就是集成方法的思路。很多时候，我们无法直接训练出优质的模型（强学习机），而只能得到一些较差的模型（弱学习机）。集成方法就是将多个弱学习机的预测结果综合起来，以达到甚至是超过强学习机的预测效果。

Bagging 采用并行组合弱学习机的思路，代表算法是随机森林（ RF ， RandomForest ）， Bagging 在降低方差方面有很好的效果。

Boosting 采用串行组合弱学习机的思路，代表算法是 XGBoost 和 LightGBM ， Boosting 在降低偏差方面有很好的效果。

本文将要介绍的是 Boosting 。

1.2 Boosting 方法

Boosting 是一种串行的集成方法，每轮迭代后算法会计算当前模型预测值和样本实际值的差异度，下一轮迭代会针对这个差异度来继续训练模型。这个差异度有时也叫残差，它可以是平方损失函数、指数损失函数（ AdaBoost ）、对数损失函数（逻辑回归）、 Hinge 损失函数（ SVM ），等等。

（ 2.3 ）计算此次迭代分类器的权重：

readyboost支持多少速度 Boosting硬核入门-XGBoost(1)

如此设置分类器权重的思路是：在构建最终模型时，要对 M 个分类器加权相加，为了得到更好的分类效果，就要赋予误差低的分类器高权重，赋予误差高的分类器低权重。

（ 2.4 ）更新样本的权重：

readyboost支持多少速度 Boosting硬核入门-XGBoost(2)

如此设置样本权重的思路是：为了能够让被错误分类的样本，在下一轮迭代中对分类器的构建产生更大的影响，从而达到纠正错误的目的，就需要赋予被错误分类的样本高权重，赋予被正确分类的样本低权重。

最后对样本权重进行归一化：

readyboost支持多少速度 Boosting硬核入门-XGBoost(3)

归一化的目的是：保证所有样本的权重和为 1 。

（ 3 ）最后，将所有分类器加权求和，获得最终分类器：

readyboost支持多少速度 Boosting硬核入门-XGBoost(4)

2.3 前向分布算法流程

前向分布算法比 AdaBoost 算法更为简洁，我们可以通过学习前向分布算法，进一步了解 Boosting 算法的思路。

另外，可以证明， AdaBoost 算法是前向分布算法的一个特例（证明过程见李航《统计学习方法》 8.3.2 ）。

前向分布算法流程如下，其中表达式的下标 m 表示迭代的次数（一共迭代 M 次），下标 i 表示样本标号（一共有 N 个样本）：

（ 0 ）记损失函数为：

readyboost支持多少速度 Boosting硬核入门-XGBoost(5)

并初始化：

readyboost支持多少速度 Boosting硬核入门-XGBoost(6)

（ 1 ）进行 M 次循环迭代，依次求得 M 个分类器（求得分类器的参数和权重）

（ 1.1 ）求解最优化问题，通过极小化损失函数，求得 β 和 γ ：

readyboost支持多少速度 Boosting硬核入门-XGBoost(7)

（ 1.2 ）根据求得的 β 和 γ ，更新 f(x) ：

readyboost支持多少速度 Boosting硬核入门-XGBoost(8)

（ 2 ）整理得到最终模型：

readyboost支持多少速度 Boosting硬核入门-XGBoost(9)

2.4 GBDT 算法概述

AdaBoost 算法使用指数损失函数作为损失函数，所以求解最优化问题的过程较为简单，与之类似还有平方损失函数。但是，如果采用其它损失函数， 求解最优化问题就有可能较为困难 。

为了解决这个问题，同时也为了能够采用一些更健壮的损失函数以 减小异常点 的影响，我们 采用损失函数的梯度作为残差 。我们可以采用任意损失函数，只要这个损失函数一阶可导。

由于 CART 树模型较为简单 ， GBDT 算法利用 CART 树作为基本学习机，这样能够弥补 Boosting 算法方差较高的缺点。

2.5 GBDT 算法流程

我们要利用 GBDT 算法，对一个包含有 N 个样本的数据集，进行 M 轮迭代，构建预测模型。

其中，表达式的下标 m 表示迭代的次数，下标 i 表示样本标号。

算法流程如下：

（ 1 ）初始化 f(x) , 并记为 T0(x) ：

readyboost支持多少速度 Boosting硬核入门-XGBoost(10)

（ 2 ）进行 M 次循环迭代，依次求得 M 个决策树。

（ 2.1 ）遍历所有样本，对每个样本的损失函数求导，记为样本的残差：

readyboost支持多少速度 Boosting硬核入门-XGBoost(11)

（ 2.2 ）将所有样本的值，替换成残差。

（ 2.3 ）以所有样本的新值（残差）为训练样本，训练并输出决策树模型：

其中，每个叶子节点输出的值 w 为

readyboost支持多少速度 Boosting硬核入门-XGBoost(12)

在这里， w 不是一个常数，在不同的叶子节点区域， w 取不同的常数值。

在这一步中，需要求得决策树模型两方面的内容，一是决策树的结构（使用哪些特征进行分割，分割点的值是多少），二是叶子节点的输出值。

（ 2.4 ）根据 T(x,w) ，更新 f(x)

readyboost支持多少速度 Boosting硬核入门-XGBoost(13)

（ 3 ）最后，整理输出最终的 GBDT 模型

readyboost支持多少速度 Boosting硬核入门-XGBoost(14)

3 XGBoost 算法

3.1 概述

Boosting 算法最大的缺点有两个：一是方差过高，容易过拟合；二是模型的构建过程是串行的，难以应用于大数据场景。这两个问题在 XGB 算法中，都得到了很大的改善。

过拟合的问题还算好解决，很多类似的研究结论都可以被拿来借鉴。所以，在我看来， XGB 最大的贡献，就是创造性地给出了 Boosting 算法的并行计算思路，使之能够适应大数据场景，应用于大数据分布式集群环境中。

下面，我们将先学习 XGB 算法，然后对它的特性进行归纳总结。

3.2 目标函数

要构建一个模型，我们首先要确定要以什么目标来衡量模型的好坏，然后再围绕这个目标，一步步地改进模型。所以，在 XGB 算法中，我们要先确定算法的目标函数。随后， XGB 模型的构建，就是以实现这个目标函数最小化为目标。

XGBoost 的目标函数包括损失函数和正则项两个部分。

损失函数衡量的是模型输出值和样本真实值的差异度，差异度的值越低，模型越好。

正则项衡量的是模型的复杂度，复杂度越高，模型越容易过拟合，所以正则项的值越低，模型越好。

如下式所示，第一项 L(y,y’) 表示的是模型的损失函数，第二项 Ω( δ ) 表示的是模型的正则项。

其中 f(x) 表示前 m 次迭代生成模型之和， δ (x) 表示当前迭代轮次生成的模型，表达式的下标 m 表示迭代的次数（一共迭代 M 次），下标 i 表示样本标号（一共有 N 个样本），下标 j 表示叶子节点标号（一共有 T 个叶子结点）：

readyboost支持多少速度 Boosting硬核入门-XGBoost(15)

将损失函数进行泰勒展开，并且记 g(x) 为 L(y,y’) 的一阶导数， h(x) 为 L(y,y’) 的二阶导数：

（注： g(x) 和 h(x) 均为损失函数 L(y,y’) 对变量 y’ 的求导，此时 y 为常数）

readyboost支持多少速度 Boosting硬核入门-XGBoost(16)

正则项表示如下，其中 T 表示叶子节点的个数， w 表示叶子节点的输出值

readyboost支持多少速度 Boosting硬核入门-XGBoost(17)

注：本文中使用的是 L2 范数。在 XGB 的实际应用中，可以使用 L1 范数。

最后，代入以上损失函数和正则项的表达式（第 2 行），删除常数项（第 3 行），最后按叶子节点汇总（第 4 、 5 行），可得：

readyboost支持多少速度 Boosting硬核入门-XGBoost(18)

其中 Tj 表示属于不同叶子节点（模型输出的预测值，而非真实值）的样本的集合。 i ∈ Tj 表示经过当前迭代轮次模型的预测，第 i 个样本被分到叶子节点 j 处。

确定了目标函数，下一步就是构建决策树模型。决策树模型的构建包括两个方面：一是要确定决策树模型的结构，包括每个节点使用什么特征进行分割，分割点的值是多少；二是要确定每个叶子节点的输出值。

接下来的两个小节，将分别通过计算叶子节点的输出值和进行节点分裂判定，来完成对决策树模型的构建。

3.3 计算叶子节点输出值

我们先假设决策树的结构已经被确定了，那么在这个前提条件下，我们尝试计算叶子节点的最优输出值。

观察目标函数：

readyboost支持多少速度 Boosting硬核入门-XGBoost(19)

最后一项 γ T 只与决策树的结构有关，在结构确定的情况下是常数，可以忽略。

第一大项可以按叶子节点 j 进行分解，分解后的子项互不相关。所以可以根据以下表达式，按叶子节点 j 进行划分，各自单独求解 w 的最优值：

readyboost支持多少速度 Boosting硬核入门-XGBoost(20)

显而易见的，这是一个一元二次多项式， w 的最优解为：

readyboost支持多少速度 Boosting硬核入门-XGBoost(21)

其中，为便于书写和记忆，记：

readyboost支持多少速度 Boosting硬核入门-XGBoost(22)

3.4 节点分裂判定

在求得叶子节点的最优输出值后，我们接下来求解决策树的结构。

由于树的组成结构有无穷多种，我们无法穷举遍历所有的情况，所以我们采用贪婪算法，在每个节点都进行一次判定，决定是否该分裂这个节点，以及该如何分裂这个节点，以此逐步迭代构成一棵决策树。

我们先将上一节求得的 w 的最优解代入目标函数，可以得到目标函数的表达式：

readyboost支持多少速度 Boosting硬核入门-XGBoost(23)

当我们判定一个叶子节点是否需要分裂时，需要计算分裂操作执行前后，目标函数的变化情况。记待分裂节点为 t 。

分裂前整棵树的代价函数：

readyboost支持多少速度 Boosting硬核入门-XGBoost(24)

分裂后整棵树的代价函数：

readyboost支持多少速度 Boosting硬核入门-XGBoost(25)

将以上两式相减，可得：

readyboost支持多少速度 Boosting硬核入门-XGBoost(26)

这个式子即为是否分裂节点的判别公式。如果该式大于 0 ，则表示目标函数的值减少了，分裂是有增益效果的，可以分裂。如果该式小于 0 ，则表示分裂后的目标函数反而增加了，则不建议分裂。

注：

在单机版的 XGB 算法中，使用的是精准贪婪节点分裂算法。算法会遍历所有特征的所有值，以判定：是否分裂、如果分裂的话采用哪个特征进行分裂、分裂点选取为什么数值。

在数据无法全部放到内存中的场合，或者在分布式应用的场合， XGB 使用近似节点分裂算法。 XGB 首先根据样本数据的百分位分布计算出备选分割点，然后将连续的样本数据分配到由这些备选分割点确定的桶（ bucket ）里，最后汇总数据（不同分布式集群上的数据、或不同处理线程上的数据），并求出最优分割点。

3.5 XGBoost 算法流程

在这一小节，我对前面几个小节得出的结论进行整理，归纳出 XGBoost 的算法流程。

其中， f(x) 表示前 m 次迭代生成模型之和， δ (x) 表示当前迭代轮次生成的模型，表达式的下标 m 表示迭代的次数（一共迭代 M 次），下标 i 表示样本标号（一共有 N 个样本），下标 j 表示叶子节点标号（一共有 T 个叶子节点）：

（ 1 ）根据实际场景需求，设计损失函数 L(y,y’) 和正则项 Ω( δ ) 。进行 f0(x) 的初始化。

（ 2 ）进行 M 次循环迭代，依次求得 M 个决策树。

（ 2.1 ）在每次迭代开始前，遍历所有样本，计算所有样本的损失函数 L(y,y’) 关于 y’ 的一阶导数 g 和二阶导数 h 。

（ 2.2 ）使用以下表达式，进行节点分裂判定。逐步迭代生成树，以确定决策树结构：

readyboost支持多少速度 Boosting硬核入门-XGBoost(27)

表达式大于 0 则可以分裂，小于 0 则不建议分裂。

（ 2.3 ）决策树结构确定后，根据下式，计算当前迭代轮次决策树的叶子节点输出值：

readyboost支持多少速度 Boosting硬核入门-XGBoost(28)

（ 2.4 ）根据当前迭代轮次生成的决策树 δ (x) ，更新模型 f(x) ：

readyboost支持多少速度 Boosting硬核入门-XGBoost(29)

（ 3 ）整理输出最终的 XGBoost 模型：

readyboost支持多少速度 Boosting硬核入门-XGBoost(30)

在接下来的几个小节里，我将会对 XGB 的特性进行归纳总结，包括前文提及的过拟合预防方法、大数据场景实现方法、以及其它的一些特性。

3.6 大数据场景实现方法

（ 1 ）样本间并行计算：在每次迭代前，需要遍历所有样本，求解损失函数的一次导数 g 和二次导数 h ，由于不同样本间无相关性，故此时可以对不同的样本使用并行计算。

（ 2 ）特征间并行计算：在进行节点分裂判定时，需要遍历所有特征，此时可以对不同的特征使用并行计算，最后再汇总不同特征的判定结果，输出最优解。

（ 3 ）预排序：在每次迭代前，事先将样本数据按照不同的特征，根据其数值进行预排序，方便后续在节点分裂判定环节，顺序访问样本数据，对一阶导数和二阶导数进行取数和累加。（注：在构建树的过程中，耗时最长的步骤，就是对样本数据进行排序）

（ 4 ）块压缩技术 (Block Compression) ：按列（特征）对数据进行压缩，在数据被读取入内存时，通过一个额外的线程进行解压。这个技术是将磁盘读写的时间耗费，转嫁到内存解压缩的时间耗费上。

（ 5 ）块共享技术 (Block Sharding) ：将数据存储到不同的磁盘上，通过额外的线程预读取数据，将数据提前读取到不同磁盘各自的内存缓冲区里，在需要的时候，再将数据送到模型训练线程中。这个技术减小了磁盘读写的时间耗费。

（ 6 ）数据预读取：建立一个独立的线程，在模型执行运算操作的同时，用这个线程向磁盘读取后续需要用到的数据。但是，由于程序在计算模型时常常也要读写磁盘，所以这个方法未必很有效。

（ 7 ）构建树的算法包括精确贪婪算法和近似算法（直方图算法），近似算法对每维特征按照分位数进行分桶 (bucket) 。

3.7 过拟合预防方法

（ 1 ）学习效率参数 shrinkage ：类似于其它算法的学习效率参数 LearningRate 。

（ 2 ）引入正则项：包括树的叶子节点数量，叶子节点输出值的 L1 或 L2 范数。

（ 3 ）列（特征）采样：在迭代时只使用一部分特征来构建模型。列采样不仅缩短了计算时间，还提高了模型的预测效果。列采样方法源自于随机森林算法。

（ 4 ）行（样本）采样：在迭代时只使用一部分样本来构建模型。

3.8 其它特性

（ 1 ）自定义目标函数： XGB 可以自定义目标函数，只需要目标函数满足二次可导。

（ 2 ）基分类器：不仅可以采用 CART 树作为基分类器（本文中默认使用 CART 树），也可以使用线性模型。

（ 3 ）分裂准则：节点分裂时，能够直接根据目标函数（损失函数正则项）进行判定。

（ 4 ）有效处理缺失值和稀疏值：对于特征值缺失或特征值稀疏的样本，分别尝试将缺失 \ 稀疏数据划分到左叶子和右叶子，计算增益并进行对比，选择增益更大的划分方案。

（注：产生稀疏矩阵的三个常见原因：数据缺失，数据本身含有大量零值，使用了 one-hot 方法。）

（ 5 ） XGBoost 允许在每一轮 boosting 迭代中使用交叉验证。因此，可以方便地获得最优 boosting 迭代次数。而 GBDT 只能使用网格搜索（ Grid Search ）检测有限个值。

（ 6 ）支持加权数据：陈天奇在论文里提了一下，但是没给出具体算法。

参考资料

[1] Tianqi Chen AScalable Tree Boosting System

[2] Tianqi Chen Introductionto Boosted Trees

[3] 李航统计学习方法清华大学出版社

readyboost支持多少速度 Boosting硬核入门-XGBoost

最新推荐

热门推荐