朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。通过输入输出联合概率分布,对给定的输入x找到后验概率最大的输出y。

统计学基础

在统计学中,概率的诠释上有两大学派:频率学派和贝叶斯学派。他们对参数估计的看法不一样:频率学派认为所有的参数虽然未知但都是固定的,可以通过极大似然估计等准则来确定;而贝叶斯学派是观察者视角,认为参数都是随机变量,有特定的分布,由先验概率和获取的信息学习修正得到的后验概率。

贝叶斯公式如下:

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(1)

我们将已知X的情况下每种Y的概率拿到,找到概率最大的Y就是最有可能的分类。这个问题根据贝叶斯公式可以转化成先验概率P(Yk)和条件概率的求解。

朴素贝叶斯模型原理

假设输入特征空间为X,输出为Y,m个样本。根据上节贝叶斯公式,我们需要求先验概率分布和条件概率分布:

先验概率分布为:

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(2)

条件概率分布为:

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(3)

X由n个属性构成,遍历所有X可能的组合比较困难;并且很多X的可能取值在训练样本中根本没有出现过,记为0是不合适的。

对此,朴素贝叶斯假设属性条件是独立的,即每个属性独立的对结果产生影响。

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(4)

所以朴素贝叶斯分类器是找到条件概率P(Y=Ck|X)最大的Ck,根据贝叶斯公式转化为:

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(5)

分母P(X)为对Ck的遍历,是一个固定值可以去掉,因此分类器可以转化为:

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(6)

即使得P(XY)=P(Y)*P(X|Y)联合概率分布最大的Y=Ck为待求解的Y。

朴素贝叶斯参数估计

根据极大似然估计,先验概率P(Y=Ck)为:

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(7)

条件概率P(X|Y=Ck)为

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(8)

简单来说就是根据样本中某些特征出现的频次估计其概率。但是,上述计算方法只是对Xj属性为离散值的计算方法,Xj有可能是离散值,则及条件概率计算如下:

朴素贝叶斯算法淘宝评价(朴素贝叶斯分类器)(9)

朴素贝叶斯优缺点总结

优点:

  1. 基于经典的数学理论,结果稳定
  2. 对于小样本数据表现好,可处理多分类任务
  3. 适合增量式训练
  4. 简单有效,常用于文本分类

缺点:

  1. 要求属性之间是独立的,而这在实际问题中往往不太现实,可以考虑用半朴素贝叶斯算法。
参考文献

[1] 统计学习方法-李航

[2] 机器学习-周志华

[2] https://www.cnblogs.com/pinard/p/6069267.html-刘建平

,