朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。通过输入输出联合概率分布，对给定的输入x找到后验概率最大的输出y。

统计学基础

在统计学中，概率的诠释上有两大学派：频率学派和贝叶斯学派。他们对参数估计的看法不一样：频率学派认为所有的参数虽然未知但都是固定的，可以通过极大似然估计等准则来确定；而贝叶斯学派是观察者视角，认为参数都是随机变量，有特定的分布，由先验概率和获取的信息学习修正得到的后验概率。

贝叶斯公式如下：

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(1)

我们将已知X的情况下每种Y的概率拿到，找到概率最大的Y就是最有可能的分类。这个问题根据贝叶斯公式可以转化成先验概率P(Yk）和条件概率的求解。

朴素贝叶斯模型原理

假设输入特征空间为X，输出为Y，m个样本。根据上节贝叶斯公式，我们需要求先验概率分布和条件概率分布：

先验概率分布为：

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(2)

条件概率分布为：

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(3)

X由n个属性构成，遍历所有X可能的组合比较困难；并且很多X的可能取值在训练样本中根本没有出现过，记为0是不合适的。

对此，朴素贝叶斯假设属性条件是独立的，即每个属性独立的对结果产生影响。

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(4)

所以朴素贝叶斯分类器是找到条件概率P(Y=Ck|X)最大的Ck，根据贝叶斯公式转化为：

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(5)

分母P(X)为对Ck的遍历，是一个固定值可以去掉，因此分类器可以转化为：

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(6)

即使得P(XY)=P(Y)*P(X|Y)联合概率分布最大的Y=Ck为待求解的Y。

朴素贝叶斯参数估计

根据极大似然估计，先验概率P(Y=Ck)为：

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(7)

条件概率P(X|Y=Ck)为

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(8)

简单来说就是根据样本中某些特征出现的频次估计其概率。但是，上述计算方法只是对Xj属性为离散值的计算方法，Xj有可能是离散值，则及条件概率计算如下：

朴素贝叶斯算法淘宝评价（朴素贝叶斯分类器）(9)

朴素贝叶斯优缺点总结

优点：

缺点：

参考文献

[1] 统计学习方法-李航

[2] 机器学习-周志华

[2] https://www.cnblogs.com/pinard/p/6069267.html-刘建平