朴素贝叶斯
特性
- 基于概率,优点是可以对预测标签给出理论上完美的可能性估计
- 要求数据多维特征之间相互独立,因此在计算n维特征的联合分布时,才能简化成各自先验机率相乘
原理
朴素贝叶斯是应用贝叶斯定理进行有监督学习的一种分类模型。在模型中,将贝叶斯定理公式 中的事件A看成被分类标签,事件B看成数据特征。伪代码如下:
for label in 所有标签:
用贝叶斯公式计算在给定特征情况下出现该label的后验机率
预测标签 <= 获得最高后验机率的 label
由于实际上计算了所有标签的后验机率,所以贝叶斯分类不仅可以提供该组特征最可能的标签,还能给出其他的标签排序。
高斯朴素贝叶斯
- 假定所有特征都呈高斯分布
1 | from sklearn import datasets |
数据集大小
(150, 4)
(150,)
察看模型的先验机率
[0.33333333 0.33333333 0.33333333]
察看训练集标签数量
[50. 50. 50.]
察看高斯模型期望值
[[5.006 3.428 1.462 0.246]
[5.936 2.77 4.26 1.326]
[6.588 2.974 5.552 2.026]]
察看高斯模型方差
[[0.121764 0.140816 0.029556 0.010884]
[0.261104 0.0965 0.2164 0.038324]
[0.396256 0.101924 0.298496 0.073924]]
伯努利朴素贝叶斯
- 每次实验只可能出现两种结果的事件概率分布,也称二值分布
1 | from sklearn.naive_bayes import BernoulliNB |
array([0])
参考: