发布时间:2023-09-03 13:00
将三篇文章划分为三个类别的概率是多少,即占得比例。
即贝叶斯思想,预测你这篇文档属于这10个类别的每个概率是多少,找出最大的概率即可。
求在给定文档的词下,属于哪个类别的概率。
之后可以选择每篇文章的重要性大的前几个词,可以找到一些比较重要的词进行统计了。每篇文章都可以将重要的词拿出来,就可以组成一个新的词列表。
加上拉普拉斯平滑,保证某个文档属于某一类别的概率不会为0了。
这个参数不会对结果造成影响,谁的概率大还是谁的概率大,不会影响的。
所以影响朴素贝叶斯的最大因素就是训练集的数据词是否统计正确或分类正确。
这样对于非癌症的却预测为癌症的可以再检测一遍,但是真正得癌症的不能放过。所以需要本身是癌症,可以预测出来多少个,这样的一个指标。