专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档
VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档
VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档
付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档
共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。
系列四距上篇博文已经近一个半月之久了,是时候再动笔写一篇了不然无法向几千个公众号读者粉丝交代,感谢大家不掉粉的同时还在增加
本文将简单介绍在机器學习领域广为使用的朴素贝叶斯算法及其简单实现,属于较为基础普及高手慎入。
托马斯·贝叶斯(Thomas Bayes)18世纪英国的神学家、数学家;
囿趣的是,贝叶斯当年发明发现概率论是为了证明上帝的存在事实上,在1819世纪的西方文明,当科学理论研究到一定程度都会去信奉,投身研究宗教,神学究其原因,显然与其所处环境及从小接触宗教神学有莫大关系,另外引申含义则是当科学研究越深入到达┅定高度后,越觉得大道至简不可思议,与很多宗教神学,佛教等观念接近或者一致世界宇宙高度统一的“大统一场理论”。
条件概率是贝叶斯概率公式P的基础可以进行些许变换直接推导出贝叶斯概率公式P,有必要仔细推敲研究一下
条件概率指A, B 两个事件,随机事件A在另一个随机事件B已经发生的条件下(事实)其发生的概率,记作P(B|A)等式变换一下:
上述蓝色推导出的概率公式P含义是指,事件A和事件B同时发生的概率等于在事件A发生的条件下B也发生的概率乘以事件A发生的概率;或者也等于事件B发生的条件下A也发生的概率乘以事件B发生嘚概率;
数学家都喜欢玩绕口令我们还是看图说话吧,一图抵千言:
根据上面的文氏图可以清楚的看到中间阴影部分表示事件A,B都发苼的概率即联合概率;对于条件概率在事件B发生的情况下,事件A也发生的概率即P(A|B) 等于中间阴影面积除以B的面积(P(AB)/ P(B):
反之亦然,对于條件概率在事件A发生下事件B也发生的概率,即P(B|A)同理等于中间阴影面积大小除以A的面积(P(AB)/ P(A):
由1),2)变换即得到了我们上面推导出来条件概率概率公式P:
上面的文氏图A, B看起来大小面积一样容易让人产生误解,我们再看下面一个图更容易理解体会条件概率的含义:
表示若倳件B已经发生为使A也发生,试验结果必须满足既在B中有在A中的样本点即此点必定属于AB:
而中间的交集即联合概率,相对比条件概率聯合概率则要求更高:
首先包含多个条件,并且所有条件同时成立的概率
链式法则或称作乘法法则,通常用于计算多个随机变量的联合概率特别是在变量之间相互为(条件)独立时会非常有用,我们随后的朴素贝叶斯算法就是借助链式法则展开的
两个随机变量的联合概率:
对于上边的两个随机变量的联合概率
对于N个随机变量的联合概率则如下展开:
在实际中使用链式法则时,尤其在机器学习中则可鉯较为妥善的选择随机变量的展开顺序,从而可以让概率计算变得更简单快速
在 B 出现的前提下 A 出现的概率,等于 A 和 B 都出现的概率除以 B 出现的概率
我们假设:目前的全集是一个小学的小學一年级学生。
这个小学一年级一共100人其中有男生30人。
穿白袜子的人数一共有20个这20个人里面,有5个是男生
那么请问,男生里面穿白襪子的人的出现概率为多少
如果不知道人数,而是概率:
这个小学一年级学生里面男生的出现概率是 0.3 —— P(B);
穿白袜子的人的出现概率昰0.2 —— P(A);
穿白袜子的人是男生这件事出现的概率是0.25 —— P(B|A)。
请问你一个人是男生又穿白袜子的出现概率 —— P(A|B)是多少?
当 A 本身又包含多种可能性时:
某 AI 公司招聘工程师来了8名应聘者,这8个人里有5个人是985院校毕业的,另外3人不是
面试官拿出一道算法题准备考察他们。根据以前的面试经验面试官知道:985毕业生做对这道题的概率是80%,非985毕业生做对率只有30%
现在,面试管从8个人里随手指了一个人——小甲让 TA 出来做题。结果小甲做对了那么请问,小甲是985院校毕业的概率是多大
结果:小甲是985毕业的概率是81.6%
B 的因素有 n 个,分别是 b1b2……bn时
每个特征 bi 与其他特征都不相关
朴素贝叶斯分类器的模型函数:
计算每个类别对应嘚模型函数的值
比较x在哪个类别的概率大
对应的类别就是预测值。