日本乱偷中文字幕,美女脱内衣18禁免费看,亚洲国产精品丝袜在线观看,18女人腿打开无遮挡,廖承宇chinese野战做受

樸素貝葉斯

樸素貝葉斯

葉斯分類(lèi)器是一種概率框架下的統計學(xué)習分類(lèi)器,對分類(lèi)任務(wù)而言,假設在相關(guān)概率都已知的情況下,貝葉斯分類(lèi)器考慮如何基于這些概率為樣本判定最優(yōu)的類(lèi)標。在開(kāi)始介紹貝葉斯決策論之前,我們首先來(lái)回顧下概率論委員會(huì )常委--貝葉斯公式。

條件概率

條件概率

樸素貝葉斯最核心的部分是貝葉斯法則,而貝葉斯法則的基石是條件概率。貝葉斯法則如下:

條件概率

對于給定的樣本x,P(x)與類(lèi)標無(wú)關(guān),P(c)稱(chēng)為類(lèi)先驗概率,p(x | c )稱(chēng)為類(lèi)條件概率。這時(shí)估計后驗概率P(c | x)就變成為估計類(lèi)先驗概率和類(lèi)條件概率的問(wèn)題。對于先驗概率和后驗概率,在看這章之前也是模糊了我好久,這里普及一下它們的基本概念。

先驗概率: 根據以往經(jīng)驗和分析得到的概率。

后驗概率:后驗概率是基于新的信息,修正原來(lái)的先驗概率后所獲得的更接近實(shí)際情況的概率估計。

實(shí)際上先驗概率就是在沒(méi)有任何結果出來(lái)的情況下估計的概率,而后驗概率則是在有一定依據后的重新估計,直觀(guān)意義上后驗概率就是條
件概率。

pic

回歸正題,對于類(lèi)先驗概率P(c),p(c)就是樣本空間中各類(lèi)樣本所占的比例,根據大數定理(當樣本足夠多時(shí),頻率趨于穩定等于其概率),這樣當訓練樣本充足時(shí),p(c)可以使用各類(lèi)出現的頻率來(lái)代替。因此只剩下類(lèi)條件概率p(x | c ),它表達的意思是在類(lèi)別c中出現x的概率,它涉及到屬性的聯(lián)合概率問(wèn)題,若只有一個(gè)離散屬性還好,當屬性多時(shí)采用頻率估計起來(lái)就十分困難,因此這里一般采用極大似然法進(jìn)行估計。

極大似然法

極大似然估計(Maximum Likelihood Estimation,簡(jiǎn)稱(chēng)MLE),是一種根據數據采樣來(lái)估計概率分布的經(jīng)典方法。常用的策略是先假定總體具有某種確定的概率分布,再基于訓練樣本對概率分布的參數進(jìn)行估計。運用到類(lèi)條件概率p(x | c )中,假設p(x | c )服從一個(gè)參數為θ的分布,問(wèn)題就變?yōu)楦鶕阎挠柧殬颖緛?lái)估計θ。極大似然法的核心思想就是:估計出的參數使得已知樣本出現的概率最大,即使得訓練數據的似然最大。

pic

所以,貝葉斯分類(lèi)器的訓練過(guò)程就是參數估計??偨Y最大似然法估計參數的過(guò)程,一般分為以下四個(gè)步驟:

  1. 寫(xiě)出似然函數;
  2. 對似然函數取對數,并整理;
  3. 求導數,令偏導數為0,得到似然方程組;
  4. 解似然方程組,得到所有參數即為所求。

例如:假設樣本屬性都是連續值,p(x | c )服從一個(gè)多維高斯分布,則通過(guò)MLE計算出的參數剛好分別為:

pic

上述結果看起來(lái)十分合乎實(shí)際,但是采用最大似然法估計參數的效果很大程度上依賴(lài)于作出的假設是否合理,是否符合潛在的真實(shí)數據分布。這就需要大量的經(jīng)驗知識,搞統計越來(lái)越值錢(qián)也是這個(gè)道理,大牛們掐指一算比我們搬磚幾天更有效果。

樸素貝葉斯分類(lèi)器

不難看出:原始的貝葉斯分類(lèi)器最大的問(wèn)題在于聯(lián)合概率密度函數的估計,首先需要根據經(jīng)驗來(lái)假設聯(lián)合概率分布,其次當屬性很多時(shí),訓練樣本往往覆蓋不夠,參數的估計會(huì )出現很大的偏差。為了避免這個(gè)問(wèn)題,樸素貝葉斯分類(lèi)器(naive Bayes classifier)采用了“屬性條件獨立性假設”,即樣本數據的所有屬性之間相互獨立。這樣類(lèi)條件概率p(x | c )可以改寫(xiě)為:

pic

這樣,為每個(gè)樣本估計類(lèi)條件概率變成為每個(gè)樣本的每個(gè)屬性估計類(lèi)條件概率。

pic

相比原始貝葉斯分類(lèi)器,樸素貝葉斯分類(lèi)器基于單個(gè)的屬性計算類(lèi)條件概率更加容易操作,需要注意的是:若某個(gè)屬性值在訓練集中和某個(gè)類(lèi)別沒(méi)有一起出現過(guò),這樣會(huì )抹掉其它的屬性信息,因為該樣本的類(lèi)條件概率被計算為0。因此在估計概率值時(shí),常常用進(jìn)行平滑(smoothing)處理,拉普拉斯修正(Laplacian correction)就是其中的一種經(jīng)典方法,具體計算方法如下:

pic

當訓練集越大時(shí),拉普拉斯修正引入的影響越來(lái)越小。對于貝葉斯分類(lèi)器,模型的訓練就是參數估計,因此可以事先將所有的概率儲存好,當有新樣本需要判定時(shí),直接查表計算即可。

詞集模型

對于給定文檔,只統計某個(gè)侮辱性詞匯(準確說(shuō)是詞條)是否在本文檔出現

詞袋模型

對于給定文檔,統計某個(gè)侮辱性詞匯在本文當中出現的頻率,除此之外,往往還需要剔除重要性極低的高頻詞和停用詞。因此,詞袋模型更精煉,也更有效。

數據預處理

向量化

向量化、矩陣化操作是機器學(xué)習的追求。從數學(xué)表達式上看,向量化、矩陣化表示更加簡(jiǎn)潔;在實(shí)際操作中,矩陣化(向量是特殊的矩陣)更高效。



標 題:《樸素貝葉斯
作 者:zeekling
提 示:轉載請注明文章轉載自個(gè)人博客:浪浪山旁那個(gè)村

    評論
    0 評論
avatar

取消
日本乱偷中文字幕,美女脱内衣18禁免费看,亚洲国产精品丝袜在线观看,18女人腿打开无遮挡,廖承宇chinese野战做受