日本乱偷中文字幕,美女脱内衣18禁免费看,亚洲国产精品丝袜在线观看,18女人腿打开无遮挡,廖承宇chinese野战做受

半監督學(xué)習

產(chǎn)生的背景

監督學(xué)習指的是訓練樣本包含標記信息的學(xué)習任務(wù),例如:常見(jiàn)的分類(lèi)與回歸算法;無(wú)監督學(xué)習則是訓練樣本不包含標記信息的學(xué)習任務(wù),例如:聚類(lèi)算法。在實(shí)際生活中,常常會(huì )出現一部分樣本有標記和較多樣本無(wú)標記的情形,例如:做網(wǎng)頁(yè)推薦時(shí)需要讓用戶(hù)標記出感興趣的網(wǎng)頁(yè),但是少有用戶(hù)愿意花時(shí)間來(lái)提供標記。若直接丟棄掉無(wú)標記樣本集,使用傳統的監督學(xué)習方法,常常會(huì )由于訓練樣本的不充足,使得其刻畫(huà)總體分布的能力減弱,從而影響了學(xué)習器泛化性能。那如何利用未標記的樣本數據呢?

簡(jiǎn)單描述

一種簡(jiǎn)單的做法是通過(guò)專(zhuān)家知識對這些未標記的樣本進(jìn)行打標,但隨之而來(lái)的就是巨大的人力耗費。若我們先使用有標記的樣本數據集訓練出一個(gè)學(xué)習器,再基于該學(xué)習器對未標記的樣本進(jìn)行預測,從中挑選出不確定性高或分類(lèi)置信度低的樣本來(lái)咨詢(xún)專(zhuān)家并進(jìn)行打標,最后使用擴充后的訓練集重新訓練學(xué)習器,這樣便能大幅度降低標記成本,這便是主動(dòng)學(xué)習(active learning),其目標是使用盡量少的/有價(jià)值的咨詢(xún)來(lái)獲得更好的性能。

顯然,主動(dòng)學(xué)習需要與外界進(jìn)行交互/查詢(xún)/打標,其本質(zhì)上仍然屬于一種監督學(xué)習。事實(shí)上,無(wú)標記樣本雖未包含標記信息,但它們與有標記樣本一樣都是從總體中獨立同分布采樣得到,因此它們所包含的數據分布信息對學(xué)習器的訓練大有裨益。如何讓學(xué)習過(guò)程不依賴(lài)外界的咨詢(xún)交互,自動(dòng)利用未標記樣本所包含的分布信息的方法便是半監督學(xué)習(semi-supervised learning),即訓練集同時(shí)包含有標記樣本數據和未標記樣本數據。

1.png

此外,半監督學(xué)習還可以進(jìn)一步劃分為純半監督學(xué)習直推學(xué)習,兩者的區別在于:前者假定訓練數據集中的未標記數據并非待預測數據,而后者假定學(xué)習過(guò)程中的未標記數據就是待預測數據。主動(dòng)學(xué)習、純半監督學(xué)習以及直推學(xué)習三者的概念如下圖所示:

iwJFJS.png

生成式方法

生成式方法(generative methods)是基于生成式模型的方法,即先對聯(lián)合分布P(x,c)建模,從而進(jìn)一步求解 P(c | x),此類(lèi)方法假定樣本數據服從一個(gè)潛在的分布,因此需要充分可靠的先驗知識。例如:前面已經(jīng)接觸到的貝 葉斯分類(lèi)器與高斯混合聚類(lèi),都屬于生成式模型?,F假定總體是一個(gè)高斯混合分布,即由多個(gè)高斯分布組合形成,從而一個(gè)子高斯分布就代表一個(gè)類(lèi)簇(類(lèi)別)。高斯混合分布的概率密度函數如下所示:
3.png

不失一般性,假設類(lèi)簇與真實(shí)的類(lèi)別按照順序一一對應,即第i個(gè)類(lèi)簇對應第i個(gè)高斯混合成分。與高斯混合聚類(lèi)類(lèi)似地,這里的主要任務(wù)也是估計出各個(gè)高斯混合成分的參數以及混合系數,不同的是:對于有標記樣本,不再是可能屬于每一個(gè)類(lèi)簇,而是只能屬于真實(shí)類(lèi)標對應的特定類(lèi)簇。

4.png

直觀(guān)上來(lái)看,基于半監督的高斯混合模型有機地整合了貝葉斯分類(lèi)器與高斯混合聚類(lèi)的核心思想,有效地利用了未標記樣本數據隱含的分布信息,從而使得參數的估計更加準確。同樣地,這里也要召喚出之前的EM大法進(jìn)行求解,首先對各個(gè)高斯混合成分的參數及混合系數進(jìn)行隨機初始化,計算出各個(gè)EM(即γ_{ji},第i個(gè)樣本屬于j類(lèi),有標記樣本則直接屬于特定類(lèi)),再最大化似然函數(即LL(D)分別對α、u求偏導 ),對參數進(jìn)行迭代更新。

E步:根據當前模型參數計算未標記樣本x_i屬于各個(gè)高斯混合成分的概率:

γ_{ji} = \frac{a_i \cdot p(x_j | u_i,\sum_i )}{ \sum_{i=1}^{N} a_i \cdot p(x_j | u_i, \sum_{i}) }

M 步:基于 γ_{ji} 跟新模型參數,其中 l_i 表示第i類(lèi)的有標記樣本的數目

5.png

當參數迭代更新收斂后,對于待預測樣本x,便可以像貝葉斯分類(lèi)器那樣計算出樣本屬于每個(gè)類(lèi)簇的后驗概率,接著(zhù)找出概率最大的即可:

6.png

可以看出:基于生成式模型的方法十分依賴(lài)于對潛在數據分布的假設,即假設的分布要能和真實(shí)分布相吻合,否則利用未標記的樣本數據反倒會(huì )在錯誤的道路上漸行漸遠,從而降低學(xué)習器的泛化性能。因此,此類(lèi)方法要求極強的領(lǐng)域知識和掐指觀(guān)天的本領(lǐng)。

半監督SVM

監督學(xué)習中的SVM試圖找到一個(gè)劃分超平面,使得兩側支持向量之間的間隔最大,即“最大劃分間隔”思想。對于半監督學(xué)習,S3VM則考慮超平面需穿過(guò)數據低密度的區域。TSVM是半監督支持向量機中的最著(zhù)名代表,其核心思想是:嘗試為 未標記樣本找到合適的標記指派,使得超平面劃分后的間隔最大化。TSVM采用局部搜索的策略來(lái)進(jìn)行迭代求解,即首先使用有標記樣本集訓練出一個(gè)初始SVM,接著(zhù)使用該學(xué)習器對未標記樣本進(jìn)行打標,這樣所有樣本都有了標記,并基于這些 有標記的樣本重新訓練SVM,之后再尋找易出錯樣本不斷調整。整個(gè)算法流程如下所示:
7.png

iwJZss.png

基于分歧的方法

基于分歧的方法通過(guò)多個(gè)學(xué)習器之間的分歧(disagreement/多樣性(diversity)來(lái)利用未標記樣本數據,協(xié)同訓練就是其中的一種經(jīng)典方法。協(xié)同訓練最初是針對于多視圖(multi-view)數據而設計的,多視圖數據指的是樣本對象 具有多個(gè)屬性集,每個(gè)屬性集則對應一個(gè)試圖。例如:電影數據中就包含畫(huà)面類(lèi)屬性和聲音類(lèi)屬性,這樣畫(huà)面類(lèi)屬性的集合就對應著(zhù)一個(gè)視圖。首先引入兩個(gè)關(guān)于視圖的重要性質(zhì):

相容性:即使用單個(gè)視圖數據訓練出的學(xué)習器的輸出空間是一致的。例如都是{好,壞}、{+1,-1}等。
互補性:即不同視圖所提供的信息是互補/相輔相成的,實(shí)質(zhì)上這里體現的就是集成學(xué)習的思想。

協(xié)同訓練正是很好地利用了多視圖數據的“相容互補性”,其基本的思想是:首先基于有標記樣本數據在每個(gè)視圖上都訓練一個(gè)初始分類(lèi)器,然后讓每個(gè)分類(lèi)器去挑選分類(lèi)置信度最高的樣本并賦予標記,并將帶有偽標記的樣本數據傳給另一 個(gè)分類(lèi)器去學(xué)習,從而你依我儂/共同進(jìn)步。

iwJVMj.png
iwJeLn.png

半監督聚類(lèi)

前面提到的幾種方法都是借助無(wú)標記樣本數據來(lái)輔助監督學(xué)習的訓練過(guò)程,從而使得學(xué)習更加充分/泛化性能得到提升;半監督聚類(lèi)則是借助已有的監督信息來(lái)輔助聚類(lèi)的過(guò)程。一般而言,監督信息大致有兩種類(lèi)型:

必連與勿連約束:必連指的是兩個(gè)樣本必須在同一個(gè)類(lèi)簇,勿連則是必不在同一個(gè)類(lèi)簇。
標記信息:少量的樣本帶有真實(shí)的標記。

下面主要介紹兩種基于半監督的K-Means聚類(lèi)算法:第一種是數據集包含一些必連與勿連關(guān)系,另外一種則是包含少量帶有標記的樣本。兩種算法的基本思想都十分的簡(jiǎn)單:對于帶有約束關(guān)系的k-均值算法,在迭代過(guò)程中對每個(gè)樣本劃分類(lèi)簇 時(shí),需要檢測當前劃分是否滿(mǎn)足約束關(guān)系,若不滿(mǎn)足則會(huì )將該樣本劃分到距離次小對應的類(lèi)簇中,再繼續檢測是否滿(mǎn)足約束關(guān)系,直到完成所有樣本的劃分。算法流程如下圖所示:

iwJAzQ.png

對于帶有少量標記樣本的k-均值算法,則可以利用這些有標記樣本進(jìn)行類(lèi)中心的指定,同時(shí)在對樣本進(jìn)行劃分時(shí),不需要改變這些有標記樣本的簇隸屬關(guān)系,直接將其劃分到對應類(lèi)簇即可。算法流程如下所示:

iwJkRg.png

參考文獻

機器學(xué)習-周志華



標 題:《半監督學(xué)習
作 者:zeekling
提 示:轉載請注明文章轉載自個(gè)人博客:浪浪山旁那個(gè)村

    評論
    0 評論
avatar

取消
日本乱偷中文字幕,美女脱内衣18禁免费看,亚洲国产精品丝袜在线观看,18女人腿打开无遮挡,廖承宇chinese野战做受