評估方法詳解
模型評價(jià)是指對于已經(jīng)建立的一個(gè)或多個(gè)模型,根據其模型的類(lèi)別,使用不同的指標評價(jià)其性能優(yōu)劣的過(guò)程。常用的聚類(lèi)模型評價(jià)指標有ARI評價(jià)法(蘭德系數)、AMI評價(jià)法(互信息)、V-measure評分、FMI評價(jià)法和輪廓系數等。常用的分類(lèi)模型評價(jià)指標有準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1 Value)、ROC和AUC等。常用的回歸模型評價(jià)指標有平均絕對誤差、均方根誤差、中值絕對誤差和可解釋方差值等。
留出法
留出法(hold-out)直接將數據集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓練集S,另一個(gè)作為測試集T,即有
建議:
訓練集/測試集:2/3~4/5
交叉驗證法
交叉驗證法(cross validation)先將數據集D劃分為k個(gè)大小相似的互斥子集。即有:
每個(gè)子集Di都盡可能保持數據分布的一致性,即從D中通過(guò)分層采樣得到。然后,每次用k-1個(gè)子集的并集作為訓練集,余下的那個(gè)子集作為測試集,這樣就可以獲得k組訓練/測試集。從而可以進(jìn)行k次訓練與測試,最終返回的是這k個(gè)測試結果的均值。
缺陷:數據集較大時(shí),計算開(kāi)銷(xiāo)。同時(shí)留一法的估計結果也未必比其他評估方法準確。
自助法
簡(jiǎn)單的說(shuō),它從數據集D中每次隨機取出一個(gè)樣本,將其拷貝一份放入新的采樣數據集D′,樣本放回原數據集中,重復這個(gè)過(guò)程m次,就得到了同樣包含m個(gè)樣本的數據集D′,顯然D中會(huì )有一部分數據會(huì )在D′中重復出現。樣本在m次采樣中始終不被采樣到的概率是
,取極限得到:
即通過(guò)自助法,初始數據集中約有36.8%樣本未出現在采樣數據集D′中??蓪′作為訓練集,D\D′作為測試集,(\表示集合的減法)。保證了實(shí)際評估的模型與期望評估的模型都是用m個(gè)訓練樣本,而有數據總量約1/3的、沒(méi)在訓練集中出過(guò)的樣本用于測試,這樣的測試結果,也叫做”包外估計”(out-of-bagestimate).
適用場(chǎng)景
自助法在數據集較小、難以有效劃分訓練/測試集很有用;此外自助法可以從初始數據集中產(chǎn)生多個(gè)不同的訓練集,這對集成學(xué)習等方法有很大好處。
缺點(diǎn)
自助法產(chǎn)生的數據集改變了初始數據集的分布,引入估計偏差。故在數據量足夠時(shí),留出法與交叉驗證更為常用。
性能度量
在預測任務(wù)中,給定樣本集
其中,yi是示例xi的真實(shí)標記?;貧w任務(wù)中最常用的性能度量是均方誤差(mean squeared error),f(x)是機器學(xué)習預測結果
更一般的形式(數據分布D,概率密度函數p(x))
錯誤率和精度
錯誤率的定義:
更一般的定義:
精度的定義:
更一般的定義:
查準率、查全率與F1
下表是二分類(lèi)結果混淆矩陣,將判斷結果分為四個(gè)類(lèi)別,真正例(TP)、假正例(FP)、假反例(FN)、真反例(TN)。
查準率:【真正例樣本數】與【預測結果是正例的樣本數】的比值。
查全率:【真正例樣本數】與【真實(shí)情況是正例的樣本數】的比值。
- 當曲線(xiàn)沒(méi)有交叉的時(shí)候:外側曲線(xiàn)的學(xué)習器性能優(yōu)于內側;
- 當曲線(xiàn)有交叉的時(shí)候:
- 第一種方法是比較曲線(xiàn)下面積,但值不太容易估算;
- 第二種方法是比較兩條曲線(xiàn)的平衡點(diǎn),平衡點(diǎn)是“查準率=查全率”時(shí)的取值,在圖中表示為曲線(xiàn)和對角線(xiàn)的交點(diǎn)。平衡點(diǎn)在外側的
曲線(xiàn)的學(xué)習器性能優(yōu)于內側。 - 第三種方法是F1度量和Fβ度量。F1是基于查準率與查全率的調和平均定義的,Fβ則是加權調和平均。
ROC與AUC
ROC曲線(xiàn)便是從這個(gè)角度出發(fā)來(lái)研究學(xué)習器泛化性能的有力工具。
與P-R曲線(xiàn)使用查準率、查全率為橫縱軸不同,ROC的縱軸是”真正樣例(True Positive Rate,簡(jiǎn)稱(chēng)TPR)”,橫軸是“假正例率(False
Positive Rate,簡(jiǎn)稱(chēng)FPR),兩者分別定義為
顯示ROC的曲線(xiàn)圖稱(chēng)為“ROC圖”
進(jìn)行學(xué)習器比較時(shí),與P-R如相似,若一個(gè)學(xué)習器的ROC曲線(xiàn)被另一個(gè)學(xué)習器的曲線(xiàn)“包住”,則可斷言后者的性能優(yōu)于前者;若兩個(gè)學(xué)習
器的ROC曲線(xiàn)發(fā)生交叉,則難以一般性的斷言?xún)烧呤雰?yōu)孰劣。此時(shí)如果一定要進(jìn)行比較,則較為合理的判斷是比較ROC曲線(xiàn)下的面積,
即AUC(Area Under ROC Curve)。
注意:AUC計算公式?jīng)]看懂
代價(jià)敏感錯誤率與代價(jià)曲線(xiàn)
在現實(shí)任務(wù)中會(huì )遇到這樣的情況:不同類(lèi)型錯誤所造成的后果不同。以二分類(lèi)任務(wù)為例,我們可根據任務(wù)領(lǐng)域知識設定一個(gè)“代價(jià)矩陣”,
如下圖所示,
在非均等代價(jià)下,ROC曲線(xiàn)不能直接反映出學(xué)習器的期望總體代價(jià),而“代價(jià)曲線(xiàn)(cost curve)”則可達到目的。代價(jià)曲線(xiàn)圖的橫軸是取
值為[0,1]的正例概率代價(jià),
縱軸是取值為[0,1]的歸一化代價(jià)
畫(huà)圖表示如下圖所示
