第二章 模型評估與選擇
現(xiàn)實(shí)任務(wù)中通常是利用有限個(gè)測試樣例來繪制ROC圖,此時(shí)僅能獲得有限個(gè)(真正例率,假正例率)坐標(biāo)對,無法產(chǎn)生圖2.4(a)中的光滑ROC曲線,只能基于有限個(gè)測試樣例篆繪制出如圖2.4(b)所示的近似ROC曲線.繪圖過程很簡單:給定m+個(gè)正例和制P-R圖時(shí)有同樣問題本書到這里才介紹近似曲 m一個(gè)反例,根據(jù)學(xué)習(xí)器預(yù)測結(jié)果對樣例進(jìn)行排序,然后把分類閾值設(shè)為最大,線的繪制.是為了便于下 即把所有樣例均預(yù)測為反例,此時(shí)真正例率和假正例率均為0,在坐標(biāo)(0,0)處面介紹AUC的計(jì)算,標(biāo)記一個(gè)點(diǎn).然后,將分類閾值依次設(shè)為每個(gè)樣例的預(yù)測值,即依次將每個(gè)樣例劃分為正例.設(shè)前一個(gè)標(biāo)記點(diǎn)坐標(biāo)為(z,可),當(dāng)前若為真正例,則對應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(z,可十嘉);當(dāng)前若為假正例,則對應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(茁+ml-,可),然后用線段連接相鄰點(diǎn)即得,進(jìn)行學(xué)習(xí)器的比較時(shí),與P-R圖相似,若一個(gè)學(xué)習(xí)器的ROC曲線被另一個(gè)學(xué)習(xí)器的曲線完全“包住”,則可斷言后者的性能優(yōu)于前者;若兩個(gè)學(xué)習(xí)器的ROC曲線發(fā)生交叉,則難以一般性地?cái)嘌詢烧呤雰?yōu)孰劣.此時(shí)如果一定要進(jìn)行比較,則較為合理的判據(jù)是比較ROC曲線下的面積,即AUC (Area UnderROC Curve),如圖2.4所示.從定義可知,AUC可通過對ROC曲線下各部分的面積求和而得.假定ROC曲線是由坐標(biāo)為{(Xl,可1),(X2,Y2),…,(Xm,Ym)].的點(diǎn)按序連接而形成(Xl=0,Xm=1)。