回顧前面介紹的一些性能度量可看出,它們大都隱式地假設(shè)了均等代價(jià),例如式(2.4)所定義的錯(cuò)誤率是直接計(jì)算“錯(cuò)誤次數(shù)”,并沒(méi)有考慮不同錯(cuò)誤會(huì)造成不同的后果.在非均等代價(jià)下,我們所希望的不再是簡(jiǎn)單地最小化錯(cuò)誤次數(shù),而是希望最小化,總體代價(jià)”(total cost).若將表2.2中的第0類(lèi)作為正類(lèi)、第1類(lèi)作為反類(lèi),令D+與D-分別代表樣例集D的正例子集和反例子集,則“代價(jià)敏感”(cost-sensitive)錯(cuò)誤率為 類(lèi)似的,可給出基于分布定義的代價(jià)敏感錯(cuò)誤率,以及其他一些性能度量如精度的代價(jià)敏感版本.若令costij中的t、J取值不限于0、1,則可定義出多分類(lèi)任務(wù)的代價(jià)敏感性能度量,在非均等代價(jià)下,ROC曲線(xiàn)不能直接反映出學(xué)習(xí)器的期望總體代價(jià),而“代價(jià)曲線(xiàn)”(cost curve)則可達(dá)到該目的,代價(jià)曲線(xiàn)圖的橫軸是取值為[0,1]的正例概率代價(jià),其中FPR是式f2.19)定義的假正例率,F(xiàn)NR=1- TPR是假反例率.代價(jià)曲線(xiàn)的繪制很簡(jiǎn)單:ROC曲線(xiàn)上每一點(diǎn)對(duì)應(yīng)了代價(jià)平面上的一條線(xiàn)段,設(shè)ROC曲線(xiàn)上點(diǎn)的坐標(biāo)為(FPR,TPR),則可相應(yīng)計(jì)算出FNR,然后在代價(jià)平面上繪制一條從(0,F(xiàn)PR)到(1,F(xiàn)NR)的線(xiàn)段,線(xiàn)段下的面積即表示了該條件下的期望總體代價(jià);
想了解更多IT資訊,請(qǐng)?jiān)L問(wèn)中培偉業(yè)官網(wǎng):中培偉業(yè)