2.4.1假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)中的“假設(shè)”是對(duì)學(xué)習(xí)器泛化錯(cuò)誤率分布的某種判斷或猜想,例如“E=Eo”.現(xiàn)實(shí)任務(wù)中我們并不知道學(xué)習(xí)器的泛化錯(cuò)誤率,只能獲知其測(cè)試錯(cuò)誤率£,泛化錯(cuò)誤率與測(cè)試錯(cuò)誤率未必相同,但直觀上,二者接近的可能性應(yīng)比較大,相差很遠(yuǎn)的可能陛比較小,因此,可根據(jù)測(cè)試錯(cuò)誤率估推出泛化錯(cuò)誤率的分布.泛化錯(cuò)誤率為E的學(xué)習(xí)器在一個(gè)樣本上犯錯(cuò)的概率是e;測(cè)試錯(cuò)誤率∈意味著在m個(gè)測(cè)試樣本中恰有£×m個(gè)被誤分類.假定測(cè)試樣本是從樣本總體分布中獨(dú)立采樣而得,那么泛化錯(cuò)誤率為E的學(xué)習(xí)器將其中m'個(gè)樣本誤分類、其余樣本全都分類正確的概率是(品)e…7(1一e)”-m' .由此可估算出其恰將e×m個(gè)樣本誤分類的概率如下式所示,這也表達(dá)了在包含m個(gè)樣本的測(cè)試集上,泛化錯(cuò)誤率為e的學(xué)習(xí)器被測(cè)得測(cè)試錯(cuò)誤率為e的概率: 我們可使用“二項(xiàng)檢驗(yàn)”(binomial test)來(lái)對(duì)“E≤0.3”(即“泛化錯(cuò)誤率是否不大于0.3”)這樣的假設(shè)進(jìn)行檢驗(yàn).更一般的,考慮假設(shè)“e≤Eo”,則在l-a的概率內(nèi)所能觀測(cè)到的最大錯(cuò)誤率如下式計(jì)算.這里l-a反映了結(jié)論的“置信度”(confidence),直觀地來(lái)看,相應(yīng)于圖2.6中非陰影部分的范圍。