2.2.2 交叉驗證法
“交叉驗證法”(cross validation)先將數(shù)據(jù)集D劃分為尼、個大小相似的互斥子集,即D= Di u D2 u...U Dk,DinDj=g(t≠j).每個子集Di都盡可能保持數(shù)據(jù)分布的一致性,即從D中通過分層采樣得到.然后,每次用k-l個子集的并集作為訓練集,余下的那個子集作為測試集;這樣就可獲得南組訓練/測試集,從而可進行庇次訓練和測試,最終返回的是這庇個測試結(jié)果的均值,顯然,交叉驗證法評估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于忌的取值,為強調(diào)這一點,通常把交叉驗證法稱為“憊折交叉驗證”(k-fold cross亦稱“忌倍交叉驗證”,’validation).露最常用的取值是10,此時稱為10折交叉驗證;其他常用的忌值有5、20等,圖2.2給出了10折交叉驗證的示意圖.與留出法相似,將數(shù)據(jù)集D劃分為忌個子集同樣存在多種劃分方式.為減小因樣本劃分不同而引入的差別,尼折交叉驗證通常要隨機使用不同的劃分重復p次,最終的評估結(jié)果是這p次后折交叉驗證結(jié)果的均值,例如常見的有"10次10折交叉聰證法。