需注意的是,訓練/測試集的劃分要盡可能保持數據分布的一致性,避免因數據劃分過程引入額外的偏差而對最終結果產生影響,例如在分類任務中至少要保持樣本的類別比例相似.如果從采樣(sampling)的角度來看待數據集的劃分過程,則保留類別比例的采樣方式通常稱為“分層采樣”(stratifiedsampling).例如通過對D進行分層采樣而獲得含70070樣本的訓練集S和含30070樣本的測試集T,若D包含500個正例、500個反例,則分層采樣得到的S應包含350個正例、350個反例,而T則包含150個正例和150個反例;若S、T中樣本類別比例差別很大,則誤差估計將由于訓練/測試數據分布的差異而產生偏差,另一個需注意的問題是,即便在給定訓練/測試集的樣本比例后,仍存在多種劃分方式對初始數據集D進行分割.