例如在上面的例子中,可以把D中的樣本排序,然后把前350個正例放到訓練集中,也可以把最后350個正例放到訓練集中,……這些不同的劃分將導致不同的訓練/測試集,相應的,模型評估的結果也會有差別,因此,單次使用留出法得到的估計結果往往不夠穩定可靠,在使用留出法時,一般要采用若干次隨機劃分、重復進行實驗評估后取平均值作為留出法的評估結果,例如進行100次隨機劃分,每次產生一個訓練/測試集用于實驗評估,100次后就得到100個結果,而留出法返回的則是這100個結果的平均.此外,我們希望評估的是用D訓練出的模型的性能,但留出法需劃分訓練/測試集,這就會導致一個窘境:若令訓練集S包含絕大多數樣本,則訓練出的模型可能更接近于用D訓練出的模型,但由于T比較小,評估結果可能不夠穩定準確;若令測試集T多包含一些樣本,則訓練集S與D差別更大了,被評估的模型與用D訓練出的模型相比可能有較大差別,從而降低了評估結果的保真性(fidelity).這個問題沒有完美的解決方案,常見做法是將大約2/3~4/5的樣本用于訓練,剩余樣本用于測試.?