否則標(biāo)記信息直接形成了簇劃分:但也有例外情況,參見(jiàn)13.6節(jié),亦稱(chēng)“有導(dǎo)師學(xué)習(xí)”和“無(wú)導(dǎo)師學(xué)習(xí)”,更確切地說(shuō),是“未見(jiàn)示例”(unseen instance).現(xiàn)實(shí)任務(wù)中樣本空間的規(guī)模通常很大(例如20個(gè)屬性,每個(gè)屬性有10個(gè)可能取值,則樣本空間的規(guī)模已達(dá)1020).(xi,tJi)表示第t個(gè)樣例,其中Yi∈y是示例茁t的標(biāo)記,y是所有標(biāo)記的集合,亦稱(chēng)“標(biāo)記空間”(label space)或“輸出空間”.若我們欲預(yù)測(cè)的是離散值,例如“好瓜”“壞瓜”,此類(lèi)學(xué)習(xí)任務(wù)稱(chēng)為“分類(lèi)”(classification);若欲預(yù)測(cè)的是連續(xù)值,例如西瓜成熟度0.95、0.37,此類(lèi)學(xué)習(xí)任務(wù)稱(chēng)為“回歸”(.regression).對(duì)只涉及兩個(gè)類(lèi)別的“二分類(lèi)”(binary classificatiori)任務(wù),通常稱(chēng)其中一個(gè)類(lèi)為“正類(lèi)”(positive class),另一個(gè)類(lèi)為“反類(lèi)”(negative class);涉及多個(gè)類(lèi)別時(shí),則稱(chēng)為“多分類(lèi)”(multi-class classification)任務(wù),一般地,預(yù)測(cè)任務(wù)是希望通過(guò)對(duì)訓(xùn)練集{(Xl,可1),(x2,Y2),…,(Xm,ym))進(jìn)行學(xué)習(xí),建立一個(gè)從輸入空間石到輸出空間y的映射,:X卜÷y.對(duì)二分類(lèi)任務(wù),通常令y={-1,+1)或{o,1};對(duì)多分類(lèi)任務(wù),lyl>2;對(duì)回歸任務(wù),y=R,I為實(shí)數(shù)集.學(xué)得模型后,使用其進(jìn)行預(yù)測(cè)的過(guò)程稱(chēng)為“測(cè)試”(testing),被預(yù)測(cè)的樣本稱(chēng)為“測(cè)試樣本”(testing sample).例如在學(xué)得,后,對(duì)測(cè)試?yán)蓿傻玫狡漕A(yù)測(cè)標(biāo)記可=,@)我們還可以對(duì)西瓜做“聚類(lèi)”(clustering),即將訓(xùn)練集中的西瓜分成若干組,每組稱(chēng)為一個(gè)“簇”(cluster);這些自動(dòng)形成的簇可能對(duì)應(yīng)一些潛在的概念劃分,例如“淺色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”.這樣的學(xué)習(xí)過(guò)程有助于我們了解數(shù)據(jù)內(nèi)在的規(guī)律,能為更深入地分析數(shù)據(jù)建立基礎(chǔ),需說(shuō)明的是,在聚類(lèi)學(xué)習(xí)中,“淺色瓜”“本地瓜”這樣的概念我們事先是不知道的,而且學(xué)習(xí)過(guò)程中使用的訓(xùn)練樣本通常不擁有標(biāo)記信息。