第1章緒 論有時整個數據集亦稱一個“樣本”,因為它可看作對樣本空間的一個采樣:
通過上下文可判斷出“樣本”是指單個示例還是數據集.訓練樣本亦稱“訓練示例”(training instance)或“訓練例”,學習算法通常有參數需設置,使用不同的參數值和(或)訓練數據,將產生不同的結果,將“la bel”譯為“標記”而非“標簽”,是考慮到英文中“label”既可用作名詞、也可用作動詞.1.2基本術語要進行機器學習,先要有數據.假定我們收集了一批關于西瓜的數據,例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響),(色澤=烏黑;根蒂=稍蜷;敲聲:沉悶),(色澤=淺白;根蒂=硬挺;敲聲=清脆),……,每對括號內是一條記錄,“=”意思是“取值為”,這組記錄的集合稱為一個“數據集”(data set),其中每條記錄是關于一個事件或對象(這里是一個西瓜)的描述,稱為一個“示例”(instance)或“樣本”(sample).反映事件或對象在某方面的表現或性質的事項,例如“色澤”“根蒂”“敲聲”,稱為“屬性”(attribute)或“特征”(feature);屬性上的取值,例如“青綠”“烏黑”,稱為“屬性值”(attribute value).屬性張成的空間稱為“屬性空間”(attribute space)、“樣本空間”(sample space)或“輸入空間”,例如我們把“色澤”“根蒂”“敲聲”作為三個坐標軸,則它們張成一個用于描述西瓜的三維空間,每個西瓜都可在這個空間中找到自己的坐標位置,由于空間中的每個點對應一個坐標向量,因此我們也把一個示例稱為一個“特征向量”(feature vector).