2.大數(shù)據(jù)的特征
國際數(shù)據(jù)公司( IDC)從大數(shù)據(jù)的四大特征來對大數(shù)據(jù)進行定義,即海量的數(shù)據(jù)規(guī)模( Volume),快速的數(shù)據(jù)流轉和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)以及巨大的數(shù)據(jù)價值( Value)。業(yè)界將這四大特征歸納為4個“V”:
1)海量的數(shù)據(jù)規(guī)模( Volume):近些年全球的數(shù)據(jù)量急劇增加,社交網(wǎng)絡、電子商務等將人們帶人了一個以PB為單位的新時代。
2)快速的數(shù)據(jù)流轉和動態(tài)的數(shù)據(jù)體系(Velocity):這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。信息通常具有時效性,所以必須從各種類型的數(shù)據(jù)中快速獲取信息,才能最大化地挖掘利用信息價值。
3)多樣的數(shù)據(jù)類型(Variety):相比較以往便于存儲的以文本為主的結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越多,包括日志、音頻、視頻、點擊流量、圖片、地理位置等,此外,還有一些半結構化數(shù)據(jù),如電子郵件、辦公處理文檔等。
4)巨大的數(shù)據(jù)價值(Value):從大量的數(shù)據(jù)中挖掘發(fā)現(xiàn)具有高價值的信息,例如天氣預測等。這一特征也體現(xiàn)了大數(shù)據(jù)獲取數(shù)據(jù)價值的本質。
此外,在傳統(tǒng)4V特征的基礎上提出了大數(shù)據(jù)體系架構的5V特征。相比較4、,特征,其增加了真實性(Veracity)特征,真實性特性包括了可信性、真?zhèn)涡浴碓春托抛u、有效性和可審計性等子特性。