大數據的誕生,引爆了這個時代一場深刻的互聯網革命,其對傳統(tǒng)的互聯網的格局帶來的影響也將是顛覆性的。中培偉業(yè)《大數據分析及可視化技術應用實戰(zhàn)》專家鐘老師指出,大數據之所以能夠產生如此深遠的影響,其中的一個重要原因就是它與傳統(tǒng)數據在價值上存在著明顯的差異。
大數據包括交易數據和交互數據集在內的所有數據集,具體由海量交易數據、海量交互數據和海量處理數據三種主要技術匯聚組成。
海量交易數據指企業(yè)內部的經營交易信息數據,主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態(tài)、歷史數據。通過這些數據,我們能了解過去發(fā)生了什么。
海量交互數據來自社交平臺和門戶網站及其他來源的社交媒體數據。它包括呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數據、通過管理文件傳輸Manage File Transfer協(xié)議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件等。這些數據可以告訴我們未來會發(fā)生什么。
海量數據處理是一種應對復雜、海量數據的能力,大數據的涌現已經催生出了設計用于數據密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的Apache Hadoop,難題在于以具備成本效益的方式快速可靠地從Hadoop中存取數據。
有人說,大數據是對傳統(tǒng)數據的終結和替代。這種觀點并不被學者們普遍接受。但大數據的價值和處理方式的確與傳統(tǒng)數據有很大程度的不同。
在宗旨上,傳統(tǒng)數據處理遵循的是固化業(yè)務優(yōu)于高效,高效優(yōu)于發(fā)現業(yè)務。整體上講這是一種求穩(wěn)策略。而大數據處理卻將傳統(tǒng)方法的順序整體顛倒過來,首先是發(fā)現業(yè)務,其次是高效,最后是固化業(yè)務。
在數據特點上,傳統(tǒng)數據面對的一般是企業(yè)內部數據,數據量一般不會超過10億量級。大數據處理的卻是多樣化的數據,從數據來源上有內部和外部,數據結構上有結構化和非結構化,數據量可處理xPB級。
在技術手段上,傳統(tǒng)數據處理方法使用商務智能的開源RDBMS,昂貴的分析挖掘工具,甚至是商用集群。大數據處理方法則更多的是使用開源技術,更注重數據本身,使用多種技術解決業(yè)務問題。
在場景上,傳統(tǒng)數據主要處理實時、事務性、在線業(yè)務,而大數據則會處理大量的批量數據和少量的在線實時型數據。總而言之,傳統(tǒng)數據是以業(yè)務為中心,大數據則是以數據為中心,數據為業(yè)務服務。