如果提到“大數據”,你會想到什么?也許大部分人會聯想到有多少人使用運動APP進行鍛煉?女生喜歡什么樣的口紅?中國網民有多少人?……
可以說,過去數據被認為是冰冷的數字,只要求提供一些事實數據,而如今大數據的深度和廣度遠不止這些,大數據已經在人類社會實踐中發揮著巨大的優勢,其利用價值也超出我們的想象。
但大數據的本質還是數據,只不過在處理量、速度要求、處理效率等方面,傳統工具無法滿足,那么就需要用大數據的一系列工具來解決。
華永道移動數據和分析計劃首席技術官Ritesh Ramesh說:“數據學習工具是客戶進行數據質量和性能分析的工具包中的重要工具,可處理5000萬行數據,以發現洞察力”?,F如今頂級的大數據工具包括:Cloudera、MongoDB、OpenRefine、DataCleaner、RapidMiner、Tableau等。
通過這些工具,使得大數據更能廣泛地應用于各個場景,比如說:了解和優化業務流程、微博等社交網絡的數據分析運用、電子商務中的數據分析推薦、搜索引擎中的數據分析處理等等。大數據應用為何如此廣泛?我們再看看以下4個技術特征就知道原因了!
大數據的技術特征我們可以用4個“V”來表示。
首先第一個“V”(Volume)是指數據體量巨大,從TB級到PB級。對于傳統企業來講,不一定能達到PB級別。但面向終端用戶的一般互聯網行業公司是可能達到PB級別的,倘若數據體量達到十幾TB甚至幾十TB時,還是需要大數據技術進行處理。
第二個“V”(Velocity)是指速度,這里指數據的產生速度快,處理速度快。在實時計算、流計算的場景下,我們要求大數據本身對于數據的處理速度要快,因為從傳感器,或者是用戶在前端的一些點擊行為,這些操作都會在短時間內產生大量數據。因此就要求大數據系統、大數據工具對數據的處理速度要能跟上其產生的速度。
第三個“V”(Variety)是指數據類型,數據類型在大數據的場景下是繁多的,所處理的數據一般都是半結構化,甚至是非結構化的。比如日志、視頻、圖片、地理位置信息等,就要求大數據的一些處理系統、處理技術能夠對半結構化數據和非結構化數據進行相應的處理。
第四個“V”(Value)是指價值,高價值總量,低價值密度。也就是說,在大數據的場景下,若能對大數據進行全量分析,那么其價值總量是巨大的。當然大數據本身是要求對數據做全量分析,因此如果只是對其中一部分數據做分析的話,那么其價值密度相對來講是較低的。
針對大數據以上四個特征,我們對大數據的思維有所了解后,對于是否適合建造項目也就有了明確的判斷。
那么,有人會問:建設大數據項目的必備條件是什么呢?請聽下回分解。
——未完待續——