近年來,“大數據”一直是IT行業的流行語。 大數據在各個行業中的應用已逐漸普及。 那么大數據還能火多久?互聯網是一個神奇的大網絡,大數據開發也是一種模式。大數據又稱海量數據,是指涉及的數據量太大,以至于無法在合理的時間內通過人腦甚至主流軟件工具來捕獲,管理,處理和組織,以幫助企業做得更好。 商業決策。 出于積極目的的信息。
一、數據規模會繼續擴大,大數據將繼續發揚光大
前面已經提到過,大數據已經度過了過高期望的峰值和泡沫化的底谷期,現在正在穩步向前發展。做這樣判斷主要有以下2個原因:
· 上游數據規模會繼續增長,特別是由于IOT技術的發展和成熟,以及未來5G技術的鋪開。在可預測的未來,數據規模仍將繼續快速增長,這是能夠帶動大數據持續穩定向前發展的基本動力。
· 下游數據產業還有很多發展的空間,還有很多數據的價值我們沒有挖掘出來。
雖然現在人工智能,區塊鏈搶去了大數據的風口位置,也許大數據成不了未來的主角,但大數據也絕對不是跑龍套的,大數據仍將扮演一個重要而基礎的角色。可以這么說,只要有數據在,大數據就永遠不會過時。我想在大部分人的有生之年,我們都會見證大數據的持續向上發展。
二、數據的實時性需求將更加突出
之前大數據遇到的最大挑戰在于數據規模大(所以大家會稱之為“大數據”),經過工業界多年的努力和實踐,規模大這個問題基本已經解決了。接下來幾年,更大的挑戰在于速度,也就是實時性。而大數據的實時性并不是指簡單的傳輸數據或者處理數據的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大數據系統的實時性。所以大數據的實時性,包括以下幾個方面:
· 快速獲取和傳輸數據
· 快速計算處理數據
· 實時可視化數據
· 在線機器學習,實時更新機器學習模型
目前以Kafka,Flink為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支持,相信未來在實時可視化數據以及在線機器學習方面會有更多優秀的產品涌現出來。當大數據的實時性增強之后,在數據消費端會產生更多有價值的數據,從而形成一個更高效的數據閉環,促進整個數據流的良性發展。
三、大數據基礎設施往云上遷移勢不可擋
目前IT基礎設施往云上遷移不再是一個大家還需要爭論的問題,這是大勢所趨。當然我這邊說的云并不單單指公有云,也包括私有云,混合云。因為由于每個企業的業務屬性不同,對數據安全性的要求不同,不可能把所有的大數據設施都部署在公有云上,但向云上遷移這是一個未來注定的選擇。目前各大云廠商都提供了各種各樣的大數據產品以滿足各種用戶需求,包括平臺型(PAAS)的EMR,服務型(SAAS)的數據可視化產品等等。
大數據基礎設施的云化對大數據技術和產品產生也有相應的影響。大數據領域的框架和產品將更加CloudNative。
· 計算和存儲的分離。我們知道每個公有云都有自己對應的分布式存儲,比如AWS的S3。S3在一些場合可以替換我們所熟知的HDFS,而且成本更低。而S3的物理存儲并不是在EC2上面,對EC2來說,S3是remotestorage。所以如果你要是AWS上面做大數據開發和應用,而且你的數據是在S3上,那么你就自然而然用到了計算和存儲的分離。
· 擁抱容器,與Kubernate的整合大勢所趨,我們知道在云環境中Kuberneate基本上已經是容器資源調度的標準。
· 更具有彈性(Elastic)。
· 與云上其他產品和服務整合更加緊密。
四、大數據產品全鏈路化
全鏈路化是指提供端到端的全鏈路解決方案,而不是簡單的堆積一些大數據產品組件。以Hadoop為代表的大數據產品一直被人詬病的主要問題就是用戶使用門檻過高,二次開發成本太高。全鏈路化就是為了解決這一問題,用戶需要的并不是Hadoop,Spark,Flink等這些技術,而是要以這些技術為基礎的能解決業務問題的產品。Cloudera的從Edge到AI是我比較認同的方案。大數據的價值并不是數據本身,而是數據背后所隱藏的對業務有影響的信息和知識。
大數據技術就是對最原始的數據進行不斷處理加工提煉,金字塔每上去一層,對應的數據量會越小,同時對業務的影響價值會更大更快。而要從數據(Data)最終提煉出智慧(Wisdom),數據要經過一條很長的數據流鏈路,沒有一套完整的系統保證整條鏈路的高效運轉是很難保證最終從數據中提煉出來有價值的東西的,所以大數據未來產品全鏈路化是另外一個大的趨勢。
五、大數據技術往下游數據消費和應用端轉移
上面講到了大數據的全鏈路發展趨勢,那么這條長長的數據鏈路目前的狀況是如何,未來又會有什么樣的趨勢呢?
我的判斷是未來大數據技術的創新和發力會更多的轉移到下游數據消費和應用端。之前十多年大數據的發展主要集中在底層的框架,比如最開始引領大數據風潮的Hadoop,后來的計算引擎佼佼者Spark,Flink以及消息中間件Kafka,資源調度器Kubernetes等等,每個細分領域都涌現出了一系列優秀的產品。
總的來說,在底層技術框架這塊,大數據領域已經基本打好了基礎,接下來要做的是如何利用這些技術為企業提供最佳用戶體驗的產品,以解決用戶的實際業務問題,或者說未來大數據的側重點將從底層走向上層。之前的大數據創新更偏向于IAAS和PAAS,未來你將看到更多SAAS類型的大數據產品和創新。
六、底層技術的集中化和上層應用的全面開花
學習過大數據的人都會感嘆大數據領域的東西真是多,特別是底層技術,感覺學都學不來。經過多年的廝殺和競爭,很多優秀的產品已經脫穎而出,也有很多產品慢慢走向消亡。比如批處理領域的Spark引擎基本上已經成為批處理領域的佼佼者,傳統的MapReduce除了一些舊有的系統,基本不太可能會開發新的MapReduce應用。
Flink也基本上成為低延遲流處理領域的不二選擇,原有的Storm系統也開始慢慢退出歷史舞臺。同樣Kafka也在消息中間件領域基本上占據了壟斷地位。未來的底層大數據生態圈中將不再有那么多的新的技術和框架,每個細分領域都將優勝劣汰,走向成熟,更加集中化。未來更大的創新將更多來來自上層應用或者全鏈路的整合方面。
在大數據的上層應用方面未來將會迎來有更多的創新和發展,比如基于大數據上的BI產品,AI產品等等,某個垂直領域的大數據應用等等,我相信未來我們會看到更多這方面的創新和發展。
七、開源閉源并駕齊驅
大數據領域并不是只有Hadoop,Spark,Flink等這類大家耳熟能詳的開源產品,還有很多優秀的閉源產品,比如AWS上的Redshift,阿里的MaxCompute等等。這些產品雖然沒有開源產品那么受開發者歡迎,但是他們對于很多非互聯網企業來說是非常受歡迎的。因為對于一個企業來說,采用哪種大數據產品有很多因素需要考慮,是否開源并不是唯一標準。
產品是否穩定,是否有商業公司支持,是否足夠安全,是否能和現有系統整合等等往往是某些企業更需要考慮的東西,而閉源產品往往在這類企業級產品特性上具有優勢。
最近幾年開源產品受公有云的影響非常大,公有云可以無償享受開源的成果,搶走了開源產品背后的商業公司很多市場份額,所以最近很多開源產品背后的商業公司開始改變策略,有些甚至修改了Licence。不過我覺得公有云廠商不會殺死那些開源產品背后的商業公司,否則就是殺雞取卵,殺死開源產品背后的商業公司,其實就是殺死開源產品的最大技術創新者,也就是殺死開源產品本身。我相信開源界和公有云廠商最終會取得一個平衡,開源仍然會是一個主流,仍然會是創新的主力,一些優秀的閉源產品同樣也會占據一定的市場空間。
以上就是關于大數據還能火多久的全部內容,想了解更多關于大數據的信息,請繼續關注中培偉業。