隨著大數據重要性的日益提高,數據處理的挑戰變得尤為突出。其中,數據處理對于所有數據系統都是必不可少的。在數據處理系統中,數據源是多種多樣的,并且數據量很大。如何確保數據處理的可靠性和如何避免重復數據,以及如何確保數據質量,這就需要數據處理系統需要一定的技術。那么大數據處理系統需要攻克的技術點有哪些?
現有的大數據處理系統可以分為兩類:批處理大數據系統與流處理大數據系統。以Hadoop為代表的批處理大數據系統需先將數據匯聚成批,經批量預處理后加載至分析型數據倉庫中,以進行高性能實時查詢。這類系統雖然可對完整大數據集實現高效的即席查詢,但無法查詢到最新的實時數據,存在數據遲滯高等問題。
相較于批處理大數據系統,以Spark Streaming、Storm、Flink為代表的流處理大數據系統將實時數據通過流處理,逐條加載至高性能內存數據庫中進行查詢。此類系統可以對最新實時數據實現高效預設分析處理模型的查詢,數據遲滯低。然而受限于內存容量,系統需丟棄原始歷史數據,無法在完整大數據集上支持Ad-Hoc查詢分析處理。因此,研發具有快速、高效、智能且自主可控特點的流式大數據實時處理技術與平臺是當務之急。
大數據處理系統需要攻克的技術點有哪些?
實現一個融合批處理和流處理兩類系統且對應用透明的系統級方案,需要攻克以下幾個技術難點。
1.復雜指標的增量計算
盡管計數、求和、平均等指標能夠依靠查詢結果合并實現,然而方差、標準差、熵等大部分復雜指標無法依靠簡單合并完成查詢結果的融合。再者,當查詢涉及熱點數據維度及長周期時間窗口的復雜指標時,多次重新計算會帶來巨大的計算開銷。
2.基于分布式內存的并行計算
采用粗放的調度策略會造成內存資源的極大浪費,亟須研究實現一種細粒度的基于進度實時感知的融合存儲策略,以極大地優化和提升融合系統的內存使用效率。
3.多尺度時間窗口漂移的動態數據處理
來自業務系統的數據查詢請求會涉及多種尺度的時間窗口,如“最近5筆刷卡交易的金額”“最近10 min內密碼重試次數”“過去10年的月均交易額”等。每次查詢請求都重新計算結果會對系統性能造成極大的影響,亟須研究實現一種支持多種時間窗口尺度、多種窗口漂移方式的動態數據實時處理方法,以快速響應來自業務系統的即席查詢請求。
4.高可用、高可擴展的內存計算
基于內存介質能夠大大提升數據分析及處理能力,然而由于其易揮發的特性,一般需要采用多副本的方式來實現基于內存的高可用方案,這使得“如何確保不同副本的一致性”成為一個待解決的問題。此外,在集群內存不足或者部分節點失效時,“如何讓集群在不間斷提供服務的同時重新平衡”同樣是一個待解決的技術難題。亟須研究分布式多副本一致性協議以及自平衡的智能分區算法,以進一步提升流處理集群的可用性以及可擴展性。
“流立方”流式大數據實時處理技術在上述領域取得了一系列突破,該技術提供基于時間窗口漂移的動態數據快速處理,支持計數、求和、平均、最大、最小、方差、標準差、K階中心矩、遞增/遞減、最大連續遞增/遞減、唯一性判別、采集、過濾等多種分布式統計計算模型,并且實現了復雜事件、上下文處理等實時分析處理模型集的高效管理技術。
上述就是關于大數據處理系統需要攻克的技術點有哪些的全部內容介紹,想了解更多關于大數據的信息,請繼續關注中培偉業。