對來自多種來源的數據進行集成一直是個令IT人士頭痛的復雜問題,而如今日益龐大的數據體積與多種多樣的數據類型令其更加難以處理。中培偉業《大數據分析及可視化技術應用實戰》培訓專家謝老師在這里介紹了實現數據集成策略成功的八項關鍵性元素。
數據集成與應用集成
數據集成與應用集成在傳統角度上彼此并無關聯,但如今這一狀況正發生變化。謝老師指出,部分開創性廠商已經開始將數據集成至某些業務流程當中。“大數據處理與內存成本的持續走低使得我們能夠以原始或者近乎原始格式實現數據存儲,并立足于內存之內進行復雜的集成操作這種新型架構將能夠更為順暢地實現數據集成。
應用對數據:哪一方更加權威?
謝老師認為,數據集成與應用集成已經被緊密聯系在一起。而在相關工作當中,企業需要決定哪一方的權威性更高。“二者都在嘗試對數據進行管理,”他在采訪當中表示。“因此必須由決策者判斷二者哪者擁有數據的權威操作能力。”
將數據移動技術視為中間件
有些人認為應當盡可能避免將數據從一套系統遷移至另一套系統。但是隨著大數據技術的出現,數據移動已經變得不可避免。他認為,數據移動相關技術“應作為中間件從全部數據源及數據存儲中解耦出來。”這套方案能夠顯著簡化并加快升級速度。
投資建立現代架構
謝老師表示,企業需要一套現代架構以實施成功的數據集成策略。以往的實踐及架構需要將ETL包含于數據倉庫之內,并將數據存儲于數據湖當中。“如今一大重要變化在于,開源大數據工具開始被廣泛用于立足來源進行大規模數據的快速管理實現數據流正是實現成功數據集成策略的重要組成部分。”
關注安全性
在大數據集成領域,安全性仍是一項非常重要的保障因素。謝老師表示,安全性絕對是Hadoop領域的核心問題,因為Hadoop發布方Cloudera與Hortonworks在其大數據應用安全性方面走出了各自不同的道路。“這種作法并不適合每類用戶,”他指出。這意味著企業需要高度關注自身所使用各類工具的具體安全性問題。
放開管制
謝老師指出,如今IT人士的一大難題在于其需要負責數據基礎設施與數據管理任務,但同時又不再具備完整的控制能力。“數據管理模式將變得五花八門——包括分布式、云端、內部乃至應用當中。要實現數據集成,首先需要將治理模式從管理方案中獨立出來。治理是需要執行的任務,而管理是達成目標的途徑。”
重新審視元數據
元數據如今正得到重新審視,但具體角度則與傳統的靜態數據源與值信息有所區別。新的元數據關注方向包括數據的訪問與使用頻率,這類信息能夠幫助我們了解數據的重要程度。數據是否被用于進行多種不同類型的分析?其屬于監管型、事務型或者操作型?通過這些指標,大家將能夠找到真正需要加以良好治理的關鍵性數據。
關注內容形式與內容偏差
謝老師認為在未來三到五年當中,企業將意識到數據集成與數據分析中存在著固有偏見。“簡單來講,所有數據都包含有創造者的偏見,”他指出所有數據都可從多個角度加以審視,而每個數據點都反映出業務流程設計者的自身意圖,意味著我們不可能真正利用現有數據集成機制進行純粹的客觀分析。