現(xiàn)在科技信息發(fā)展越來越快,伴隨而來的大量數(shù)據(jù)分析與處理。如果企業(yè)想在市場中占據(jù)核心競爭力,除了保證自身運(yùn)作的正常外,對(duì)于大數(shù)據(jù)分析的也應(yīng)了如指掌。現(xiàn)在很多行業(yè)都離不開大數(shù)據(jù)分析,他們?yōu)榱四軌蚍治瞿硞€(gè)數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù),要求數(shù)據(jù)分析員必須精通某種SQL方言,這樣才能將不同的數(shù)據(jù)源連接到不同的客戶機(jī),各種各樣的數(shù)據(jù)管理系統(tǒng)也給企業(yè)帶來了便捷,但同時(shí)也會(huì)出現(xiàn)一部分的問題,要知道ETL過程對(duì)于數(shù)據(jù)倉庫來說也是非常費(fèi)時(shí)的,現(xiàn)在讓我們具體來看看。
無論P(yáng)ostgreSQL還是MySQL,Hadoop系統(tǒng)下的Hive或HBase,當(dāng)前行業(yè)內(nèi)通用的數(shù)據(jù)管理系統(tǒng)都具有自己的SQL標(biāo)準(zhǔn)集。為了能夠分析某個(gè)數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù),數(shù)據(jù)分析員必須精通某種SQL方言,以便將不同的數(shù)據(jù)源連接到不同的客戶機(jī)。
為解決數(shù)據(jù)孤島型數(shù)據(jù)源聯(lián)合查詢問題,數(shù)據(jù)倉庫解決方案在業(yè)界得到廣泛應(yīng)用。在過去的幾年里數(shù)據(jù)倉庫發(fā)展迅速。將處理過的數(shù)據(jù)集中存儲(chǔ)在)、轉(zhuǎn)換(Transform)、裝載(Load)等方式,將處理過的數(shù)據(jù)集中存儲(chǔ)在專門的數(shù)據(jù)倉庫中,供數(shù)據(jù)分析師或用戶使用。
但隨著數(shù)據(jù)規(guī)模的進(jìn)一步擴(kuò)大,必須指出的是,業(yè)界已逐漸認(rèn)識(shí)到將數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)倉庫的代價(jià)高昂。除數(shù)據(jù)倉庫的硬件或軟件成本外,ETL邏輯系統(tǒng)的維護(hù)和升級(jí)所需的人力成本也逐漸成為數(shù)據(jù)倉庫的重要成本之一。
ETL過程對(duì)于數(shù)據(jù)倉庫來說也是非常費(fèi)時(shí)的。為獲得所需數(shù)據(jù),數(shù)據(jù)分析師或用戶不能與數(shù)據(jù)倉庫的數(shù)據(jù)分析模式T+1妥協(xié),業(yè)務(wù)分析師的困難問題需要快速解決。
為解決各種數(shù)據(jù)管理系統(tǒng)中的數(shù)據(jù)孤島問題,出現(xiàn)了針對(duì)不同業(yè)務(wù)應(yīng)用提出的專題數(shù)據(jù)倉庫,但隨著業(yè)務(wù)應(yīng)用的不斷增多,越來越多的專題數(shù)據(jù)倉庫出現(xiàn)了數(shù)據(jù)孤島現(xiàn)象。
以上我們介紹了大數(shù)據(jù)分析的相關(guān)介紹了,或許現(xiàn)在是時(shí)候回到最初一下當(dāng)初的起點(diǎn),重新審視一下另一種大規(guī)模數(shù)據(jù)分析模式,但是大數(shù)據(jù)的未來發(fā)展還是被很多人看好。如果您想了解更多相關(guān)信息,請(qǐng)您及時(shí)關(guān)注中培偉業(yè)。