欧美麻豆久久久久久中文_成年免费观看_男人天堂亚洲成人_中国一级片_动漫黄网站免费永久在线观看_国产精品自产av一区二区三区

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 大數據 > 10大常見的Hadoop應用誤解和更正

10大常見的Hadoop應用誤解和更正

2016-09-21 17:10:28 | 來源:中培企業IT培訓網
Hadoop作為大數據常用的架構,其發展目前可以說方興未艾。其很多價值有待人們進一步挖掘,甚至很多人在認識Hadoop的過程中對其產生了誤解。中培偉業《大數據Hadoop與Spark》專家蔣老師在這里就10大最常見的Hadoop應用誤解進行了介紹,并做出了更正解釋,希望能對廣大大數據應用者正確認識Hadoop帶來幫助。1. (誤解)Hadoop什么都可以做(正解) 當一個新技術出來時,我們都會去思考它在各個不同產業的應用,而對于平臺的新技術來說,我們思考之后常會出現這樣的結論“這個好像什么都能做”,然而,更深入的去想,你就會發現“好像什么都需要重頭做”。2. (誤解)Hadoop無法扮演HPC (High Performance Computing) or Grid Computing的角色(正解) 由于Hadoop本身是由并行運算架構(MapReduce)與分布式文件系統(HDFS)所組成,所以我們也看到很多研究機構或教育單位,開始嘗試把部分原本執行在HPC 或Grid上面的任務,部分移植到Hadoop集群上面,利用Hadoop兼顧高速運算與海量儲存的特性,更簡易且更有效率地來執行工作。目前國外高能物理、生命科學、醫學等領域,都已經有這樣的應用案例,利用Hadoop集群與現有的HPC/Grid 搭配、協同運作,來滿足不同特性的運算任務。3. (誤解) Hadoop只能做資料分析/挖掘(Data Mining/Analyst)(正解) Hadoop特別適合來數據分析與挖掘的應用是毫無疑問的,但數據分析與挖掘是難度與深度都較高的一個應用,所需要的時間的積累也比較長,也因此讓一般企業對于導入Hadoop視為畏途,甚至心懷恐懼。4. (誤解) Hadoop就是BI (Business Intelligence)商業智能(正解) 跟前面一樣,這也是大多數人最容易誤解的地方,因為Hadoop特別適合來做數據分析,所以就很直覺地把它想成“那就是BI嘛”。會有這種誤解,主要來自于對數據運用的整體架構的不清楚。傳統BI是屬于數據展現層(Data Presentation),其數據的載體(Data Store)是數據庫或數據倉庫。對比來看,Hadoop就是專注在半結構化、非結構化數據的數據載體,跟BI是不同層次的概念。5. (誤解) Hadoop就是ETL (Extract, Transform & Load) (正解) ETL其實有兩種意涵,它本身是一個概念,也同時是一個產品類別(Product Category)的總稱。所以當我們聽到“某某公司是做ETL產品的”的這種對話時,其中的ETL,與DB、Application Server等名詞是相同的,都是指向某種類別的IT產品。然而,如果就概念性上來看,ETL指的其實是數據運用的生命周期中的其中一個過程,跟我前面提到的數據預處理(Data pre-Processing)是同樣一個概念,舉凡數據清洗(Data Cleansing)、數據關聯、數據匯總等,都包含在這個范疇內。6. (誤解) Hadoop跟傳統storage沒什么差別, 都特別適合來做資料的備份(Data Archive) (正解) 熟悉storage的人,第一次看到Hadoop時,往往只會注意到它的分布式文件系統HDFS,然后開始拿它來與現有的storage的功能特性做比較,而忽略掉Hadoop本身并行運算的那一塊。這很合理,畢竟MapReduce的概念,在應用上是比較抽象且難以捉摸的,相反的,HDFS就是一個很清楚且具象的概念。7. (誤解) Hadoop是一個搜索引擎(Search Engine)(正解) Search 的確是Hadoop的一個重要的應用,但Hadoop本身并沒有內含search engine。實務上,我們常會把HBase 的index設計運用到極致,來滿足一些特定search 或query的應用,但如果要滿足全文檢索(full-text search)的需求的話,你就必須在Hadoop上建構一個基于Hadoop的搜索引擎。Lucene / Katta 及其他的open source都有相對應的計劃,如何借助Hadoop的特性,來實現一個強大的分布式搜索引擎,這也是我們一直密切注意、且已放進未來產品的藍圖之中的重要話題。8. (誤解) 基于Hadoop的推薦系統與傳統的推薦系統并無不同 (正解) 傳統的推薦系統只處理客戶的事務數據(transaction data),大多用的是數據倉庫或商業智能等解決方案,然而,除了客戶的事務數據之外,是否也有可能針對客戶交易前的行為進行分析、進而產生推薦? 特別是對電子商務網站來說,客戶在完成購買前的點擊瀏覽、搜尋、及放進購物車等行為,都包含了豐富的訊息,可以藉此很容易去導引出客戶想要尋找什么樣的商品,所以,如果在產生推薦過程中可以把這些訊息都納進來,則所產生推薦的精準度與豐富度必然可以大為提高。 這正是新一代的推薦系統會面臨到的挑戰: 如何在事務數據(Transaction Data) 之外,同時也可以把客戶的互動數據(Interaction Data) 含括進來? 由于客戶互動數據的型態與事務數據間有極大的差異,其數量級更是遠遠大于事務數據量,運算頻率更是有極高的要求,也因此都遠超過現有數據庫或數據倉儲的能力,而這正是Hadoop所擅長,可以輕易拓展傳統機器學習(Machine Learning) 算法分析大量數據集(Large Datasets) 的能力,并同時具備橫向擴充(Scale-out) 的能力,可隨著數據集的成長輕易擴充,無論多大的數據都可輕易勝任。9. (誤解) Hadoop不適合用來處理小檔案的應用 (正解) 對Hadoop稍微有點了解的人,都會知道HDFS的block size的default 值為64MB,且不建議往下調,因為HDFS當初在設計時,并不是針對碎片般的小檔案的處理而來的。所以當我們說Hadoop不適合用來處理小檔案的應用時,就技術上來說是對的,但在實際運用上,卻可以有不同的做法來滿足海量小檔案管理的需求。10. (誤解) Hadoop不適合用來做日志管理(Log Management)的應用 (正解) 當每天的日志量成長到一定的程度,現有的日志管理工具都會遇到瓶頸,所以一些國外的日志管理工具(如Splunk、ArcSight)都已經發布了其Hadoop Connector,強調其與Hadoop的聯系性與兼容性。所以,如果客戶對日志管理的需求只是保存日志、并可以隨時對日志搜索的話,那Hadoop本身即可以滿足這樣的應用,而對于比較復雜的日志管理且日志量非常大的需求,客戶也可以從現有的日志管理工具中來挑選,并與Hadoop來搭配協同運作。
標簽: 大數據架構
主站蜘蛛池模板: 巨爆乳无码视频在线观看 | 四虎影视久久久免费 | 无码高潮又爽又黄A片 | 伦流澡到高潮hnp | 亚洲精品一区二区三区精品 | 国产三级无码内射在线看 | 色五月五月丁香亚洲综合网 | 人妻系列综合第一页 | 亚洲欧美一区二区三区综合 | 久久久久无码精品亚洲日韩 | 色欲色av免费观看 | 国产毛片高清 | 免费午夜无码片在线观看影院 | 四虎国产精品永久免费网址 | 无码任你躁久久久久久老妇 | 小蜜被两老头吸奶头在线观看 | 无码国产玉足脚交极品网站 | 办公室艳妇潮喷视频 | 国产又黄又猛又粗又爽的A片漫 | 国产精品手机免费 | 亚洲人成人77777网站 | 国产欧美另类久久精品蜜芽 | 亚洲AV无码片在线观看 | 免费无码鲁丝片一区二区 | 两个人看的www免费视频中文 | 欧美孕交videosfree黑人巨大 | 在线麻豆视频 | 色综网 | 亚洲浮力影院久久久久久 | 最近2018免费中文字幕4 | 久久日韩乱码一二三四区别 | 色偷偷AV老熟女 | 国产高清欧美情侣视频 | 夜夜高潮夜夜爽高清视频一 | 免费少妇荡乳情欲视频 | 中国XXXXXL19免费视频 | 人人妻人人做人人爽夜欢视频 | 国产a在亚洲线播放 | httpwww色午夜com日本 | 中文字幕无码久久一区 | 少妇被躁爽到高潮 |