如今全球各地的無數(shù)企業(yè)組織在處理數(shù)據(jù)集,這些數(shù)據(jù)集是如此地龐大而復雜,以至于傳統(tǒng)的數(shù)據(jù)處理應用軟件再也無法支持經(jīng)過優(yōu)化的數(shù)據(jù)分析和洞察力獲取。這是新一批大數(shù)據(jù)應用軟件旨在解決的問題,而Apache軟件基金會(ASF)最近將一批值得關注的開源大數(shù)據(jù)項目升級為Apache頂級項目。這意味著,這些項目將獲得積極的開發(fā)和強有力的社區(qū)支持。
大多數(shù)人已聽說過Apache Spark,這種大數(shù)據(jù)處理框架擁有內置模塊,可用于數(shù)據(jù)流、SQL、機器學習和圖形處理。IBM及其他公司正在往Spark項目投入數(shù)十億美元的開發(fā)資金,美國宇航局和SETI研究所在開展合作,利用Spark的機器學習能力,分析數(shù)TB的復雜的外太空無線信號,搜尋可能表明存在智能外星生命的模式。
然而,另外幾個最近被提升為頂級項目的Apache大數(shù)據(jù)項目同樣值得關注。實際上,其中一些打造的生態(tài)系統(tǒng)在活動和開發(fā)上可與Spark的生態(tài)系統(tǒng)相媲美。本文介紹了你應該知道的幾個Apache大數(shù)據(jù)項目。
下面是六個迅速崛起的項目:
Kylin
Apache最近宣布,Kylin項目這個脫胎于eBay的開源大數(shù)據(jù)項目已被提升為頂級項目。Kylin是一個開源分布式分析引擎,旨在提供一種基于Apache Hadoop的SQL接口和多維分析(OLAP),支持極其龐大的數(shù)據(jù)集。它仍廣泛用于eBay和另外幾家組織。
Apache Kylin副總裁Luke Han說:“Apache Kylin的孵化之旅已證明了開源治理在Apache軟件基金會(ASF)具有的價值,并證明了圍繞該項目打造一個開源社區(qū)和生態(tài)系統(tǒng)的力量。我們的社區(qū)在與世界上最龐大的本地開發(fā)者社區(qū)積極互動,完全依照Apache之道。”
作為一種基于Hadoop的OLAP解決方案,Apache Kylin旨在填補大數(shù)據(jù)探索與人類使用之間的空白,“讓分析員、最終用戶、開發(fā)人員和數(shù)據(jù)愛好者能夠對龐大數(shù)據(jù)集執(zhí)行交互式分析,延遲低于1秒,”據(jù)開發(fā)人員聲稱。他們補充道:“Apache Kylin將商業(yè)智能(BI)帶回給Apache Hadoop,發(fā)掘大數(shù)據(jù)的價值。”
Lens
Apache最近還宣布,Apache Lens這個開源大數(shù)據(jù)和分析工具由Apache孵化器提升為頂級項目(TLP)。據(jù)宣布聲稱:“Apache Lens是一種統(tǒng)一分析平臺。它為統(tǒng)一視圖的分析查詢提供了一種最佳執(zhí)行環(huán)境。Apache Lens旨在通過針對多個分層數(shù)據(jù)存儲系統(tǒng),提供單一的數(shù)據(jù)視圖,從而消除數(shù)據(jù)分析孤島。”
“通過在數(shù)據(jù)基礎上提供一種聯(lián)機分析處理(OLAP)模型,Lens將Apach Hadoop和傳統(tǒng)數(shù)據(jù)倉庫無縫集成起來,好比是一個整體。它還為在系統(tǒng)中運行的查詢提供了查詢歷史記錄和分析統(tǒng)計功能,另外提供了查詢生命周期管理。”
Apache Lens的副總裁Amareshwari Sriramadasu 說:“在ASF孵化Apache Lens是個神奇的經(jīng)歷。Apache Lens著眼于最終用戶,解決了大數(shù)據(jù)分析領域的一個非常關鍵的問題。它讓業(yè)務用戶、分析員、數(shù)據(jù)科學家、開發(fā)人員及其他用戶能夠輕松處理復雜的分析,不需要了解底層的數(shù)據(jù)布局。”
Ignite
Apache軟件基金會還宣布Apache Ingite成為了一個頂級項目。這個開源項目旨在構建一種內存中數(shù)據(jù)架構(in-memory data fabric)。
據(jù)Apache社區(qū)的成員聲稱:“Apache Ignite是一種高性能、集成、分布式的內存中數(shù)據(jù)架構,針對大規(guī)模數(shù)據(jù)集可實現(xiàn)實時計算和處理,速度比基于磁盤或閃存的傳統(tǒng)技術要快幾個數(shù)量級。它旨在可以輕松支持成本合理、基于行業(yè)標準的硬件上的分布式大規(guī)模并行架構中的新舊應用程序。”
Brooklyn
Apache軟件基金會宣布,Apache Brooklyn現(xiàn)在是個頂級項目(TLP),“這標志著該項目的社區(qū)和產(chǎn)品已在該基金會的精英管理流程和原則下得到了妥善治理。”Brooklyn是一種應用程序藍圖和管理平臺,用于跨多個數(shù)據(jù)中心集成服務,并集成云端的眾多軟件。
據(jù)Brooklyn宣布聲稱:“由于現(xiàn)代應用程序由許多組件構成,微服務架構日前受到關注,部署應用程序和已部署應用程序的日常改進成了一個越來越難的問題。Apache Brooklyn的藍圖提供了一種清晰簡潔的方式,可以在部署到公共云或私有基礎設施之前,明確應用程序、組件、配置以及組件之間的關系。基于策略的管理建立在自主計算理論這個基礎上,不斷評估運行中的應用程序,并對它進行改動,讓應用程序保持順暢運行,并且針對成本和響應能力等度量指標進行優(yōu)化。”
Brooklyn現(xiàn)用于一些知名企業(yè)組織。云服務提供商Canopy和Virtustream已開發(fā)了基于Brooklyn的產(chǎn)品。IBM也廣泛使用Apache Brooklyn,以便將大量的工作負載從AWS遷移到IBM Softlayer。
Apex
今年4月份,Apache軟件基金會將Apex項目提升為頂級項目。它號稱是“面向Apache Hadoop生態(tài)系統(tǒng)的一種大規(guī)模、高吞吐量、低延時、容錯、統(tǒng)一的大數(shù)據(jù)數(shù)據(jù)流和批量處理平臺。”Apex可與Apache Hadoop YARN協(xié)同運行,后者是一種適用于Hadoop集群的資源管理平臺。
Tajo
最后,Apache Tajo是需要了解的另一個新的大數(shù)據(jù)項目,這是Apache Hadoop中一個先進的開源數(shù)據(jù)倉庫系統(tǒng)。Apache聲稱,Tajo為Hadoop部署系統(tǒng)、第三方數(shù)據(jù)庫和商用商業(yè)智能工具提供了快速獲取更多信息的功能。
很顯然,雖然Apache Spark吸引了大量眼球,但它不是Apache提供的唯一引人注目的大數(shù)據(jù)工具。今年,Apache可能會將更引人注目的大數(shù)據(jù)項目提升為頂級項目,這些項目將得益于經(jīng)過優(yōu)化的開發(fā)資源及更多優(yōu)勢。