欧美麻豆久久久久久中文_成年免费观看_男人天堂亚洲成人_中国一级片_动漫黄网站免费永久在线观看_国产精品自产av一区二区三区

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 精選文章 > 數據科學家和大數據工程師的基本架構

數據科學家和大數據工程師的基本架構

2020-08-12 17:47:26 | 來源:中培企業IT培訓網

功能存儲已成為組織跨任何行業領域開發預測服務的重要單位。大規模部署ML解決方案時遇到的一些早期挑戰包括:由個別團隊在很少或根本沒有協調的情況下開發和維護定制系統;沒有用于共享相似類型ML模型的功能共享的協作系統;沒有適當的可擴展范圍,會增加認知負擔;與大數據生態系統的有限集成;模型再培訓,比較,模型治理和可追溯性的范圍有限,從而限制了敏捷開發生命周期;難以展示季節性的t型貨架和再培訓模型。

為了克服以上限制,建筑師。數據科學家,大數據和分析專家認為,有必要采用一個統一的框架在一個屋頂下行走,以促進更輕松的協作,數據,結果,報告的共享。

部門,團隊和組織共享功能工程的一些相似概念:

·特征工程非常昂貴,并且隨著時間的推移和模型之間的攤銷會發生

·隨著特征數量的增加,成本的增加是非線性的/指數的

·由于添加/刪除功能而導致的觸發器/警報很高

·大多數情況下,沒有記錄/跟蹤依賴項,這導致隨著時間的推移增加了隱式和顯式依賴項的增加

在分享相似觀點的同時,聚在一起創建名為FeatureStore的統一框架變得更加容易。這將加快ML模型部署生命周期的速度,并創建適當的文檔,所需的版本分析和模型性能,以節省時間和精力。

在此,我們重點介紹了由不同的FeatureStore框架支持的功能,這些框架主要由不同的領先行業巨頭開發。

  特色商店的優勢

·能夠重用和發現組織中各個團隊之間的功能

·特點應該管轄加入類似的功能的訪問控制和版本

·能夠進行預先計算和自動回填的功能-包括在線計算和離線聚合

·幫助在數據科學家和大數據工程師之間創建協作環境

·通過不僅共享功能,而且還共享從這些功能開發的模型的相關工件,文檔和營銷見解,從而節省了工作量和成本

·使培訓和服務之間保持一致

Michaelangelo-由Uber開發的框架,允許在離線和在線管道中進行功能集成/合并。在此,Hive和Cassandra充當原始/轉換要素的主要存儲單元。它為具有適當縮放和監視功能的多個模型提供了可水平擴展的多租戶架構。可以通過Jupyter筆記本通過WebUI或API配置和管理培訓作業。

它還提供了用于定義分層分區方案的選項,以訓練每個分區的模型,可以將其部署為單個邏輯模型。當需要基于數據的層次結構來訓練幾個模型時,這提供了容易的引導,并有助于克服挑戰。

在服務期間的運行時,它將為每個節點找到最佳模型的根。以支持持續學習,與AutoML集成以及支持分布式深度學習的能力而聞名。

  盛宴特色商店

Google發布了Feast,它主要圍繞GoogleCloud服務構建:BigQuery和BigTable和Redis,而ApacheBeam用于功能工程。它可以將大數據與模型開發區分開來。這種在線預測服務允許團隊之間共享功能,并在模型訓練和服務之間保持高度一致性。

進一步的盛宴帶有集中式功能管理,發現,功能驗證和功能聚合。功能列位于寬實體表內。此外,復合實體將各個要素分開。

  Wix功能商店

Wix為批處理和實時數據集提供了跨不同ML模型進行特征共享的平臺。它支持在站點和用戶級別上針對培訓和服務模型預先配置的一組功能族。上圖中標記并顯示了數據管理,模型訓練和部署的不同階段。它還使用S3存儲實時提取的特征。

  Comcast的FeatureStore

由Comcast開發的FeatureStore幫助數據科學家重用版本化的功能,在線實時/流式傳輸數據以及按模型查看功能指標。該產品可在多個可插拔功能存儲組件中使用。內置的模型存儲庫包含與數據預處理規范化,縮放相關的工件,這些工件顯示所需的映射到執行模型所需的功能。此外,該架構是在Alluxio上使用Spark構建的開源數據編排層,使數據接近計算,適用于云中的大數據和AI/ML工作負載,S3,HDFS,RDBMS,Kafka,Kinesis。使用Kubeflow進行模型部署通過支持速率限制,影子部署和自動縮放,有助于構建彈性,高可用性的分布式系統。

與具有適當API的DataLake集成有助于數據科學家使用SQL并創建可以版本化并集成到完整模型管道中的培訓/驗證/測試數據集。此外,該框架還附帶了用于A/B測試,合奏,多臂土匪,自定義組合的Seldon推理圖的支持。端到端系統不僅提供了從用例,模型,特征,模型到特征映射,版本化數據集,模型訓練代碼庫,模型部署容器以及預測/結果接收器的可追溯性,而且還與Feature-Store集成,容器存儲庫和Git,以集成數據,代碼和運行時工件以實現CI/CD集成。

與其他任何體系結構一樣,它在流數據和按需功能上具有連續的功能聚合。在線功能商店在給出預測之前使用以下順序:

·有效載荷僅包含型號名稱和賬號

·模型元數據可告知模型需要哪些功能

·按賬號要求的功能拉取

·傳遞全套組合特征以執行模型

HopWorksEnterpriseEdition是一個多租戶架構,集成了AWSSagemaker,Databricks,Kubernetes和JupyterNotebook。它還支持與LDAP,Kerberos和Oauth2等身份驗證框架的集成。

ApacheBeam,ApacheFlink和ApacheSpark促進了批處理/實時流功能,而模型管理和監視管道是使用Kafka和Spark流構建的。

該架構由幾個構建塊組成,即

·FeatureStoreAPI-用于從FeatureStore讀取/寫入

·FeatureStore注冊表-用于發現功能的用戶界面

·功能元數據-文檔,分析和版本控制

·特征工程工作-用于計算存儲層-用于特征存儲

  Netflix功能商店

Netflix開發的功能部件商店支持在線和離線模型培訓和開發。在線微服務使框架能夠收集模型中功能編碼器所需的數據元素。它將進一步傳遞給下游,以供離線預測將來使用。Netflix的事實日志記錄服務將用戶相關,視頻相關和計算特定的功能以序列化格式記錄在適當的存儲單元中。

該體系結構的獨特之處在于組件的存在有助于:

·開發/創建上下文以進行快照

·所選上下文的各種微服務的快照數據

·構建API以在過去的給定時間坐標中提供此數據

由于所有上下文的快照數據都會產生開銷和成本,因此Netflix依靠選擇上下文樣本來定期進行快照,盡管算法不同。它通過Spark,通過訓練不同分布上的數據以及基于諸如查看模式,設備,在服務上花費的時間,區域等屬性的分層樣本來實現此目的。

Netflix為基于云的部署模型采用了細粒度的面向服務的體系結構。

Facebook設計的FBLearner是帶有模型管理和部署的AIWorkFlow框架。它主要由3個組件組成-FBLearnerFeatureStore,FBLearnerFlow和FBLearnerPredicto。它支持構建各種深度學習模型,并且模型可以ONNX格式存儲,支持跨不同硬件/軟件平臺。

上面的大類可以看作是創建從硬件到應用軟件的邏輯單元。

·創建,遷移和訓練模型所需的框架

·用于模型部署和管理的平臺

·計算工作量和存儲數據所需的基礎結構

Facebook還使用一種原理來劃分開發和部署環境。

  Pinterest功能商店

Pinterest的大數據機器學習是可擴展,可靠且安全的高速和高質量的經典示例。這個元數據驅動的框架是使用開放源代碼技術構建的,具有單獨的構建基塊,有助于重用。它還提供治理:執法和跟蹤。

這種架構的謊言中的獨特捕獲關系和互動之間的引腳。

通過創建的Airbnb的預測系統溜索依靠得分服務基于功能聚集在因牛逼IME和空間。計分日志每天進行計算/更新,以確保在訓練ML模型期間以及在生產環境中部署它們時都具有特征一致性和單個特征定義。此外,它還可以確保數據質量監控,功能回填以及使功能可搜索和可共享。

與數據源集成的體系結構-HiveTable,數據庫和Jitney的事件總線,除了以Lambda為服務點的ApacheSpark和Flink。這個平臺的獨特之處在于:

·減少定制管道的創建

·減少自定義聚合中的數據泄漏

·功能分布可觀察性改進的模型迭代工作流程

  特效

基于TensorFlow的通用機器學習平臺TensorFlowExtended(TFX)提供了許多組件的編排,即一個學習者,用于基于訓練數據生成模型,用于分析和驗證數據以及模型的模塊以及用于在模型中服務模型的基礎架構生產。該平臺以訓練,驗證,可視化和在生產中連續不斷地對新近訓練的新模型進行部署而著稱。各個組件可以共享實用程序,使它們可以通信和共享資產。通過快速培訓,數據和反序列化團隊和社區可以共享其數據,模型,工具,可視化,優化和其他技術。

部件被用于收集在特征值進行統計進一步已知的:為連續的特性,所述統計信息包括位數,等寬的直方圖,平均和標準偏差,而對于離散特征它們包括頂-K值由頻率。另外,這些組件支持在數據切片上和跨特征統計的模型度量的計算。這些統計信息為用戶提供了有關每個數據集形狀的見解。

此外,該體系結構還為所有用戶提供了無需配置的驗證設置,多租戶以同時服務于多個機器學習的模型,軟模型隔離以提高模型性能。

  阿帕奇氣流

ApacheAirflow的整個體系結構基于DAG的概念,該概念考慮了其中的依賴性。確保所有事情在正確的時間和正確的順序發生的主要責任。該DAG小號定義一個單一的邏輯流程,他們都是用Python文件中定義。

ApacheAirflow保證了冪等性,原子性和元數據交換。使用提供小型元數據交換的XCOM,可以促進此分布式體系結構的不同組件之間的數據交換。但是,對于大量數據,它支持共享網絡存儲,數據湖或通過XCOM進行的基于URI的交換。

操作員的參數化表示形式幫助DAG運行在特定時間生成TaskInstance的任務。此外,ApacheAirFlowDAG中的實例被分組為DagRun。

  Zomato功能商店

Zomato的餐廳業務在很大程度上依賴流數據處理來計算餐廳在任何給定時間點的運行訂單。該體系結構使用ApacheFlink,它為每個ML模型提供了工作級別隔離,因為每個ML模型的功能都保持它們各自的空間用于研究,分析,記錄,并且不與其他ML模型的功能進行交互。

除了流和在線特征提取外,MLFlow還提供了ML模型的生命周期管理。在ML車型投放到通過外部世界API網關借助AWSSagemaker端點。

  蘋果公司的Overton

通過提供一組新穎的高級聲明式抽象,Overton使模型構建,部署和監視的生命周期自動化。它支持多任務學習,以在實時和后端生產應用程序中同時預測多個ML模型。

此外,該體系結構允許在模型和數據之間進行分離,其中包含兩個組件:任務和代表數據源的有效負載。

模型訓練由架構文件控制,該文件充當編譯TensorFlow模型并描述其輸出以供下游使用的指南。Overton還將原始數據嵌入到有效負載中,然后將其用作任務或另一個有效負載的輸入。有效載荷是單例,序列和集合。

  StreamSQL功能存儲

StreamSQLFeatureStore是一個基于低延遲的模型開發框架,具有高吞吐量服務。它允許輕松輕松地通過版本控制可靠地部署新模型功能。通過使用功能定義,可以確保整個培訓,服務和生產過程中一致的功能部署。

該體系結構還通過集成第三者的功能來提高模型性能而聞名。它將批處理和流處理與不可變分類帳相結合,每個事件都附加到分類帳的末尾,修改或創建一組新功能,甚至從功能注冊表中分析/發現功能。

  Tecton的功能部件商店

Tecton提出了一個統一的體系結構,用于開發,部署,管理/管理和監視一個平臺,該平臺旨在標準化生產中ML模型的高質量功能,標簽和數據集,從而確保模型隨著時間的推移安全運行。適當的可重復性,沿襲和記錄。

Tecton平臺包括:

功能管道,用于將原始數據轉換為功能或標簽

·一個功能存儲用于存儲歷史特征和標簽數據

·一個功能服務器為生產服務的最新特征值

·用于檢索訓練數據和處理特征管線的SDK

·一個WebUI,用于管理和跟蹤功能,標簽和數據集

·一個監視引擎,用于檢測數據質量或漂移問題并發出警報

  混合功能商店

使用ApacheAirflow的BI平臺,S3,Hopsworks功能存儲和Cloudera的DataLakes的混合功能存儲。該平臺能夠在輸入處提取原始數據,事件或SQL數據。

  涂鴉數據中的功能存儲

ScribbleData提供的功能存儲對輸入數據的正確性和完整性施加了很大的壓力,因為眾所周知這會對ML模型的預測產生影響。因此,建議使用連續檢查/清晨系統,以防止質量差的數據進入系統。在反應方面,系統會進行連續的過程以隨著時間的流逝改善機器學習的操作。

在這里,我們討論了使用大數據,機器學習模型訓練和服務工具以及業務流程層的不同架構框架。每個組件都同等重要,它們齊頭并進,以創建一個實時的端到端預測系統。

好了,關于數據科學家和大數據工程師的基本架構的內容,介紹到這里就結束了,想了解更多關于數據科學和大數據的信息,請繼續關注中培偉業。

主站蜘蛛池模板: 国产高清av首播原创麻豆 | 欧美小泬xxxbbb视频 | 熟睡人妻被讨厌的公侵犯深田咏美 | 无人区乱码一区二区三区 | 亚洲av色影在线 | 成熟人妻换╳╳╳╳ | 精品日韩亚洲AV无码一区破坏 | 国产棈品久久久久久久久久免费看 | 午夜福利视频合集1000 | s8在线观看成人网站 | 尤物YW193无码点击进入 | 亚洲午夜无码久久久久软件 | 九九免费 | 美国毛片一区二区三区 | 亚洲日本va中文字幕在线 | 又粗又黄又猛又爽大片免费 | 精品乱码久久久久久久 | 好男人好资源在线影视官网 | 少妇被又大又粗又爽毛片欧美 | 亚洲AV成人无码网站天堂网 | 午夜久久久久久久久久影院 | 五月伊人| 国产a级免费观看 | 最新精品视频2019在线视频 | 少妇SPA推油被扣高潮在线观看 | 香港三级a∨在线观看 | 日本少妇重口xxxx | av区无码字幕中文色 | 总裁跪趴高h秘书攻被打屁股 | 波多野结衣AV最新作品在线观看 | 911精产国品一二三区在线观看 | 欧美成人秋霞久久AA片 | 精产国品一二三产区区别麻豆 | 亚洲AV成人无码久久精品老人 | 午夜福利看757 | 日韩精品久久久肉伦网站 | 女人18毛片A片久久18软件 | 日本熟妇色一本在线视频 | 免费看啪啪人A片AAA片 | 熟女性饥渴一区二区三区 | 4455成人免费观看 |