1、數據資源梳理
從業務的角度理清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以數據庫、文件和 API 接口形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
2、數據質量管理
數據價值的成功發掘必須依托于高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:非空檢查、規范性檢查、值域檢查、關聯關系檢查、重復性檢查等。
3、基礎庫與主題域建設
基礎數據一般指的是主數據,例如會計科目、產品、物料、客戶、供應商等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。
4、數據采集清洗
通過可視化的 ETL 工具將數據從來源端經過抽取、轉換、加載至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
5、元數據管理
元數據管理是對基礎庫和主題庫中的數據項屬性管理,同時,將數據項的業務含義與數據項進行了關聯,便于業務人員也能夠理解數據庫中的數據字段含義。
6、數據血緣追蹤
在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,建立數據使用場景與數據源頭之間的血緣關系。在數據業務場景使用過程中發現錯誤時,數據治理團隊可以快速定位數據來源,修復數據錯誤。
7、數據共享交換
數據共享分為庫表、文件和 API 接口三種共享方式。庫表共享比較直接,文件共享方式通過 ETL 工具做一個反向的數據交換就可以實現。我們比較T薦的是 API 接口共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 接口的形式進行了轉移。
8、數據資源目錄
數據資源目錄一般應用于數據共享的場景,例如政府部門之間的數據共享。數據資源目錄是基于業務場景和行業規范而創建,同時依托于元數據和基礎庫主題實現自動化的數據申請和使用。