▌企業數據資產管理
企業數據分布在各個系統,數據分布散、體量大,如何識別企業數據資產類別,劃分數據資產的區域和層次,這是我們要關心的問題。
數據資產的梳理需要兼顧業務視角和技術視角,從業務視角看,分為數據域、數據主題和數據實體。數據域指由數據主題根據其業務耦合程度聚合而成的高階數據主題群,一般與業務域有著緊密的對應關系。比如金融里的業務域分為投資業務域、保險業務域、貸款業務域等。數據主題是由業務信息按照業務耦合程度所聚合而成。比如客戶主題、產品主題、財務主題、人力資源主題等。數據實體指適合信息系統處理的結構化的信息,是業務信息的抽象和規范化的邏輯描述。比如與投資業務流程相關聯的投資業務信息,與保險流程相關聯的投保業務信息等。
從技術實現角度看,包括包括邏輯實體和物理實體。邏輯實體是數據實體的邏輯定義,描述實體之間的繼承和關聯關系,明確實體的屬性構成。比如財務報表中的所有者權益變動表,它由上年年末余額、本年年初余額、本年增減變動金額、本年年末余額等四大部分共同構成,單獨一項或部分數據對于所有者權益變動來說,沒有意義。
這些相關的元組的集合形成所有者權益變動的最小集合,稱為一個“邏輯實體”。物理實體數據實體的物理實現定義,即數據庫中存儲的具體數據實體表,包括DB數據資產、接口數據資產、報表數據資產、數據標準資產和企業數據模型等。
盤點數據資產,需要以元數據為基礎,從業務到技術,再從技術到業務反復迭代,形成企業數據資產管理的全貌。
正因為元數據定義了各層次數據對象的屬性,所以可以根據元數據識別對象的含義、關聯關系、管理信息。比如某企業的數據資產管理層次為區、主題域、系統、表、字段,每個層次對象都由元數據定義具體特征,以系統元數據為例,包括系統名稱、英文名稱、系統適用范圍、系統主要功能、系統關聯信息、業務主管單位、技術主管單位等信息。以字段元數據為例,包括信息項名稱、業務含義、業務規則、數據管理機構、數據類型、數據長度等信息。
建立統一的元數據管理有助于企業發揮元數據管理的作用。整合并集中存儲各系統的元數據信息,形成元數據庫集市,近年來已經成為企業數據治理的重要措施。一方面,通過元數據管理了解企業數據資產和數據分布情況,另一方面,通過元數據集中管理推廣元數據應用。在此基礎上,編制元數據地圖將所有系統關聯起來,并通過ETL(數據抽取、轉換、加載)任務和數據表之間的關系實現數據影響分析以及元數據的查詢和統計功能。
元數據熱度分析是元數據使用情況統計的一個具體應用,元數據被訪問的次數,被訪問次數越多,熱度就越高。元數據熱度分析可以幫助用戶分析元數據的使用需求和數據價值。
為了實現企業數據資產的有效管理,通過元數據的自動采集,建設數據資產的統一視圖,實現數據資產的盤點、展示。元數據全景視圖可以結合地圖的設計理念,進行圖層的劃分,每個圖層展示不同顆粒度信息,每層圖層下鉆上鉆平滑銜接。元數據全景視圖縱向層次在域、系統、表、字段,可以隨鼠標滾輪的滾動方向做無級伸縮,各層次平滑銜接,展現豐富的數據資產信息,包括以下方面:
數據主題級別、系統級別、表級別、數據節點的全景視圖;
查看、分析系統的元數據資產情況;
查看元數據訪問熱度情況,可以從元數據類型、訪問用戶等維度對元數據熱度
信息進行分析;
查看元數據的版本情況,通過時間周期查看元數據的版本變化情況統計分析。
以上信息均可以通過數據圖標形式展現。
▌利用元數據進行數據關聯分析
以往業務人員在進行變更時時,需要技術人員配合,進行大量的變更影響分析,這種分析耗時耗力,而且也容易遺漏。通過元數據的分析,可以方便地定位某系統數據變化的影響。元數據分析管理可實現血緣分析、影響分析、全鏈分析和特定元數據分析等四大功能。
1 ▏血緣分析
元數據血緣分析的主要使用對象為業務人員。業務人員可以通過血緣分析快速查找和獲取到數據的來源,定位問題出現的環節。血緣分析的對象可以是區域、系統、表(報表)、字段(指標)等,通過逐級追溯數據的來源,獲取數據的源頭。
2 ▏影響分析
元數據地圖應用影響分析的主要使用對象為業務人員和數據管理人員。可以通過影響分析快速查找和獲取到數據可能影響的范圍,定位數據變更可能涉及的環節。逐級推導數據的影響,獲取數據的影響范圍,查詢范圍為全企業系統。這樣可以獲得區域變化的影響、系統變化的影響、報表變化的影響和單一字段(指標)的影響。
3 ▏全鏈分析
全鏈分析的主要使用對象為數據管理人員。數據管理人員可以通過全鏈分析快速查找和獲取到數據所涉及的所有環節,了解數據加工整個過程的全部情況,了解數據的來源,清楚數據的影響。通過逐級追溯數據的來源,獲取數據的源頭,并從數據源頭逐級推導數據的影響。影響分析的對象可以是區域、系統、表和字段等。
4 ▏特定元數據分析
系統元數據分析主要是滿足業務人員和數據管理人員,對特定關心的系統、表、字段的選定的對象,進行之間的血緣影響分析,幫助使用者掌握所關心系統、表、字段之間影響的情況。
▌結束語
元數據管理提供了有效的分析和管理能力,幫助業務人員清楚的了解企業的數據信息,包括數據資產的分布情況、各系統數據流向、業務指標和業務報表來源和影響、數據的業務含義和規則等。幫助技術人員了解各系統內物理表的關聯關系、影響及生成邏輯,查詢系統、物理表的更新、備份、ETL(數據抽取、轉換、加載)執行等信息,為企業提供更好的數據服務。