金融企業早期的IT發展以應用系統建設為主,應用系統的主要功能是為了編制業務報表,這時候的特征是“記錄型”系統,各業務部門站在支持本部門工作的角度,提出系統建設需求,數據來源通常大多只涉及本部門,系統開發表現為“輕數據、重功能”,業務數據是“信息孤島型”的。
隨著IT對業務的支撐能力增強,跨部門跨系統的協作增強,需要的是企業全局整體層面的共享型數據,早期建立的部門級、孤島型的系統和數據越來越不能滿足業務發展需要。數據質量的問題也日益影響數據統計分析的質量,包括數據邏輯問題,數據準確性問題,重復記錄問題,數據缺失問題等。在業務操作和管理層面,數據質量問題不僅影響單個業務正常開展,還會影響與該業務相關的企業業務順利開展;在決策層面,數據質量問題會影響到管理層的決策依據是否準確、客觀。
那么評價數據質量的標準是什么呢?經過業界十多年的實踐經驗積累,數據質量可以用以下因素來度量,包括完整性、規范性、一致性、準確性、唯一性和關聯性。如下圖所示:
▌第一步 評估企業數據質量
如何提高數據質量,第一步是要對企業數據進行評估,從以下方面分析數據的質量:
完整性:所有必須的數據都存在嗎?
符合性:數據都是以標準格式存儲的嗎?哪些數據是非標準數據?
一致性:數據與其代表的業務含義是否一致,哪些信息是自相矛盾的?
準確性:數據準確表示數據是否經過審核或者數據有可驗證途徑?
重復性:哪些數據記錄是重復記錄的,重復記錄的原因是什么?
關聯性:數據的重要關聯關系是否記錄,而是準確的?
時效性:數據的壽命是否滿足用戶要求?
針對以上幾個方面,客戶評價企業數據的質量狀況,以及影響分析。
▌第二步 識別影響數據質量的因素
數據質量是數據分析和數據價值進一步挖掘的基礎,沒有良好的數據質量基礎,近年來比較熱門的管理駕駛艙、大數據分析等就成了空中樓閣,基礎數據的不準確直接導致分析結論的不準確,那么,影響數據質量的因素有哪些呢?
根據統計分析,造成數據質量不佳的原因包括數據產生環節(也稱數據源環節)和數據加工環節,具體如下:
1 ▏缺乏企業級的數據標準
由于缺乏統一企業級數據標準,造成不同部門對相同信息項的業務含義理解的不一致,比如賬戶余額,有的理解為期末余額,有的理解為期初余額。數據背后的業務含義不一致,直接導致統計結果的大相徑庭。
2 ▏員工錄入信息不準確
導致員工錄入信息不準確主要是兩個因素:
第一個因素,缺乏統一的錄入標準和約束。比如客戶名稱,企業沒有規定對公客戶的名稱是企業營業執照的全名,這樣會導致出現各種不同的簡稱。
第二個因素,由于員工錄入時引入了錯誤的信息,書寫錯誤,比如身份證號碼填寫錯誤;或者信息理解錯誤,比如金額單位,直接把元看成萬元;或者收集的信息不正確。
3 ▏新舊系統切換或數據的ETL過程問題
數據新舊系統切換,以及數據的抽取、轉換和加載環節造成技術錯誤和非技術錯誤,包括數據的重復抽取、數據加載轉換規則錯誤等。
企業在引用了數據質量不佳的外部數據。
4 ▏客戶數據
客戶錄入的信息不準確。
5 ▏系統改造
系統改造時,數據的孤立修改,影響到上下游數據問題。
企業可對照上述的幾個方面,識別出造成數據質量不佳的根本原因,進行有針對性的數據質量提升。
▌第三步 建立企業級統一的數據標準
無論是數據統計,還是大數據分析,建立企業級統一的數據標準是提高數據質量不可避免的環節。
人們發現,從部門級視角建立的系統,各系統的數據定義、數據采集自成體系,孤島型數據的數據價值很難發揮出來,呈現出內部數據交換和外部數據交換兩方面的問題。內部數據交換問題表現在同一信息在不同的系統需要重復錄入;跨系統的數據定義存在二義性,相同業務含義的數據在不同系統中表現形式不同,不同業務含義的數據在不同系統表現上相同,造成數據統計、分析的困難和不準確。外部數據交換問題表現在當需要與上級部門和子公司交換信息時,由于數據定義的不統一,造成數據報表需要手工作業。
以客戶名稱為例,由于缺乏統一的數據規范,客戶名稱在系統中錄入的簡稱隨意,同一用戶的名稱繁多,造成用戶管理和用戶市場策略不能順利推行。
數據標準是為了使企業內外部使用和交換的數據是一致和準確的,經協商一致制定并由相關主管機構批準,共同使用和重復使用的一種規范性文件。數據標準化是通過一整套的數據規范、管控流程和技術工具來確保銀行的各種重要信息,包括產品、客戶、機構、財務、項目等在全企業內外的使用和交換都是一致、準確的過程。
數據標準化體系三要素:
數據標準字典,描述數據信息項的業務屬性、技術屬性和管理屬性,業務屬性包括信息項中文名稱、英文名稱、業務含義、使用 規則;技術屬性包括數據類型和長度等;管理數據包括數據標準的管理部門、管理責任人、源系統等。
數據標準管理規范和流程,為數據標準持續有效更新維護,以及數據標準落地執行保駕護航。
數據標準管理系統,提供數據標準查詢和內容維護,以及數據標準在數據結構中的檢核機制。
▌第四步 數據標準落地執行
數據標準的落地包括兩個層面,一個是業務層面落地,二是IT層面。
數據標準在業務層面落地,是數據標準落地的關鍵環節。包括
業務部門在制定管理規范和工作手冊時,信息項名稱和業務含義,要與數據標準一致。
業務人員在進行信息項錄入的時候,數據內容要與業務含義一致。
業務人員在提系統建設需求時,信息項名稱、業務含義應與數據標準一致。
在IT層面的落地,包括新系統建設和老系統改造。新系統建設時,系統數據模型,以及數據庫字段設計都應遵從數據標準;老系統改造,是指原有系統根據業務需求,對關鍵業務指標進行改造。老系統中的信息項與數據標準檢核,結果是標準遵從、部分遵從和不遵從,對于部分遵從和不遵從的部分,進行修改、合并、分拆或刪除,使之與標準一致。在制定數據標準改造方案時,要對上下游數據的影響進行判斷,及時通知上下游系統數據項的變化,共同分析變化的影響以及應對措施。
數據標準的落地和執行,讓數據有章可循,有規則可依,可以極大地提高數據質量。
▌第五步 建立以元數據為基礎的數據質量體系
簡單地說,元數據是數據的數據,也就是數據的屬性。數據庫中的錄入的數值,比如金額3,它不是孤立的數值,而是有其業務含義和使用規則,也即業務屬性,只有在明確其業務屬性的情況下,才能對其進行分析和利用。此外,它還有技術屬性、管理屬性、上下游關系等。
采用元數據管理的方法,即數據屬性管理的辦法,將數據的業務屬性、技術屬性和管理屬性明確下來,這樣明確的業務屬性可以消除業務二義性;統一的技術屬性有利于數據的邏輯集中;明確的管理屬性有利于數據質量職責清晰,管理責任清晰。
另外,建立元數據為基礎的表級血統分析、影響分析,字段級血統分析、影響分析,明確數據之間的上下游關系,一方面便于對數據進行影響分析,另一方面,便于數據的維護和故障排查。
▌第六步 數據質量檢核和持續完善
針對企業數據質量問題產生,可以從以下方面提升數據質量:
1 ▏針對員工錄入問題,可以制定數據檢核規則,持續進行數據質量檢核
對于數據錄入的邏輯錯誤,設置檢核規則,比如首筆貸款發放時間不能早于合同簽訂時間。對于員工輸入筆誤,比如身份證信息,用身份證檢核規則進行檢查。對于用戶名稱輸入不準確的情況,可以與用戶標準庫的用戶名稱進行比對,檢查其是否與標準名稱相符。
針對員工信息掌握不準確的問題,從流程審核上進行控制,關鍵數據和信息輸入需要有人員審核,也就是將記錄型系統改造成流程型系統。
另外,在應用系統的輸入頁面,增加輸入項解釋、非空判斷,對于其它系統里已有的信息,通過建立關聯關系導入系統,避免重復錄入。員工填寫信息時,盡量地讓用戶對輸入信息進行選擇,而不是完全手工輸入信息。
2 ▏新舊系統切換或數據的ETL過程問題
新舊系統切換時,仔細分析新舊系統數據項的業務含義,識別出具有二義性的信息項,比如不同系統中相同的名稱,其業務含義不一樣,對這樣的信息要進行仔細分析。同時,避免重復導入,避免技術問題引入問題數據。
3 ▏客戶數據錄入
客戶數據錄入時,增加對錄入數據的判斷和檢查。對于可以標準化枚舉的信息項,盡量讓客戶選擇,而不是手工輸入,這樣保證數據的規范性。
4 ▏系統改造
建立以元數據為基礎的數據血緣分析,當系統改造時,采用該工具分析系統改造對本系統數據的影響,以及上下游的關聯影響。
總之,數據質量管理貫穿數據的全生命周期,是一個長期的、需要持續開展的工作,需要業務人員和技術人員共同努力,才能獲得高質量的數據,滿足數據的完整性、規范性、一致性、準確性、唯一性和關聯性需求,持續提升企業的數據價值,支持業務管理和業務決策。
想了解更多IT資訊,請訪問中培偉業官網:中培偉業