7.3 非結構化數據的數據質量管理
非結構化數據由于格式和內容的多樣性,一般不會直接用于分析,即單個非結構化數據難以產生價值。只有將非結構化數據的相關元數據(或標簽)、主要內容抽取出來,并以類似結構化數據存儲后,才能發揮價值。因此,非結構化數據的質量管理主要在于提升數據可用度,一般通過對數據的清洗、映射、關聯等機制,把繁雜的大數據變成能應對的、有效的“小數據”,構建干凈、完備的數據集,從而提高數據質量。
1)通過清洗規則庫識別并標識出非結構數據的可疑或無效信息,必要時可結合數據生命周期管理策略及時清理。
2)通過與相關的數據標準進行映射,將非結構化數據的“基本屬性”轉換為商業銀行的標準信息進行存儲(如將“建行” “建設銀行” “中國建設銀行”等轉換成標準代碼JGOO01),并作為結構化數據存儲在系統中。
3)通過關鍵信息與商業銀行其他結構化數據進行關聯(如通過客戶姓名、手機號等辨識其是否為本行客戶),提高非結構化數據入庫質量和數據價值。