8.1 數據生命周期管理及意義
數據的生命周期管理最初是由美國的存儲技術公司StorageTek提出來的,經過這些年的發展和宣傳,目前逐漸開始進入市場化階段。數據的生命周期管理作為一項企業信息化戰略,是一項相對長期的工作。
早期銀行的金融產品較少,主要以存貸匯為主,而且數據以省(市)為單位分布存放,數據量相對較少。此外,由于還沒有數據集中挖掘與分析的需求,日常處理對象主要是短期數據,時間跨度小,處理的數據規模相對可控。但是,隨著各家銀行的數據大集中以及業務的快速發展,客戶群體越來越大,客戶發生的交易行為也越來越頻繁,尤其是在大數據、互聯網金融時代,銀行業集中存放和處理的數據量急劇增加,有些銀行的數據容量甚至達到了PB級。有種說法是:“今天一個現代人一天所吸收的信息,比莎士比亞一生所獲得的信息還要多?!庇纱丝梢?,當今社會信息量是呈爆發式增長的。對銀行來說,一方面數據成為銀行的重要資產,對于分析客戶行為、評價客戶信用、提升營銷精準度等方面都起到了重要的作用;但是,另一方面日益增大的數據量對系統存儲、訪問效率造成越來越大的壓力。因此,必須權衡效率和需求之間的關系,合理保留數據。
正常情況下,數據生成時間越長,其獲得的訪問頻率則越低。但是,數據總量越來越大,如果將不活躍的數據進行遷移,則可以降低企業的擁有成本。
數據生命周期中數據生成時間、數據訪問頻率、數據總量等參數間的關系如圖8-1所示。
倘若不對數據進行有效的數據生命周期管理,則會出現系統問題。例如,數據增長過快導致的系統資源浪費;又如,表數據量過大導致訪問效率過慢等情況。以某商業銀行為例,早期因為沒有進行勢據生命周期管理,出現了各種問題,極大地影響了系統服務效率和客戶服務水平。從以下兩個例子可以看出數據生命周期管理的重要性。