您現在的位置：首頁 > IT資訊 > 大數據 > 怎樣進行數據預處理？

怎樣進行數據預處理？

2020-08-12 16:41:15　|　來源：中培企業IT培訓網

很多人都比較好奇，在數據庫中，擁有成千上萬的數據，專業數據人員是怎樣進行數據預處理的？數據預處理的工作是整個數據分析的重中之重，它占據整個數據分析的70%，由此可見數據預處理的重要性。因此對于數據預處理，人們研究很多方法，來更好的、更快的進行數據與處理，具體包括數據清洗、數據集成、數據規約、數據變換等。當然在這些方法中也分常見和不常見的，今天本文就來介紹兩種數據預處理的常見方法。

　　一、數據清洗

數據清洗是通過填補缺失值，平滑或刪除離群點，糾正數據的不一致來達到清洗的目的。簡單來說，就是把數據里面哪些缺胳膊腿的數據、有問題的數據給處理掉。總的來講，數據清洗是一項繁重的任務，需要根據數據的準確性、完整性、一致性、時效性、可信性和解釋性來考察數據，從而得到標準的、干凈的、連續的數據。

　　1.缺失值處理

實際獲取信息和數據的過程中，會存在各類的原因導致數據丟失和空缺。針對這些缺失值，會基于變量的分布特性和變量的重要性采用不同的方法。若變量的缺失率較高（大于80%），覆蓋率較低，且重要性較低，可以直接將變量刪除，這種方法被稱為刪除變量；若缺失率較低（小于95%）且重要性較低，則根據數據分布的情況用基本統計量填充（最大值、最小值、均值、中位數、眾數）進行填充，這種方法被稱為缺失值填充。對于缺失的數據，一般根據缺失率來決定“刪”還是“補”。

　　2.離群點處理

離群點（異常值）是數據分布的常態，處于特定分布區域或范圍之外的數據通常被定義為異常或噪聲。我們常用的方法是刪除離群點。

　　3.不一致數據處理

實際數據生產過程中，由于一些人為因素或者其他原因，記錄的數據可能存在不一致的情況，需要對這些不一致數據在分析前進行清理。例如，數據輸入時的錯誤可通過和原始記錄對比進行更正，知識工程工具也可以用來檢測違反規則的數據。

　　二、數據集成

隨著大數據的出現，我們的數據源越來越多，數據分析任務多半涉及將多個數據源數據進行合并。數據集成是指將多個數據源中的數據結合、進行一致存放的數據存儲，這些源可能包括多個數據庫或數據文件。在數據集成的過程中，會遇到一些問題，比如表述不一致，數據冗余等，針對不同的問題，下面簡單介紹一下該如何處理。

　　1.實體識別問題

在匹配來自多個不同信息源的現實世界實體時，如果兩個不同數據庫中的不同字段名指向同一實體，數據分析者或計算機需要把兩個字段名改為一致，避免模式集成時產生的錯誤。

　　2.冗余問題

冗余是在數據集成中常見的一個問題，如果一個屬性能由另一個或另一組屬性“導出”，則此屬性可能是冗余的。

　　3.數據值的沖突和處理

不同數據源，在統一合并時，需要保持規范化，如果遇到有重復的，要去重。