更新時間:2022年11月14日10時09分 來源:傳智教育 瀏覽次數:
數據清洗是利用相關技術將“臟”數據轉換為滿足質量要求的數據。下面通過一張圖描述數據清洗的原理,具體如圖1-3所示。
圖1-3 數據清洗的原理
從圖1-3中可以看出,同一值的不同表示、拼寫錯誤、不同的命名習慣、不合法的值以及空值都會導致“臟”數據出現,通過定義好的數據清洗策略和清洗規則(即數理統計技術、數據挖掘技術等清洗策略)對“臟”數據進行清洗,得到滿足數據質量要求的數據。
需要注意的是,數據清洗的目的是解決“臟”數據問題,即不是將“臟”數據洗掉,而是將“臟”數據洗干凈。干凈的數據指的是滿足質量要求的數據。