教育行業A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

python新手常見問題:忽略進行NA值處理造成后續清洗工作報錯頻繁

更新時間:2022年11月22日14時10分 來源:傳智教育 瀏覽次數:

好口碑IT培訓

  在幾乎所有的數據工作中,凡是涉及矩陣的數據計算,一般都要求數據不包含NA值,如果包含NA值,則無法計算均值、最大值、方差等。因此NA值的處理應該放在所有數據清洗和預處理工作的首位。

  相似問題:與NA值相似的還有2個值:正無窮和負無窮。在某些處理邏輯下,可能會產生這2類值。在Python中,float('inf')表示正無窮,-float(‘-inf’)表示負無窮。凡是涉及數據計算,這2類值與NA值一樣,其所在列都無法計算,因此都需要轉換處理。

  直接拋棄異常值

  異常數據通常被認定是一種“噪聲”。產生數據“噪聲”的原因很多,如業務運營操作、數據采集問題、數據同步問題等。處理異常數據前,需要先辨別出到底哪些是真正的數據異常。當數據的“異常”是由于業務特定運營動作產生時,它其實是正常反映業務狀態,而不是數據本身異常的規律。因此,在這個狀態下,必須保留看似異常的結果,否則業務的真實狀態無法反映到數據中。

  相似問題:另外還有一類必須保持原有異常值的場景是后續數據應用的場景是異常檢測,如果把異常數據剔除,會直接導致異常檢測結果失效。

0 分享到:
和我們在線交談!
国产免费观看黄A片又黄又硬