其他

Python如何做数据清洗？预处理缺失值方法，新手小白python数据清洗代码

悠悠楠杉

2026-01-16

0 评论

50 阅读

正在检测是否收录...

01/16

标题：Python数据清洗实战：预处理缺失值的5大实用技巧
关键词：Python数据清洗、缺失值处理、数据预处理、Pandas、机器学习
描述：本文详细讲解Python中数据清洗的核心步骤，重点介绍5种预处理缺失值的实用方法，并附完整代码示例，助你提升数据质量。

正文：

在数据分析或机器学习项目中，数据清洗往往是耗时最长且最关键的环节。真实数据中缺失值的存在就像隐藏在蛋糕里的柠檬片——不小心咬到会让你瞬间清醒。面对这些"消失的数据"，Python提供了丰富的处理工具，下面我们就深入探讨5种实用方法。

1. 直接删除：简单粗暴的"断舍离"

当缺失值占比低于5%时，直接删除可能是最高效的选择：

import pandas as pd  
# 删除含有缺失值的行  
df.dropna(axis=0, inplace=True)  
# 删除缺失值超过50%的列  
df.dropna(thresh=len(df)*0.5, axis=1)

但要注意，这种方法会损失样本量，当数据珍贵时需慎用。某电商平台曾因盲目删除缺失值，导致促销活动分析偏差30%——这是用抹布擦掉了金粉的典型案例。

2. 均值/中位数填补：平衡的艺术

对于连续型变量，用均值或中位数填补能保持数据分布：

# 对年龄列用中位数填补  
median_age = df['age'].median()  
df['age'].fillna(median_age, inplace=True)  
# 分性别填补收入均值  
df['income'] = df.groupby('gender')['income'].transform(  
    lambda x: x.fillna(x.mean()))

这种方法虽简单，但会低估方差。就像用橡皮泥补墙缝，虽然平整了，但仔细看还是能发现修补痕迹。

3. 预测模型填补：智能"数据美容"

更高级的方法是建立预测模型：

from sklearn.ensemble import RandomForestRegressor  

# 分离有缺失值和完整数据  
missing = df[df['price'].isnull()]  
complete = df.dropna()  

# 训练预测模型  
model = RandomForestRegressor()  
features = ['area', 'bedrooms']  
model.fit(complete[features], complete['price'])  

# 预测填补  
df.loc[df['price'].isnull(), 'price'] = model.predict(missing[features])

某金融机构用这种方法处理客户收入数据，使信用评分模型准确率提升12%，但要注意防止"过度拟合"带来的数据失真。

4. 热卡填补：寻找"数据双胞胎"

这种方法为缺失值寻找最相似的完整记录：

from sklearn.neighbors import NearestNeighbors  

# 找到与缺失样本最近的3个邻居  
nbrs = NearestNeighbors(n_neighbors=3).fit(df[features])  
_, indices = nbrs.kneighbors(missing[features])  

# 用邻居的均值填补  
df.loc[missing.index, 'value'] = df.iloc[indices]['value'].mean(axis=1)

就像为失散的拼图找到最匹配的碎片，这种方法能保持数据结构，但计算量较大。

5. 创建缺失指示符：让"空白"说话

有时缺失本身就有意义：

# 创建缺失指示列  
df['income_missing'] = df['income'].isnull().astype(int)  
# 再用0填补原列  
df['income'].fillna(0, inplace=True)

在医疗数据中，病人拒绝填写收入往往是重要信号。某研究显示，这种方法的模型效果比简单填补提升7%。

选择方法时需要像老中医把脉——先问三个问题：缺失机制是什么？数据量如何？后续分析目标是什么？记住，没有最好的方法，只有最适合场景的方法。当你下次面对残缺的数据时，希望这些技巧能像瑞士军刀一样帮你游刃有余。

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/42775/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权