其他

Python时序数据缺失处理：插值与向前填充实战指南

悠悠楠杉

2025-07-30

0 评论

108 阅读

正在检测是否收录...

07/30

一、时序数据缺失的常见挑战

在数据分析领域，完整的时间序列如同一条连续流淌的河流。但现实中的数据往往存在缺口——可能是传感器故障导致的读数缺失，或是数据库异常造成的记录丢失。这些缺失值若处理不当，会导致：

统计分析结果偏差
机器学习模型训练失败
趋势预测准确性下降

我们通过一个电商平台的日销售额数据集演示处理方法：

python
import pandas as pd
import numpy as np

创建含缺失值的时序数据

daterng = pd.daterange('2023-01-01', '2023-01-10', freq='D')
salesdata = [120, np.nan, 115, np.nan, np.nan, 125, 130, np.nan, 140, 145] df = pd.DataFrame({'date': daterng, 'sales': sales_data})

二、向前填充（ffill）策略解析

向前填充（Forward Fill）采用"最后观测值推进"原则，特别适用于：

短期缺失（1-2个时间点）
数据具有明显惯性特征
需要保持原始数据分布的场景

python

向前填充实现

df['ffill_sales'] = df['sales'].ffill()

输出结果对比

print(df[['date', 'sales', 'ffill_sales']].head(6))

优缺点对比：
- ✅ 保持数据原始量级
- ✅ 计算效率极高
- ❌ 可能放大异常值影响
- ❌ 不适用于长期缺失

三、插值法的灵活应用

Pandas提供多种插值方法，通过interpolate()函数实现：

3.1 线性插值

python df['linear_sales'] = df['sales'].interpolate(method='linear')

3.2 时间权重插值

python df['time_sales'] = df['sales'].interpolate(method='time')

3.3 高级多项式插值

python df['poly_sales'] = df['sales'].interpolate(method='polynomial', order=2)

方法选择指南：
| 方法类型 | 适用场景 | 计算复杂度 |
|----------------|-------------------------|------------|
| 线性插值 | 平稳变化趋势 | 低 |
| 时间权重插值 | 时间间隔不均匀 | 中 |
| 三次样条插值 | 平滑曲线需求 | 高 |

四、混合策略实战案例

某气象站温度数据存在连续缺失时，可采用组合策略：

python

第一步：用插值法处理孤立缺失点

tempseries = rawdata['temperature'].interpolate(method='spline', order=2)

第二步：对连续超过3天的缺失采用季节性填充

seasonalavg = rawdata.groupby(rawdata.index.month).mean() for i in range(len(tempseries)):
if pd.isna(tempseries.iloc[i]): month = tempseries.index[i].month
tempseries.iloc[i] = seasonalavg.loc[month]

五、评估填充效果的3个维度

数据分布检验：比较填充前后数据的描述统计量
python print(df[['sales', 'ffill_sales', 'linear_sales']].describe())
可视化验证：绘制原始数据与填充数据折线图
python import matplotlib.pyplot as plt df.set_index('date').plot(style=['o--', 's-', '^-']) plt.show()
下游任务影响：在预测模型中测试不同方法的RMSE指标

六、避免常见陷阱

不要对非单调变化的数据使用简单前向填充
插值前务必确保时间索引已正确排序
对周期性数据优先考虑季节性插值方法
超过20%的缺失率建议考虑数据重构而非填充

"优秀的缺失值处理不是追求数学上的完美，而是保持数据的业务合理性。" —— 某金融风控团队数据分析手册

时间序列分析 Python时序数据处理 Pandas缺失值填充线性插值向前填充ffill

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/34347/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权