其他

Python特征工程实战：从数据清洗到特征构建的全流程解析

悠悠楠杉

2025-07-12

0 评论

86 阅读

正在检测是否收录...

07/12

在机器学习项目中，特征工程的质量往往直接决定模型效果的上限。据Kaggle竞赛统计，超过80%的冠军团队将主要精力放在特征工程环节。本文将系统介绍如何用Python实现专业级的特征工程处理。

一、数据清洗：构建高质量特征的基石

数据清洗是特征工程的第一步，也是最容易被忽视的关键环节。我们需要处理以下常见问题：

python
import pandas as pd
import numpy as np

处理缺失值

def handlemissing(df): # 连续型变量用中位数填充 numcols = df.selectdtypes(include=np.number).columns df[numcols] = df[numcols].fillna(df[numcols].median())

# 类别型变量用众数填充
cat_cols = df.select_dtypes(exclude=np.number).columns
df[cat_cols] = df[cat_cols].fillna(df[cat_cols].mode().iloc[0])

return df

示例：信用卡数据清洗

creditdata = pd.readcsv('creditdata.csv') cleaneddata = handlemissing(creditdata)

实际项目中，我们还需要处理异常值（如3σ原则或IQR方法）、重复数据（DataFrame.duplicates()）以及数据类型转换等问题。

二、特征构建：创造有意义的衍生变量

优秀的特征工程师应该像福尔摩斯探案一样，从原始数据中挖掘出隐藏的信息：

时间特征分解：
python df['timestamp'] = pd.to_datetime(df['timestamp']) df['hour'] = df['timestamp'].dt.hour df['day_of_week'] = df['timestamp'].dt.dayofweek
交互特征生成：
python df['price_per_area'] = df['price'] / (df['length'] * df['width'])
文本特征提取（以新闻分类为例）：
python from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer(max_features=500) text_features = tfidf.fit_transform(df['news_content'])

三、特征转换：让数据更适合模型消化

不同的模型对数据分布有不同的要求：

标准化与归一化：python
from sklearn.preprocessing import StandardScaler, MinMaxScaler

scaler = StandardScaler() # 适合线性模型
normalizeddata = scaler.fittransform(df[['income', 'age']])

类别变量编码：python

高基数特征使用目标编码

from categoryencoders import TargetEncoder encoder = TargetEncoder() df['cityencoded'] = encoder.fit_transform(df['city'], df['target'])

非正态分布转换：python

Box-Cox变换要求数据为正数

df['log_income'] = np.log1p(df['income'])

四、特征选择：去芜存菁的关键步骤

特征选择需要平衡信息量与维度诅咒的矛盾：

统计方法筛选：python
from sklearn.featureselection import SelectKBest, fclassif

selector = SelectKBest(fclassif, k=20) selectedfeatures = selector.fit_transform(X, y)

模型重要性评估：python
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X, y)
importance = pd.Series(model.featureimportances, index=X.columns)
top_features = importance.nlargest(10).index.tolist()

递归特征消除：python
from sklearn.feature_selection import RFECV

rfe = RFECV(estimator=LogisticRegression(), cv=5)
rfe.fit(Xscaled, y) optimalfeatures = X.columns[rfe.support_]

五、实战经验与避坑指南

经过多个金融风控项目的实践，我总结出以下经验：
- 时序数据要特别注意避免未来信息泄露
- 类别变量编码后建议进行标准化
- 特征组合的维度爆炸问题（如笛卡尔积特征）
- 线上/线下特征一致性验证方法

python

特征流水线封装示例

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

preprocessor = ColumnTransformer(
transformers=[
('num', StandardScaler(), numcols), ('cat', TargetEncoder(), catcols)
])

pipeline = Pipeline([
('preprocessor', preprocessor),
('selector', SelectKBest(f_classif, k=30)),
('classifier', RandomForestClassifier())
])

特征工程既是科学也是艺术，需要持续迭代优化。建议建立特征版本控制系统，记录每个特征的产生逻辑和演变过程。当发现某个特征在验证集表现异常优秀时，要特别警惕是否存在数据泄露问题。

最后提醒：没有放之四海皆准的特征工程方案，金融领域的风控特征与电商推荐特征的处理策略可能完全不同。理解业务本质，才能打造出真正有效的特征体系。

数据清洗特征工程 Python数据处理特征选择特征缩放机器学习预处理

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/32510/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权