2025-07-19 Python如何检测异常数据——Z-score/IQR算法详解 Python如何检测异常数据——Z-score/IQR算法详解 一、为什么需要异常检测?在数据分析的实际场景中,约5%-15%的数据可能存在异常值。这些"离群点"可能由传感器故障、人为录入错误或特殊事件导致,若不处理会影响模型训练和统计结论。例如: - 电商订单中出现金额为99999的测试数据 - 体温数据集中混入摄氏/华氏混合记录 - 工业设备传感器突发异常波动二、Z-score算法原理与实现2.1 数学基础Z-score(标准分数)通过计算数据点与均值的标准差距离来量化异常程度:[ Z = \frac{X - \mu}{\sigma} ]其中μ为均值,σ为标准差。通常当|Z|>3时,判定为异常值(99.7%的正态分布数据落在μ±3σ内)。2.2 Python实现python import numpy as np from scipy import statsdef detectoutlierszscore(data, threshold=3): zscores = np.abs(stats.zscore(data)) return np.where(zscores > threshold)示例数据data ... 2025年07月19日 5 阅读 0 评论