2025-12-15 Pandas实战:巧解混合文本与数字列的清洗难题 Pandas实战:巧解混合文本与数字列的清洗难题 正文:在日常数据分析中,我们常会遇到这样的数据列:"营收235万元"、"同比增长12.5%"、"库存量3,245件"。这类混合了文本和数字的数据,往往让新手数据分析师手足无措。今天我们就用Pandas拆解这个"硬骨头"。首先看典型场景——电商订单数据中的价格列: import pandas as pd raw_data = { '商品': ['手机', '笔记本', '耳机'], '价格': ['¥3999', '优惠价6899', '活动价¥299'] } df = pd.DataFrame(raw_data) 方案一:str.extract()正则提取法 # 提取价格数字(含小数和千分位分隔符) df['价格'] = df['价格'].str.extract(r'(\d+[,.]?\d*)').astype(float) 但现实往往更复杂。比如处理带有单位的测量数据: measures = ["15.6cm", "20mm", "1.2m"] s = pd.Series(measures) # 同时提取数值和单位 extracted = s.str.extr... 2025年12月15日 4 阅读 0 评论
2025-08-15 文本数据处理实战:从文件读取到智能计算的完整指南 文本数据处理实战:从文件读取到智能计算的完整指南 在数据分析工作中,约70%的时间都消耗在数据准备阶段。掌握专业的文本文件处理方法,能显著提升数据科学家的工作效率。下面以销售数据文件为例,演示完整的处理流程。一、文件读取的三大注意事项 编码识别我们常遇到的中文文件编码包括UTF-8和GBK。使用chardet库可以自动检测编码: python import chardet with open('sales.txt', 'rb') as f: result = chardet.detect(f.read(10000)) print(f"检测到编码:{result['encoding']}") 异常处理机制生产环境中必须添加完善的错误处理: python try: with open('data.csv', 'r', encoding='utf-8') as f: data = f.readlines() except FileNotFoundError: print("错误:文件路径不存在") except UnicodeDecodeError: print("错误:尝试使用GBK编码重新读取... 2025年08月15日 97 阅读 0 评论