至尊技术网

登录

标签搜索

搜索到 2 篇与的结果

Pandas实战：巧解混合文本与数字列的清洗难题

Pandas实战：巧解混合文本与数字列的清洗难题

正文：在日常数据分析中，我们常会遇到这样的数据列："营收235万元"、"同比增长12.5%"、"库存量3,245件"。这类混合了文本和数字的数据，往往让新手数据分析师手足无措。今天我们就用Pandas拆解这个"硬骨头"。首先看典型场景——电商订单数据中的价格列： import pandas as pd raw_data = { '商品': ['手机', '笔记本', '耳机'], '价格': ['¥3999', '优惠价6899', '活动价￥299'] } df = pd.DataFrame(raw_data) 方案一：str.extract()正则提取法 # 提取价格数字（含小数和千分位分隔符） df['价格'] = df['价格'].str.extract(r'(\d+[,.]?\d*)').astype(float) 但现实往往更复杂。比如处理带有单位的测量数据： measures = ["15.6cm", "20mm", "1.2m"] s = pd.Series(measures) # 同时提取数值和单位 extracted = s.str.extr...

2025年12月15日

4 阅读

0 评论

文本数据处理实战：从文件读取到智能计算的完整指南

文本数据处理实战：从文件读取到智能计算的完整指南

在数据分析工作中，约70%的时间都消耗在数据准备阶段。掌握专业的文本文件处理方法，能显著提升数据科学家的工作效率。下面以销售数据文件为例，演示完整的处理流程。一、文件读取的三大注意事项编码识别我们常遇到的中文文件编码包括UTF-8和GBK。使用chardet库可以自动检测编码： python import chardet with open('sales.txt', 'rb') as f: result = chardet.detect(f.read(10000)) print(f"检测到编码：{result['encoding']}") 异常处理机制生产环境中必须添加完善的错误处理： python try: with open('data.csv', 'r', encoding='utf-8') as f: data = f.readlines() except FileNotFoundError: print("错误：文件路径不存在") except UnicodeDecodeError: print("错误：尝试使用GBK编码重新读取...

2025年08月15日

97 阅读

0 评论

悠悠楠杉

35,832 文章数

92 评论量

人生倒计时

今日已经过去小时

这周已经过去天

本月已经过去天

今年已经过去个月

最新回复

强强强
2025-04-07

强的一批
jesse
2025-01-16

有whmcs接口吗？
sowxkkxwwk
2024-11-20

博主太厉害了！
zpzscldkea
2024-11-20

博主太厉害了！
bruvoaaiju
2024-11-14

博主太厉害了！

标签云

强的一批
有whmcs接口吗？
博主太厉害了！
博主太厉害了！
博主太厉害了！
怎么收藏这篇文章？
怎么收藏这篇文章？
想想你的文章写的特别好
想想你的文章写的特别好
不错不错，我喜欢看