TypechoJoeTheme

至尊技术网

统计
登录
用户名
密码
搜索到 2 篇与 的结果
2026-04-24

Pandas高效分组序列ID生成指南

Pandas高效分组序列ID生成指南
正文:在数据分析中,经常需要为分组数据生成序列ID。比如电商订单按用户分组编号,或日志数据按设备ID打标记。传统循环写法效率低下,而Pandas原生方法能轻松实现毫秒级处理。以下是经过实战验证的4种高效方案:方法1:groupby + cumcount组合最经典的写法,利用分组后的累计计数生成从0开始的序列: import pandas as pd df = pd.DataFrame({'group': ['A', 'A', 'B', 'B', 'B'], 'value': [10, 20, 30, 40, 50]}) df['seq_id'] = df.groupby('group').cumcount() + 1 # 从1开始编号 输出效果:group value seq_id 0 A 10 1 1 A 20 2 2 B 30 1 3 B 40 2 4 B 50 3方法2:ngroup()全局分组...
2026年04月24日
22 阅读
0 评论
2025-12-20

Pandas分组数据中跨行计算差异的3个实战技巧

Pandas分组数据中跨行计算差异的3个实战技巧
正文:在数据分析工作中,我们常遇到这样的需求:需要按部门计算销售额环比增长,或按用户分组统计连续登录天数差值。这类分组跨行计算场景,传统的循环处理效率低下,而Pandas的向量化操作能优雅解决。下面通过三个典型案例,拆解实用技巧。一、时间序列下的组内差值计算处理带有时间戳的日志数据时,常需计算同组相邻记录的时间差。例如电商用户两次访问间隔: # 构造测试数据 import pandas as pd df = pd.DataFrame({ 'user_id': [1,1,2,2,2], 'visit_time': ['2023-01-01 09:00', '2023-01-03 11:00', '2023-01-02 14:00', '2023-01-02 18:00', '2023-01-05 10:00'] }) df['visit_time'] = pd.to_datetime(df['visit_time']) # 按用户分组计算时间差 df['time_diff'] = df.groupby('user_id')[...
2025年12月20日
50 阅读
0 评论
38,402 文章数
92 评论量

人生倒计时

今日已经过去小时
这周已经过去
本月已经过去
今年已经过去个月