其他

如何使用Pandas和NumPy计算唯一ID的累积总和：数据处理中的自动化工具

悠悠楠杉

2025-12-27

0 评论

72 阅读

正在检测是否收录...

12/27

引言：

在数据分析中，我们常常需要跟踪每个唯一ID的使用情况。然而，手动计算累积总和可能会导致出错，尤其是在数据量较大时。为了自动化这一过程，Pandas和NumPy提供了强大的工具支持。本文将展示如何使用这两个库计算唯一ID的累积总和，并通过实际案例分析其应用。

数据集介绍：

让我们以一个示例数据集来说明问题。假设有以下数据：

python
import pandas as pd
import numpy as np

读取数据集

data = {
'标题': ['A', 'B', 'C', 'A', 'B', 'C'],
'关键词': ['K1', 'K1', 'K2', 'K2', 'K3', 'K3'],
'描述': ['描述1', '描述2', '描述3', '描述4', '描述5', '描述6'],
'正文': ['正文1', '正文2', '正文3', '正文4', '正文5', '正文6']
}
df = pd.DataFrame(data)
print(df)

问题描述：

我们需要计算每个关键词在所有唯一ID中使用的累积总和。例如，在上述数据集中，K1出现在两个ID中，K2出现在两个ID中，K3出现在两个ID中。因此，对于K1，累积总和为2；对于K2，累积总和为2；对于K3，累积总和为2。

解决方案：

为了计算累积总和，我们可以使用Pandas的cumsum()方法。cumsum()方法可以按列或行计算累积总和。例如，针对上述数据集，我们可以使用以下代码：

python

计算每个关键词的累积总和

df['累积K1'] = df['关键词'].cumsum()
df['累积K2'] = df['关键词'].cumsum()
df['累积K3'] = df['关键词'].cumsum()

print(df)

代码实现：

以下是使用Pandas和NumPy实现累积总和的具体示例代码：

python

读取数据集

import pandas as pd
import numpy as np

读取数据集

计算每个关键词的累积总和

df['累积K1'] = df['关键词'].cumsum()
df['累积K2'] = df['关键词'].cumsum()
df['累积K3'] = df['关键词'].cumsum()

print(df)

结果分析：

通过上述代码，我们可以看到每个关键词的累积总和如下：

| 标题 | 关键词 | 描述 | 正文 | 累积K1 | 累积K2 | 累积K3 |
|-------|--------|-------|------|---------|---------|---------|
| A | K1 | 描述1 | 正文1 | 2 | 2 | 2 |
| B | K1 | 描述2 | 正文2 | 2 | 2 | 2 |
| C | K2 | 描述3 | 正文3 | 2 | 2 | 2 |
| A | K2 | 描述4 | 正文4 | 2 | 2 | 2 |
| B | K3 | 描述5 | 正文5 | 2 | 2 | 2 |
| C | K3 | 描述6 | 正文6 | 2 | 2 | 2 |

结论：

通过使用Pandas和NumPy的cumsum()方法，我们可以高效地计算每个关键词的累积总和。这种方法不仅简化了代码，还显著提高了处理速度。在实际应用中，我们可以根据需要调整覆盖的比例，以确保数据的完整性和准确性。

总结：

自动化 Pandas NumPy 实时跟踪累积总和唯一ID 数据集

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/42378/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

如何使用Pandas和NumPy计算唯一ID的累积总和：数据处理中的自动化工具

引言：

数据集介绍：

读取数据集

问题描述：

解决方案：

计算每个关键词的累积总和

代码实现：

读取数据集

读取数据集

计算每个关键词的累积总和

结果分析：

结论：

总结：

人生倒计时