其他

Python多进程编程指南：深入理解multiprocessing模块

悠悠楠杉

2025-08-07

0 评论

29 阅读

正在检测是否收录...

08/07

Python多进程编程指南：深入理解multiprocessing模块

关键词：Python多进程、multiprocessing、进程池、进程通信、并行计算
描述：本文全面解析Python multiprocessing模块的核心用法，通过实例演示多进程创建、进程间通信和进程池应用，帮助开发者突破GIL限制实现真正并行。

一、为什么需要多进程？

在CPU密集型任务中，Python的GIL（全局解释器锁）会导致多线程无法真正并行。笔者曾处理过一个图像处理项目，当尝试用多线程处理5000张图片时，执行时间几乎没有缩短——这正是GIL的典型限制场景。

多进程通过创建独立内存空间的进程来规避GIL：
- 每个进程拥有独立的Python解释器
- 适合CPU密集型任务
- 可跨多核CPU实现真正并行

二、multiprocessing核心组件

1. Process类基础用法

python
from multiprocessing import Process
import os

def task(name):
print(f"子进程 {name} PID: {os.getpid()}")

if name == 'main':
processes = []
for i in range(3):
p = Process(target=task, args=(f"worker-{i}",))
processes.append(p)
p.start()

for p in processes:
    p.join()  # 等待子进程结束

关键点说明：
- if __name__ == '__main__': 是Windows平台必需的安全措施
- start()启动进程，join()实现进程同步
- 每个进程有独立的PID（通过os.getpid()获取）

2. 进程间通信方案

队列（Queue）实现生产者-消费者

python
from multiprocessing import Queue, Process

def producer(q):
for i in range(5):
q.put(f"产品-{i}")

def consumer(q):
while True:
item = q.get()
if item is None: # 终止信号
break
print(f"消费: {item}")

if name == 'main':
q = Queue()
procs = [
Process(target=producer, args=(q,)),
Process(target=consumer, args=(q,))
]

for p in procs: p.start()
procs[0].join()  # 等待生产者结束
q.put(None)  # 发送结束信号

共享内存（Value/Array）

python
from multiprocessing import Process, Value, Array

def increment(n, arr):
n.value += 1
for i in range(len(arr)):
arr[i] *= 2

if name == 'main':
num = Value('d', 0.0)
arr = Array('i', range(10))

p = Process(target=increment, args=(num, arr))
p.start()
p.join()

print(num.value)  # 输出: 1.0
print(arr[:])     # 输出: [0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

类型代码说明：
- 'd'表示双精度浮点
- 'i'表示有符号整数

3. 进程池（Pool）高效管理

python
from multiprocessing import Pool
import time

def process_task(x):
time.sleep(1) # 模拟耗时操作
return x * x

if name == 'main':
with Pool(4) as pool: # 4个工作进程
# map方法阻塞式执行
results = pool.map(process_task, range(10))
print(results) # [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

    # apply_async非阻塞
    async_result = pool.apply_async(process_task, (20,))
    print(async_result.get(timeout=2))  # 400

Pool常用方法：
- map(func, iterable)：并行映射
- apply_async：异步执行单个任务
- imap_unordered：迭代器形式返回无序结果

三、实战经验与避坑指南

僵尸进程处理：
务必调用join()或设置daemon=True，笔者曾因未正确处理导致服务器进程数超限。
Windows平台特殊配置：
python if __name__ == '__main__': multiprocessing.freeze_support() # 打包成exe时需要
性能优化技巧：
- 进程创建开销大，适合长时间运行任务
- 共享内存比Queue更快，但要注意同步问题
- 使用initializer参数预加载资源

四、与其他并发方案对比

| 方案 | 适用场景 | 优点 | 缺点 |
|---------------|-----------------|----------------------|-------------------|
| 多进程 | CPU密集型 | 真并行，突破GIL | 内存消耗大 |
| 多线程 | IO密集型 | 轻量级，共享内存 | 受GIL限制 |
| asyncio | 高并发网络IO | 单线程高并发 | 需要异步生态支持 |

结语：合理使用多进程能让Python突破性能瓶颈。笔者建议从简单Process开始，逐步掌握进程通信机制，最终过渡到Pool实现优雅的并行处理。记住——多进程不是银弹，需要根据具体场景选择并发方案。

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/35117/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

至尊技术网

Python多进程编程指南：深入理解multiprocessing模块

Python多进程编程指南：深入理解multiprocessing模块

一、为什么需要多进程？

二、multiprocessing核心组件

1. Process类基础用法

2. 进程间通信方案

队列（Queue）实现生产者-消费者

共享内存（Value/Array）

3. 进程池（Pool）高效管理

三、实战经验与避坑指南

四、与其他并发方案对比

人生倒计时

最新回复

标签云