Python中多进程处理的Process和Pool的用法详解

来自：网络

时间：2024-03-18

阅读：

在Python编程中，多进程是一种强大的并行处理技术，可以显著提高程序的性能和效率。Python标准库中的multiprocessing模块提供了两种主要的多进程处理方式：Process和Pool。本文将详细介绍这两种方式的使用方法、特性以及在实际项目中的应用场景。

Process和Pool的介绍

1、 Process

Process类是multiprocessing模块中的一个核心类，用于创建一个单独的进程。每个Process对象都可以执行一个函数或者方法，从而在单独的进程中执行任务。

2、 Pool

Pool类是multiprocessing模块中的另一个重要类，用于创建一个进程池，可以并行地执行多个任务。Pool类提供了多种方法来管理进程池中的进程，例如apply(), map(), apply_async()等。

使用示例

1、使用Process类

下面是一个简单的示例，展示了如何使用Process类创建并启动一个进程：

import multiprocessing
import time
 
def worker(name):
    print(f"Worker {name} is starting.")
    time.sleep(2)
    print(f"Worker {name} is exiting.")
 
if __name__ == "__main__":
    p1 = multiprocessing.Process(target=worker, args=("A",))
    p2 = multiprocessing.Process(target=worker, args=("B",))
    
    p1.start()
    p2.start()
    
    p1.join()
    p2.join()

在这个示例中，定义了一个worker函数，它会在进程中执行一些任务。然后创建了两个Process对象，分别指定了worker函数作为目标函数，并传入不同的参数。最后，通过调用start()方法启动进程，并通过join()方法等待进程执行完成。

2、使用Pool类

下面是一个简单的示例，展示了如何使用Pool类创建并使用进程池：

import multiprocessing
import time
 
def worker(name):
    print(f"Worker {name} is starting.")
    time.sleep(2)
    print(f"Worker {name} is exiting.")
 
if __name__ == "__main__":
    pool = multiprocessing.Pool(processes=2)
    pool.map(worker, ["A", "B"])
    pool.close()
    pool.join()

在这个示例中，使用Pool类创建了一个进程池，指定了最大进程数为2。然后使用map()方法将任务分配给进程池中的进程执行。最后通过调用close()方法关闭进程池，并调用join()方法等待所有进程执行完成。

应用场景

1、并行计算

在需要进行大规模数据处理或计算密集型任务时，使用多进程可以显著提高程序的运行速度。例如，假设需要计算一组数字的平方和，可以将任务分配给多个进程并行计算，然后汇总结果。

以下是一个简单的示例：

import multiprocessing
 
def square_sum(numbers):
    return sum(x ** 2 for x in numbers)
 
if __name__ == "__main__":
    numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    num_processes = 4
    pool = multiprocessing.Pool(processes=num_processes)
    chunk_size = len(numbers) // num_processes
    chunks = [numbers[i:i+chunk_size] for i in range(0, len(numbers), chunk_size)]
    results = pool.map(square_sum, chunks)
    total_sum = sum(results)
    print("Total square sum:", total_sum)
    pool.close()
    pool.join()

在这个示例中，将数字列表分成了4个子列表，然后使用进程池并行计算每个子列表的平方和，最后汇总结果得到总的平方和。这样可以大大加快计算速度，特别是当数据规模很大时。

2、 IO密集型任务

在需要大量IO操作的任务中，如文件读写、网络请求等，使用多进程可以避免IO阻塞，提高程序的响应速度。例如，假设需要同时下载多个文件，可以将每个文件的下载任务分配给不同的进程并行执行，从而提高下载效率。

以下是一个简单的示例：

import multiprocessing
import requests
 
def download_file(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)
    print(f"Downloaded {filename} from {url}")
 
if __name__ == "__main__":
    urls = [
        ("https://example.com/file1.txt", "file1.txt"),
        ("https://example.com/file2.txt", "file2.txt"),
        ("https://example.com/file3.txt", "file3.txt")
    ]
    num_processes = len(urls)
    pool = multiprocessing.Pool(processes=num_processes)
    pool.starmap(download_file, urls)
    pool.close()
    pool.join()

在这个示例中，将需要下载的文件URL和文件名组成的元组列表传递给starmap()方法，然后使用进程池并行执行下载任务。这样可以同时下载多个文件，提高下载效率。

3 并行任务处理

在需要处理大量相互独立的任务时，可以使用多进程并行地处理这些任务。例如，假设需要处理一批图片文件，包括压缩、调整大小、加水印等操作，可以将每个图片文件的处理任务分配给不同的进程并行处理，从而提高处理速度。

以下是一个简单的示例：

import multiprocessing
from PIL import Image
 
def process_image(filename):
    img = Image.open(filename)
    # 进行图片处理操作，如压缩、调整大小、加水印等
    img.thumbnail((300, 300))
    img.save(f"processed_{filename}")
    print(f"Processed {filename}")
 
if __name__ == "__main__":
    filenames = ["image1.jpg", "image2.jpg", "image3.jpg"]
    num_processes = len(filenames)
    pool = multiprocessing.Pool(processes=num_processes)
    pool.map(process_image, filenames)
    pool.close()
    pool.join()

在这个示例中，将需要处理的图片文件名列表传递给map()方法，然后使用进程池并行执行图片处理任务。这样可以同时处理多张图片，提高处理速度。

总结

本文介绍了Python中的两种多进程处理方式：Process和Pool，并通过示例代码演示了它们的基本用法。同时，也探讨了多进程在实际项目中的应用场景，包括并行计算、IO密集型任务和并行任务处理等。多进程处理是Python中一种强大的并行处理技术，可以提高程序的性能和效率，特别是在处理大规模数据或IO密集型任务时具有明显的优势。

天地图是中国国家测绘地理信息局推出的一款权威、全面的在线地理信息系统，提供了丰富的卫星影像、地形、矢量图等地图资源。开发者可以通过天地图提供的API接口，实现地图的展

2024-12-23 01:12:05

一、time 模块time模块是Python标准库中最基础、最常用的模块之一。它提供了各种处理时间的方法和函数，如获取当前时间、格式化时间、计算时间差等。time模块大部分函数的底

2024-11-18 10:17:21

目录 1. 安装与卸载 Poetry 2. 查看 Poetry 版本 3. 查看 Poetry 的位置 4. 依赖安装 Poetry 的优势在现代软件开发中，Python 因其简洁和强大的功能而广受欢迎。然而，随着项目

2024-11-10 12:23:07

目录 Python 日期和时间戳的转换 Python中处理时间的模块 Python的time模块将时间戳转换为格式化字符串 Python 的datetime模块 datetime模块中定义的类（这些

2024-10-20 21:50:48

目录 1. 异步组件 1.1 使用 defineAsyncComponent 1.2 预加载 2. 路由懒加载 3. 动态组件 4. 事件触发的动态加载 5. 按需加载与状态管理结合结论 1. 异步组

2024-10-20 21:50:41

目录引言使用Python保存PPT中的所有形状为图像文件用Python保存PPT中带格式设计的图片为图像文件引言将PowerPoint演示文稿中的形状（幻灯片中的内容元素，包括文本框、图形

2024-10-20 21:50:28

目录前言用Python删除PDF文档页边距前言在处理PDF文档时，有时候我们会遇到PDF文件带有较大的页边距的情况。这样过大的页边距不仅浪费了页面空间，而且在打印或电子阅读时也

2024-10-20 21:50:20

目录 1.引言 2.准备工作 3.基础理论知识 4.步骤详解 5.常见问题解答 6.成果案例分享 7.案例代码示例1.引言火柴人（Stick Figure）是一种极简风格的图形，通常由简单的线段和圆圈

2024-10-20 21:50:09

目录环境介绍类和函数区别封装性：状态保持：可重用性：继承和多态：设计模式：代码组织：执行流程：参数传递：返回值：上下文管理：总结环境window10，pyc

2024-10-20 21:50:03

目录一、JWT的介绍二、JWT的组成 1、Header（头部） 2、Payload（负载） 3、Signature（签名）三、Python写JWT 1、安装Jwt 2、使用JWT 3、解密JWT 总结一、JWT的介绍JW

2024-10-18 23:10:58

目录视频转换成 GIF 图形的重要性 1. 增强表达效果 2. 适应性强 3. 文件大小优化 4. 易于创建和编辑 5. 吸引用户注意力 6. 简化获取信息的步骤用python实现视gif

2024-10-18 23:10:46

目录前言 1. 构建分子式 2. 判断化合价 3. 解析分子式 4. 化合物反应方程式平衡 5. 化合物的摩尔质量计算 6. 计算化合物的质量分数 7. 计算反应热 8. 计算化合物的pH值总

2024-10-18 23:10:16

目录 1 创建 pytest.ini 文件 2 常见参数及配置方法 3 高级配置 4 结论1 创建 pytest.ini 文件在项目的根目录下，创建一个名为 pytest.ini 的文件即可。pytest 会在执行测试

2024-10-18 23:10:06

目录一、XPATH概念二、常用规则与方法 1.f12例子: 2.节点获取文本 3.属性匹配 4. 属性获取 5.iframe标签处理三、同级节点元素定位四、关键字定位五、定位

2024-10-18 23:09:49

目录引言发送GET请求获取页面的二进制数据添加查询参数发送POST请求处理JSON数据设置自定义Header 发送带认证信息的请求发送带有表单数据的请求发送带有文件的请

2024-10-18 23:09:30

安装CPU版本：(以2.9.0版本为例)pip install tensorflow==2.9.0安装GPU版本：(以2.9.0版本为例)pip install tensorflow-gpu==2.9.0若下载缓慢，使用阿里国内镜像源加速下载：(以2.9

2024-10-14 19:47:12

目录概述用asyncio实现Hello world 总结概述Python中 asyncio 模块内置了对异步IO的支持，用于处理异步IO；是Python 3.4版本引入的标准库。asyncio 的编程模型就是一个消息循

2024-10-14 19:47:02

目录 1. 问题描述 2. 解决办法 2.1 办法一：进入Script 进行安装 2.2 办法二：设置环境变量总结 1. 问题描述这几天一直用python实战，今天用pip想要安装一个库，结果突然报了

2024-10-14 19:46:53

目录实践环境问题域定义协议格式(编写proto文件) 编译协议缓冲区协议缓冲区 API 枚举标准消息方法解析和序列化编写消息读取消息另一个示例参考链接

2024-10-14 19:46:35

目录使用pip时报NameError: name‘pip’is not defined错误 1. 问题描述 2. 解决办法总结使用pip时报NameError: name‘pip’is not defined错

2024-10-14 19:46:27

目录 1. 概述 2. arange() 2.1 语法 2.2 参数 2.3 实例总结 1. 概述Numpy 中 arange() 主要是用于生成数组，具体用法如下；2. arange()2.1 语法numpy.arange(start, sto

2024-10-14 19:46:12

目录 1. 概述 2. vstack() 2.1 语法 2.2 参数 2.3 实例 3. hstack() 3.1 语法 3.2 参数 3.3 实例总结 1. 概述在Numpy中，最希望处理的数据就是数组和矩阵，下面就

2024-10-14 19:46:03

目录 Python列表简介 NumPy数组简介性能比较 1. 数组操作 2. 循环操作内存使用比较 1. 内存占用 2. 大数据集结论在Python中，处理数值数据时，我们通常面临两种选

2024-10-14 19:45:55

目录引言基础语法介绍核心概念基本语法规则基础实例问题描述代码示例进阶实例问题描述高级代码实例实战案例问题描述解决方案代码实现扩展

2024-10-14 19:45:46

目录引言 Python Excel库 Python 在Excel 中的添加数据条引言在Excel中添加数据条是一种数据可视化技巧，它通过条形图的形式在单元格内直观展示数值的大小，尤其适合比较同一

2024-10-14 19:45:37

目录

一、引言

二、什么是查询集？

2.1 创建查询集

三、查询集的延迟加载

3.1 查询集的惰性行为

2024-10-14 19:44:53

字符串问题我正在使用 python 通过 jdbc（或 odbc）访问 iris 数据库。我想将数据提取到 pandas 数据框中来操作数据并从中创建图表。我在使用 jdbc 时遇到了字符串处理问题。

2024-09-30 00:07:53

您的组织是否拥有太多 github 存储库，并且您需要一种简单的方法来总结和记录每个存储库的内容以用于报告、仪表板或审计目的？下面是一个使用 github api 完成该操作的快速脚本

2024-09-30 00:07:10

Python构建代理池构建有效的代理池对于爬虫任务至关重要，因为它可以绕过网站反爬或提升爬虫效率。在Python中构建代理池的方法如下：一、收集代理免费代理网站：如FreeProxyList

2024-09-18 16:06:35

&emsp;&emsp;本文介绍基于Python语言，针对一个文件夹下大量的Excel表格文件，对其中的每一个文件加以操作——将其中指定的若干列的数据部分都向上移动一行，并将所有

2024-09-09 23:42:47

2020-10-21

2021-03-02

2020-05-07

2020-05-26

2021-01-13

2021-04-02

2020-05-10

2020-05-09

2020-05-10

2020-10-21

Python中多进程处理的Process和Pool的用法详解

目录

Process和Pool的介绍

使用示例

1、使用Process类

2、 使用Pool类

应用场景

1、 并行计算

2、 IO密集型任务

3 并行任务处理

总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道

2、使用Pool类

1、并行计算