pytorch GPU计算比CPU还慢的可能原因分析 - 教程之家

1. 张量（tensor）太小，难以并行化计算

我们先来做个简单实验：

import torch
import time

def train(size_list, epochs):

    for s in size_list:

        # CPU
        start_time1 = time.time()
        a = torch.ones(s,s)
        for _ in range(epochs):
            a += a
        cpu_time = time.time() - start_time1

        # GPU
        start_time2 = time.time()
        b = torch.ones(s,s).cuda()
        for _ in range(epochs):
            b += b
        gpu_time = time.time() - start_time2

        print('s = %d, CPU_time = %.4fs, GPU_time = %.4fs'%(s, cpu_time, gpu_time))

size_list = [8, 32, 128, 512]
epochs = 100000
train(size_list, 100000)

s = 8, CPU_time = 0.2252s, GPU_time = 0.6376s
s = 32, CPU_time = 0.3321s, GPU_time = 0.6468s
s = 128, CPU_time = 2.2634s, GPU_time = 0.6493s
s = 512, CPU_time = 9.6728s, GPU_time = 1.5587s

可以看到，在tensor维度比较低(s = 8, 32) 时，CPU的计算耗时比GPU少，这是因为把数据从CPU搬到GPU也是需要时间的，GPU加速带来的收益被这部分搬运时间抵消了，完全展示不出cuda的加速功能。

当tensor维度达到128或以上时，GPU的计算耗时显著低于CPU的计算耗时，这时GPU加速带来的收益远高于搬运数据所花费的时间，展示出GPU加速的强大能力（老黄牛批！）。

咳咳，分析一下：

GPU加速通过大量的计算并行化来工作。 GPU有大量的内核，每个内核都不是很强大，但是核心数量巨大。PyTorch可以使它们尽可能地并行计算，在tensor维度比较高的情况下，GPU能够并行化更多的整体计算，显著减少计算耗时。

因此，如果遇到pytorch 用CPU比GPU还快的情况时，可以看看dataloader里单次输入的 x 维度是否太低，如果太低可以把 batch_size 调大一点，可以的话增加一下数据维度，单次输入的tensor的shape越大，GPU越能并行化计算。

当然，也不要设的太大了，比如batch_size设个大几万啥的，再强的显卡也遭不住这么折腾。

2. 模型太过简单

GPU的强大体现在它的并行计算，数据越大，模型越复杂越能体现出来。

太过简单的模型CPU一下子就算完了，此时的GPU可能才刚接收完数据，没法体现GPU的强大。

因此，解决方案也很简单，换个复杂点的模型或者加深加宽现有的神经网络模型。

3. CPU 相对 GPU 强太多

在相同的、没调好的参数情况下，有时候64核的CPU用60%的核心（也就是38个）也能达到一张2080ti显卡（GPU）的效果。

如果CPU是个64核的芯片，而显卡是老黄家的古董960，那CPU比GPU快也是完全有可能的，这时候瓶颈就在显卡了。

总结

以上是我在写~~bug~~代码时遇到的情况及可能原因，希望能给大家一个参考，也希望大家多多支持。

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录一、开篇：Python最独特的设计二、缩进的基本规则 2.1 用空格还是Tab 2.2 缩进层级 2.3 什么情况下需要缩进三、缩进的嵌套 3.1 多层缩进 3.2 缩进的可视化理...

目录引言一、concurrent.futures基础 1.1 模块概述 1.2 基本使用模式 1.3 核心组件二、ThreadPoolExecutor详解 2.1 创建线程池 2.2 提交任务 2.3 批量提交任务...

目录前言一、函数：把重复代码封装起来二、函数参数：让函数处理不同的数据 1. 参数个数要匹配 2. Python 的参数不需要写类型三、函数返回值：把结果交还给调用者 1. r...

目录环境准备什么是内容控件添加组合框内容控件添加纯文本内容控件添加图片内容控件添加日期选择器内容控件添加下拉列表内容控件实用技巧锁定内容控件设置控...

目录项目概述游戏实现初始化与基础设置颜色定义砖块颜色与布局核心类设计 1. 挡板类（Paddle） 2. 小球类（Ball） 3. 砖块类（Brick） 4. 粒子类（Particle） ...

目录项目概述游戏实现初始化与基础设置颜色与方块样式配置字体加载函数核心函数设计 1. 网格操作 2. 核心滑动算法 3. 游戏状态检测核心类设...

目录导出依赖包安装依赖包原理 PyCharm查看和管理依赖包总结导出依赖包pip freeze > requirements.txt依赖包文件requirements.txt的内容如下：Django==2.1.15Pillow==7.1...

目录一、安装Poetry 不要在全局环境使用以下指令使用官方的安装指令前设置安装路径(可选) 二、设置使用项目内环境三、修改Python版本范围四、建立项目包总...

目录一、背景：为什么要去动 QDateTimeEdit？二、问题：原生 QDateTimeEdit 到底卡在哪？ 2.1 QSS 样式支持有限 2.2 时间选择体验糟糕 2.3 日期和时间"绑"在一起三、方案：拆...

目录环境准备 PDF 背景的应用场景设置纯色背景使用平铺图片作为背景实用技巧与高级应用封装背景管理工具类常见应用场景示例背景设计的最佳实践常见问题与解决...

目录

1. 张量（tensor）太小，难以并行化计算

2. 模型太过简单

3. CPU 相对 GPU 强太多

总结

可能感兴趣的文章

热门文章