在数据分析相关的工作中，Pandas无疑是一个强大的工具，它的易用性和灵活性广受青睐。
然而，随着数据量的不断增长和计算需求的日益复杂，Pandas代码的性能问题也逐渐浮出水面。
如何让Pandas代码运行得更快、更高效，成为了每一个人使用者都需要面对的挑战。

今天，本文就一个简化版的实际分析案例，来一起探讨Pandas代码如何写才能性能更好，让你的数据处理流程更加顺滑，不再为漫长的等待运行而烦恼。

1. 案例介绍

假设有个股票分析的场景，我们需要给所有的股票每天的交易情况做一个评估，评估的结果有3个级别：优，中，差。
其中，“优”的条件是当天成交额大于10亿且收盘价大于开盘价，也就是股票上涨；
“差”的条件是当天成交额小于1亿且收盘价小于开盘价，也就是股票下跌；
除此之外的情况就是“中”。

再次强调一下，这是一个简化的评估方法，主要是为了下面演示Pandas的代码性能，真实的评估不会如此粗糙。

股票交易的数据来自A股2024年1，2月份的日交易数据，大约20多万条。
数据可从地址 https://databook.top/stock/2024 下载。

导入数据：

import pandas as pd

# 这个路径根据实际情况修改
fp = r'D:\data\2024\历史行情数据-东财-不复权-2024.csv'

df = pd.read_csv(fp)
df = df.loc[:, ["股票代码", "日期", "开盘", "收盘", "最高", "最低", "成交量"]]
df

Pandas：如何让你的代码性能飙升

2. 不同写法的性能比较

下面是3种代码的写法都是基于pandas的，完成的功能也是一样的。

2.1. 循环遍历

给每条数据加一个评估的指标，最直接想到的方法就是遍历所有的数据，然后根据每条数据的情况，
给予一个评估指标（优，中，差）。

首先，封装一个评估一条数据的函数：

def eval_stock(row):
    """
    评估一条的数据
    """
    # 成交额
    volumn = row["收盘"] * row["成交量"]
    
    if volumn > 1_000_000_000 and row["收盘"] > row["开盘"]:
        return "优"

    if volumn < 100_000_000 and row["收盘"] < row["开盘"]:
        return "差"

    return "中"

然后用遍历的方式评估我们准备的数据（A股2024年1，2月份的日交易数据）。

for idx, row in df.iterrows():
    df.loc[idx, "评估"] = eval_stock(row)

df

Pandas：如何让你的代码性能飙升

虽然只有20多万条数据，但是执行时间还挺长的，在jupyter notebook 中用 %%timeit 魔法函数测试性能如下。

%%timeit
for idx, row in df.iterrows():
    df.loc[idx, "评估"] = eval_stock(row)

运行结果：

36.4 s ± 367 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

执行一次要36秒多，效率很低。

2.2. apply方法

apply方法是pandas提供的一种灵活处理数据的接口，它允许我们传入一个自定义函数来处理数据。
下面我们看看这种方式的性能如何。

%%timeit
df["评估"] = df.apply(eval_stock, axis=1)

运行结果：

4.9 s ± 86.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

性能提升非常明显（36.4秒->4.9秒），代码也变得更加简洁。

2.3. 向量化方法

最后，我们看看终极的写法，这种写法把pandas的数据结构DataFrame看成是一个一维的向量数组（每列一个向量），而不是一个二维的数值数组。
这样，我们操作数据是以列为单位来操作，看看这样写的性能如何：

%%timeit
df["评估"] = "中"
df.loc[
    (df["收盘"] * df["成交量"] > 1_000_000_000) & (df["收盘"] > df["开盘"]),
    "评估",
] = "优"
df.loc[
    (df["收盘"] * df["成交量"] < 100_000_000) & (df["收盘"] < df["开盘"]), "评估"
] = "差"

运行结果：

8.22 ms ± 434 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

运行时间几乎可以忽略不计。

3. 总结

同样使用pandas写数据分析的代码，性能差距居然会如此天差地别。

可见，学习pandas，不仅仅是学习它的各种接口和函数，
更重要的是了解从pandas执行的角度应该如何看待数据，是把数据看成一个一个独立的值，还是一行一行或一列一列的向量。
只有这样，才能用pandas高效的处理数据，这在数据量膨胀之后，会大大提高我们分析的效率。

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录一、开篇：Python最独特的设计二、缩进的基本规则 2.1 用空格还是Tab 2.2 缩进层级 2.3 什么情况下需要缩进三、缩进的嵌套 3.1 多层缩进 3.2 缩进的可视化理...

目录引言一、concurrent.futures基础 1.1 模块概述 1.2 基本使用模式 1.3 核心组件二、ThreadPoolExecutor详解 2.1 创建线程池 2.2 提交任务 2.3 批量提交任务...

目录前言一、函数：把重复代码封装起来二、函数参数：让函数处理不同的数据 1. 参数个数要匹配 2. Python 的参数不需要写类型三、函数返回值：把结果交还给调用者 1. r...

目录环境准备什么是内容控件添加组合框内容控件添加纯文本内容控件添加图片内容控件添加日期选择器内容控件添加下拉列表内容控件实用技巧锁定内容控件设置控...

目录项目概述游戏实现初始化与基础设置颜色定义砖块颜色与布局核心类设计 1. 挡板类（Paddle） 2. 小球类（Ball） 3. 砖块类（Brick） 4. 粒子类（Particle） ...

目录项目概述游戏实现初始化与基础设置颜色与方块样式配置字体加载函数核心函数设计 1. 网格操作 2. 核心滑动算法 3. 游戏状态检测核心类设...

目录导出依赖包安装依赖包原理 PyCharm查看和管理依赖包总结导出依赖包pip freeze > requirements.txt依赖包文件requirements.txt的内容如下：Django==2.1.15Pillow==7.1...

目录一、安装Poetry 不要在全局环境使用以下指令使用官方的安装指令前设置安装路径(可选) 二、设置使用项目内环境三、修改Python版本范围四、建立项目包总...

目录一、背景：为什么要去动 QDateTimeEdit？二、问题：原生 QDateTimeEdit 到底卡在哪？ 2.1 QSS 样式支持有限 2.2 时间选择体验糟糕 2.3 日期和时间"绑"在一起三、方案：拆...

目录环境准备 PDF 背景的应用场景设置纯色背景使用平铺图片作为背景实用技巧与高级应用封装背景管理工具类常见应用场景示例背景设计的最佳实践常见问题与解决...

1. 案例介绍

2. 不同写法的性能比较

2.1. 循环遍历

2.2. apply方法

2.3. 向量化方法

3. 总结

可能感兴趣的文章

热门文章