Pandas无疑是我们数据分析时一个不可或缺的工具，它以其强大的数据处理能力、灵活的数据结构以及易于上手的API赢得了广大数据分析师和机器学习工程师的喜爱。

然而，随着数据量的不断增长，如何高效、合理地管理内存，确保Pandas DataFrame在运行时不会因内存不足而崩溃，成为我们每一个人必须面对的问题。

在这个信息爆炸的时代，数据规模呈指数级增长，如何优化内存使用，不仅关乎到程序的稳定运行，更直接关系到数据处理的效率和准确性。通过本文，你将了解到一些实用的内存优化技巧，帮助你在处理大规模数据集时更加得心应手。

1. 准备数据

首先，准备一些包含各种数据类型的测试数据集。
封装一个函数（fake_data），用来生成数据集，数据集中包含后面用到的几种字段。

import pandas as pd
import numpy as np

def fake_data(size):
    """
    根据测试数据集：
    age：整数类型数值
    grade：有限个数的字符串
    qualified：是否合格
    ability：能力评估，浮点类型数值
    """
    df = pd.DataFrame()
    df["age"] = np.random.randint(1, 30, size)
    df["grade"] = np.random.choice(
        [
            "一年级",
            "二年级",
            "三年级",
            "四年级",
            "五年级",
            "六年级",
        ],
        size,
    )
    df["qualified"] = np.random.choice(["合格", "不合格"], size)
    df["ability"] = np.random.uniform(0, 1, size)

    return df

2. 检测内存占用

使用上面封装的函数（fake_data）先构造一个包含一百万条数据的DataFrame。

df = fake_data(1_000_000)
df.head()

pandas DataFrame内存优化技巧：让数据处理更高效

看看优化前的内存占用情况：

df.info()

pandas DataFrame内存优化技巧：让数据处理更高效
内存占用大约 26.7MB 左右。

3. 优化内存

接下来，我们开始一步步优化DataFrame的内存占用，
并测试每一步优化之后的内存使用情况和运行性能变化。

3.1. 优化整型数据

首先，优化整型数据的内存占用，也就是测试数据中的年龄（age）字段。
从上面df.info()的结果中，我们可以看出，age的类型是int32（也就是用32位，8个字节来存储整数）。
对于年龄来说，用不到这么大的整数，用int8（数值范围：-128~127）来存储绰绰有余。

df["age"] = df["age"].astype("int8")
df.info()

pandas DataFrame内存优化技巧：让数据处理更高效
优化之后，内存占用从26.7+ MB减到23.8+ MB。

3.2. 优化浮点型数据

接下来优化浮点类型数据，也就是测试数据中的能力评估值（ability）。
测试数据中ability的值是6位小数，类型是float64，
转换成float16可能会改变值，所以这里转换成float32。

df["ability"] = df["ability"].astype("float32")
df.info()

pandas DataFrame内存优化技巧：让数据处理更高效
优化之后，内存占用进一步从23.8+ MB减到20.0+ MB。

3.3. 优化布尔型数据

接下来，优化测试数据中的是否合格（qualified）,
这个值虽然是字符串类型，但是它的值只有两种（合格和不合格），所以可以转换成布尔类型。

df["qualified"] = df["qualified"].map({"合格": True, "不合格": False})
df.info()

pandas DataFrame内存优化技巧：让数据处理更高效
优化之后，内存占用进一步从20.0+ MB减到13.4+ MB。

3.4. 使用category类型

最后，我们再优化剩下的字段--年级（grade）。

这个字段也是字符串，不过它的值只有6个，虽然无法转换成布尔类型（布尔类型只有两种值True和False），但是它可以转换为pandas中的 category 类型。

df["grade"] = df["grade"].astype("category")
df.info()

pandas DataFrame内存优化技巧：让数据处理更高效
优化之后，内存占用进一步从13.4+ MB减到6.7+ MB。

4. 总结

各类字段优化之后，内存占用从刚开始的26.7+ MB减到6.7+ MB，优化的效果非常明显。

仅仅是数据类型的简单调整，就带来了如此之大的内存效率提升，
这也给我们带来启示，在数据分析的过程中，构造DataFrame时，也可以根据数值的范围，特点等，
来赋予它合适的类型，不要一味简单的使用字符串，或者默认的整数（int32），默认的浮点（float64）等类型。

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录一、开篇：Python最独特的设计二、缩进的基本规则 2.1 用空格还是Tab 2.2 缩进层级 2.3 什么情况下需要缩进三、缩进的嵌套 3.1 多层缩进 3.2 缩进的可视化理...

目录引言一、concurrent.futures基础 1.1 模块概述 1.2 基本使用模式 1.3 核心组件二、ThreadPoolExecutor详解 2.1 创建线程池 2.2 提交任务 2.3 批量提交任务...

目录前言一、函数：把重复代码封装起来二、函数参数：让函数处理不同的数据 1. 参数个数要匹配 2. Python 的参数不需要写类型三、函数返回值：把结果交还给调用者 1. r...

目录环境准备什么是内容控件添加组合框内容控件添加纯文本内容控件添加图片内容控件添加日期选择器内容控件添加下拉列表内容控件实用技巧锁定内容控件设置控...

目录项目概述游戏实现初始化与基础设置颜色定义砖块颜色与布局核心类设计 1. 挡板类（Paddle） 2. 小球类（Ball） 3. 砖块类（Brick） 4. 粒子类（Particle） ...

目录项目概述游戏实现初始化与基础设置颜色与方块样式配置字体加载函数核心函数设计 1. 网格操作 2. 核心滑动算法 3. 游戏状态检测核心类设...

目录导出依赖包安装依赖包原理 PyCharm查看和管理依赖包总结导出依赖包pip freeze > requirements.txt依赖包文件requirements.txt的内容如下：Django==2.1.15Pillow==7.1...

目录一、安装Poetry 不要在全局环境使用以下指令使用官方的安装指令前设置安装路径(可选) 二、设置使用项目内环境三、修改Python版本范围四、建立项目包总...

目录一、背景：为什么要去动 QDateTimeEdit？二、问题：原生 QDateTimeEdit 到底卡在哪？ 2.1 QSS 样式支持有限 2.2 时间选择体验糟糕 2.3 日期和时间"绑"在一起三、方案：拆...

目录环境准备 PDF 背景的应用场景设置纯色背景使用平铺图片作为背景实用技巧与高级应用封装背景管理工具类常见应用场景示例背景设计的最佳实践常见问题与解决...