pandas快速处理Excel,替换Nan,转字典的操作 - 教程之家

pandas读取Excel

import pandas as pd
# 参数1：文件路径，参数2：sheet名
pf = pd.read_excel(path, sheet_name='sheet1')

删除指定列

# 通过列名删除指定列
pf.drop(['序号', '替代', '签名'], axis=1, inplace=True)

替换列名

# 旧列名 新列名对照
columns_map = {
    '列名1': 'newname_1',
    '列名2': 'newname_2',
    '列名3': 'newname_3',
    '列名4': 'newname_4',
    '列名5': 'newname_5',
    # 没有列名的情况
    'Unnamed: 10': 'newname_6',
}
new_fields = list(columns_map.values())
pf.rename(columns=columns_map, inplace=True)
pf = pf[new_fields]

替换 Nan

通常使用

pf.fillna('新值')

替换表格中的空值，（Nan）。

但是，你可能会发现 fillna() 会有不好使的时候，记得加上 inplace=True

# 加上 inplace=True 表示修改原对象
pf.fillna('新值', inplace=True)

官方对 inplace 的解释

inplace : boolean, default False

If True, fill in place. Note: this will modify any other views on this object, (e.g. a no-copy slice for a column in a DataFrame).

全列输出不隐藏

你可能会发现，输出表格的时候会出现隐藏中间列的情况，只输出首列和尾列，中间用 … 替代。

加上下面的这句话，再打印的话，就会全列打印。

pd.set_option('display.max_columns', None)
print(pf)

将Excel转换为字典

pf_dict = pf.to_dict(orient='records')

全部代码

import pandas as pd
pf = pd.read_excel(path, sheet_name='sheet1')
columns_map = {
    '列名1': 'newname_1',
    '列名2': 'newname_2',
    '列名3': 'newname_3',
    '列名4': 'newname_4',
    '列名5': 'newname_5',
    # 没有列名的情况
    'Unnamed: 10': 'newname_6',
}
new_fields = list(columns_map.values())
pf.drop(['序号', '替代', '签名'], axis=1, inplace=True)
pf.rename(columns=columns_map, inplace=True)
pf = pf[new_fields]
pf.fillna('Unknown', inplace=True)
# pd.set_option('display.max_columns', None)
# print(smt)
pf_dict = pf.to_dict(orient='records')

补充：python pandas replace 0替换成nan，bfill/ffill

0替换成nan

一般情况下，0 替换成nan会写成

df.replace(0, None, inplace=True)

然而替换不了，应该是这样的

df.replace(0, np.nan, inplace=True)

nan替换成前值后值

df.ffill(axis=0) # 用前一个值替换
df.bfill(axis=0) # 用后一个值替换

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录导出依赖包安装依赖包原理 PyCharm查看和管理依赖包总结导出依赖包pip freeze > requirements.txt依赖包文件requirements.txt的内容如下：Django==2.1.15Pillow==7.1...

目录一、安装Poetry 不要在全局环境使用以下指令使用官方的安装指令前设置安装路径(可选) 二、设置使用项目内环境三、修改Python版本范围四、建立项目包总...

目录一、背景：为什么要去动 QDateTimeEdit？二、问题：原生 QDateTimeEdit 到底卡在哪？ 2.1 QSS 样式支持有限 2.2 时间选择体验糟糕 2.3 日期和时间"绑"在一起三、方案：拆...

目录环境准备 PDF 背景的应用场景设置纯色背景使用平铺图片作为背景实用技巧与高级应用封装背景管理工具类常见应用场景示例背景设计的最佳实践常见问题与解决...

目录背景如何将正整数转化为罗马数字完整的代码运行背景TkDocs tutorial 里介绍了 Tkinter，其中有 A First (Real) Example 一文，这篇文章里有一个使用 Tkinter 生成图形...

一、time 模块time模块是Python标准库中最基础、最常用的模块之一。它提供了各种处理时间的方法和函数，如获取当前时间、格式化时间、计算时间差等。time模块大部分函数的底...

目录 1. 安装与卸载 Poetry 2. 查看 Poetry 版本 3. 查看 Poetry 的位置 4. 依赖安装 Poetry 的优势在现代软件开发中，Python 因其简洁和强大的功能而广受欢迎。然而，随着项目...

目录引言使用Python保存PPT中的所有形状为图像文件用Python保存PPT中带格式设计的图片为图像文件引言将PowerPoint演示文稿中的形状（幻灯片中的内容元素，包括文本框、图形...

目录前言用Python删除PDF文档页边距前言在处理PDF文档时，有时候我们会遇到PDF文件带有较大的页边距的情况。这样过大的页边距不仅浪费了页面空间，而且在打印或电子阅读时也...

目录环境介绍类和函数区别封装性：状态保持：可重用性：继承和多态：设计模式：代码组织：执行流程：参数传递：返回值：上下文管理：总结环境window10，pyc...