Python 利用CSV模块处理数据的实现实例 - 教程之家

一、CSV模块简介

考虑下面的CSV文件：salary.csv。虽然可以使用str.split(‘,’)这样的方式处理数据，但是当遇到带逗号分隔的金额会导致拆分错误，除此之外还可能遇到其他各种问题：

id,name,hire_date, salary ,bonus
1,Vincent,2024/1/1," 1,000.00 ",100
2,Victor,2024/1/2," 2,000.00 ",200
3,Grace,2024/1/3," 3,000.00 ",300

使用split拆分代码如下，金额1,000.00被错误的分成了2段：

input_file = 'salary.csv'
with open(input_file, 'r', newline='') as fi:
        header = fi.readline()
        header = header.strip()
        header_list = header.split(',')
        print(header_list)
        for row  in fi:
            field_list = row.strip().split(',')
            print(field_list)

Python 利用CSV模块处理数据的实现实例

对于这类问题，建议选择标准库中的CSV模块来进行处理，CSV模块被设计成能够识别微软Excel所采用的编码规则，可以识别出这种模式并正确的分析数据。

CSV模块常用函数如下：

csv.reader(csvfile, dialect=‘excel’, **fmtparams)，返回一个reader对象，通过该对象处理csvfile中的数据，此函数用来打开输入文件。csvfile必须是包含字符串的可迭代对象，通常是文件型对象或列表，如果csvfile是一个文件对象，则打开时应设置newline=‘’。csv.writer(csvfile, dialect=‘excel’, **fmtparams)，返回一个writer对象，该对象负责将数据在给定的文件型对象上转换为带分隔符的字符串，此函数用来打开输出文件。如果csvfile是一个文件对象，则打开时应设置newline=‘’。

二、用法示例

下面两个示例演示从CSV文件中选取特定的行、列，更复杂的操作都可以在此基础上进行扩展。

2.1 使用CSV模块选取特定的行

对于文件salary.csv，过滤出salary列大于1000的行，并写入results.csv。由于原数据类型为字符串且包含逗号，所以需要先去除值里的逗号，最后用float函数转换为浮点数与1000进行比较。筛选出符合条件的数据后调用writer对象上的writerow方法逐行写入results.csv：

import csv
input_file = 'salary.csv'
output_file = 'results.csv'
with open(input_file, 'r', newline='') as fi:
    with open(output_file, 'w', newline='') as fo:
        reader = csv.reader(fi, delimiter=',')    # 默认分隔符就是逗号，delimiter=','也可省略
        writer = csv.writer(fo)
        header = next(reader)    # 读取第一行标题
        print(header)
        writer.writerow(header)    # 先将标题写入文件
        for row in reader:
            salary = float(row[3].replace(',', ''))    # 去除逗号并转换为float型
            if salary > 1000:
                print(row)
                writer.writerow(row)

Python 利用CSV模块处理数据的实现实例

这里可以看到CSV模块可以正确处理金额中的逗号，不会拆分为2段。

2.2 优化：通过标题名引用列

上面的示例中，在判断金额大于1000时，因为要特殊处理，所以我们用row[3]这种索引方式来选取salary列。如果要处理的列很多，那么都通过row[idx]来引用不仅麻烦而且容易搞混淆。这里用命名元组（collections.namedtuple）优化一下，命名元组赋予每个位置一个含义，提供可读性并添加了通过列名获取值的能力（用索引依然也是可以的）。

import csv
from collections import namedtuple
input_file = 'salary.csv'
output_file = 'results.csv'
with open(input_file, 'r', newline='') as fi:
    with open(output_file, 'w', newline='') as fo:
        reader = csv.reader(fi, delimiter=',')    # 默认分隔符就是逗号，delimeter=','也可省略
        writer = csv.writer(fo)
        header = next(reader)    # 读取第一行标题
        print(header)
        writer.writerow(header)    # 先将标题写入文件
        
        namedrow = namedtuple('namedrow', header)    #  命名元组定义
        for row in reader:
            row = namedrow(*row)    # 转换为命名元组
            salary = float(row.salary.replace(',', ''))    # 通过row.salary引用salary列
            if salary > 1000:
                print(row)
                writer.writerow(row)

Python 利用CSV模块处理数据的实现实例

2.3 使用CSV模块筛选特定的行

现只需要选取id, name, salary三列。处理思路为通过标题先将3列的索引位置保存到列表中，然后在每行循环中，根据索引位置只保存这3列数据：

import csv
input_file = 'salary.csv'
output_file = 'results.csv'
with open(input_file, 'r', newline='') as fi:
    with open(output_file, 'w', newline='') as fo:
        reader = csv.reader(fi, delimiter=',')    # 默认分隔符就是逗号，delimiter=','也可省略
        writer = csv.writer(fo)
        header = next(reader)    # 读取第一行标题

        columns = ['id', 'name', 'salary']    # 需要的列
        col_idx = []
        for idx in range(len(header)):
            if header[idx] in columns:    # 如果在选取的范围内，保存索引
                col_idx.append(idx)               
        writer.writerow(columns)    # 先将标题写入文件

        for row in reader:
            results = []
            for idx in col_idx:
                results.append(row[idx])    # 通过索引只保留需要的列
            print(results)
            writer.writerow(results)

Python 利用CSV模块处理数据的实现实例

到此这篇关于Python 利用CSV模块处理数据的实现实例的文章就介绍到这了,更多相关Python CSV模块处理数据内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录一、开篇：Python最独特的设计二、缩进的基本规则 2.1 用空格还是Tab 2.2 缩进层级 2.3 什么情况下需要缩进三、缩进的嵌套 3.1 多层缩进 3.2 缩进的可视化理...

目录引言一、concurrent.futures基础 1.1 模块概述 1.2 基本使用模式 1.3 核心组件二、ThreadPoolExecutor详解 2.1 创建线程池 2.2 提交任务 2.3 批量提交任务...

目录前言一、函数：把重复代码封装起来二、函数参数：让函数处理不同的数据 1. 参数个数要匹配 2. Python 的参数不需要写类型三、函数返回值：把结果交还给调用者 1. r...

目录环境准备什么是内容控件添加组合框内容控件添加纯文本内容控件添加图片内容控件添加日期选择器内容控件添加下拉列表内容控件实用技巧锁定内容控件设置控...

目录项目概述游戏实现初始化与基础设置颜色定义砖块颜色与布局核心类设计 1. 挡板类（Paddle） 2. 小球类（Ball） 3. 砖块类（Brick） 4. 粒子类（Particle） ...

目录项目概述游戏实现初始化与基础设置颜色与方块样式配置字体加载函数核心函数设计 1. 网格操作 2. 核心滑动算法 3. 游戏状态检测核心类设...

目录导出依赖包安装依赖包原理 PyCharm查看和管理依赖包总结导出依赖包pip freeze > requirements.txt依赖包文件requirements.txt的内容如下：Django==2.1.15Pillow==7.1...

目录一、安装Poetry 不要在全局环境使用以下指令使用官方的安装指令前设置安装路径(可选) 二、设置使用项目内环境三、修改Python版本范围四、建立项目包总...

目录一、背景：为什么要去动 QDateTimeEdit？二、问题：原生 QDateTimeEdit 到底卡在哪？ 2.1 QSS 样式支持有限 2.2 时间选择体验糟糕 2.3 日期和时间"绑"在一起三、方案：拆...

目录环境准备 PDF 背景的应用场景设置纯色背景使用平铺图片作为背景实用技巧与高级应用封装背景管理工具类常见应用场景示例背景设计的最佳实践常见问题与解决...

目录

一、CSV模块简介

二、用法示例

2.1 使用CSV模块选取特定的行

2.2 优化：通过标题名引用列

2.3 使用CSV模块筛选特定的行

可能感兴趣的文章

热门文章