pandas dataframe统计填充空值方式 - 教程之家

1.判断dataframe是否有空值

def t2():
    df = pd.DataFrame({
        'name': ['lili', 'lucy','pegga','alin',np.nan],
        'age': [18, 16, np.nan, 23, np.nan],
        'salary': [np.nan, 300, np.nan, 1000, 800]
    })
    df_contains_nan = df.isnull()
    print(df_contains_nan)

    df_contains_nan_2 = df.isna()
    print(df_contains_nan_2)

上面的代码将输出

name age salary
0 False False True
1 False False False
2 False True True
3 False False False
4 True True False
name age salary
0 False False True
1 False False False
2 False True True
3 False False False
4 True True False

isnull,isna方法都是判断df中的元素是否为空，然后输出True/False。

要判断df中是否有空元素，只需要稍加改变

def t3():
    df = pd.DataFrame({
        'name': ['lili', 'lucy','pegga','alin',np.nan],
        'age': [18, 16, np.nan, 23, np.nan],
        'salary': [np.nan, 300, np.nan, 1000, 800]
    })
    contains_nan = df.isnull().values.any()
    print(contains_nan)

any方法只要ndarray中有任意一个元素为True就返回True。

    def any(self, axis=None, out=None, keepdims=False): # real signature unknown; restored from __doc__
        """
        a.any(axis=None, out=None, keepdims=False)
        
            Returns True if any of the elements of `a` evaluate to True.
        
            Refer to `numpy.any` for full documentation.
        
            See Also
            --------
            numpy.any : equivalent function
        """
        pass

2.统计空值个数

def t4():
    df = pd.DataFrame({
        'name': ['lili', 'lucy','pegga','alin',np.nan],
        'age': [18, 16, np.nan, 23, np.nan],
        'salary': [np.nan, 300, np.nan, 1000, 800]
    })

    # 每一列有多少个nan
    nan_column = df.isnull().values.astype(int).sum(axis=0)
    # 各列的nan个数
    nan_column_name = df.isnull().sum()
    print(nan_column)
    print('*'*10)
    print(nan_column_name)
    print('*'*10)
    # nan的总个数
    nan_all = df.isnull().sum().sum()
    print(nan_all)

[1 2 2]
**********
name 1
age 2
salary 2
dtype: int64
**********
5

上面的代码，展示了统计每行/列空值的个数，以及所有空值的个数。

3.按列填充空值

def t5():
    df = pd.DataFrame({
        'name': ['lili', 'lucy','pegga','alin',np.nan],
        'age': [18, 16, np.nan, 23, np.nan],
        'salary': [np.nan, 300, np.nan, 1000, 800]
    })
    print(df)

    df.name = df.name.fillna('unknown')
    df.age = df.age.fillna(df.age.mean())
    df.salary = df.salary.fillna(df.salary.max())

    print(df)

name age salary
0 lili 18.0 NaN
1 lucy 16.0 300.0
2 pegga NaN NaN
3 alin 23.0 1000.0
4 NaN NaN 800.0
name age salary
0 lili 18.0 1000.0
1 lucy 16.0 300.0
2 pegga 19.0 1000.0
3 alin 23.0 1000.0
4 unknown 19.0 800.0

上面的代码，分别对name, age, salary列按固定值，当前列平均值，当前列最大值填充。

fillna函数有inplace参数，下面代码的效果与之前填充一致。

def t52():
    df = pd.DataFrame({
        'name': ['lili', 'lucy','pegga','alin',np.nan],
        'age': [18, 16, np.nan, 23, np.nan],
        'salary': [np.nan, 300, np.nan, 1000, 800]
    })
    print(df)

    df.name.fillna('unknown', inplace=True)
    df.age.fillna(df.age.mean(), inplace=True)
    df.salary.fillna(df.salary.max(), inplace=True)
    print(df)

4.按分组平均值填充

def t6():
    df = pd.DataFrame({
        'level': ['A','A','A','A','B','B','B','B','C','C','C'],
        'score': [2,1,3,np.nan,4,6,5,np.nan,7,9,np.nan],
    })

    fun = lambda x: x.fillna(df.groupby('level').score.mean()[x.level])
    df = df.apply(lambda x: fun(x), axis=1)
    # 以下一行代码也可以实现相同功能
    #df = df.apply(lambda x: x.fillna(df.groupby('level').score.mean()[x.level]), axis=1)
    print(df)

上面的代码，将score按level分组的平均值填充。

fun传入一行数据，然后通过分组值来获取当前分组的平均值，最后利用fillna来填充这个平均值即可。

代码输出如下：

level score
0 A 2.0
1 A 1.0
2 A 3.0
3 A 2.0
4 B 4.0
5 B 6.0
6 B 5.0
7 B 5.0
8 C 7.0
9 C 9.0
10 C 8.0

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录一、开篇：Python最独特的设计二、缩进的基本规则 2.1 用空格还是Tab 2.2 缩进层级 2.3 什么情况下需要缩进三、缩进的嵌套 3.1 多层缩进 3.2 缩进的可视化理...

目录引言一、concurrent.futures基础 1.1 模块概述 1.2 基本使用模式 1.3 核心组件二、ThreadPoolExecutor详解 2.1 创建线程池 2.2 提交任务 2.3 批量提交任务...

目录前言一、函数：把重复代码封装起来二、函数参数：让函数处理不同的数据 1. 参数个数要匹配 2. Python 的参数不需要写类型三、函数返回值：把结果交还给调用者 1. r...

目录环境准备什么是内容控件添加组合框内容控件添加纯文本内容控件添加图片内容控件添加日期选择器内容控件添加下拉列表内容控件实用技巧锁定内容控件设置控...

目录项目概述游戏实现初始化与基础设置颜色定义砖块颜色与布局核心类设计 1. 挡板类（Paddle） 2. 小球类（Ball） 3. 砖块类（Brick） 4. 粒子类（Particle） ...

目录项目概述游戏实现初始化与基础设置颜色与方块样式配置字体加载函数核心函数设计 1. 网格操作 2. 核心滑动算法 3. 游戏状态检测核心类设...

目录导出依赖包安装依赖包原理 PyCharm查看和管理依赖包总结导出依赖包pip freeze > requirements.txt依赖包文件requirements.txt的内容如下：Django==2.1.15Pillow==7.1...

目录一、安装Poetry 不要在全局环境使用以下指令使用官方的安装指令前设置安装路径(可选) 二、设置使用项目内环境三、修改Python版本范围四、建立项目包总...

目录一、背景：为什么要去动 QDateTimeEdit？二、问题：原生 QDateTimeEdit 到底卡在哪？ 2.1 QSS 样式支持有限 2.2 时间选择体验糟糕 2.3 日期和时间"绑"在一起三、方案：拆...

目录环境准备 PDF 背景的应用场景设置纯色背景使用平铺图片作为背景实用技巧与高级应用封装背景管理工具类常见应用场景示例背景设计的最佳实践常见问题与解决...

目录

1.判断dataframe是否有空值

2.统计空值个数

3.按列填充空值

4.按分组平均值填充

总结

可能感兴趣的文章

热门文章