Pandas数据基本操作:清洗,排序

发布时间:2023-05-19 17:00

pandas是非常常用的数据分析工具包,去年做毕设涉及到大量的数据统计。
以前没有很好的记录习惯,在这里再整理一下。
使用DataFrame需要注意的一个问题是,最好先将元数据构成list等数据结构以后再转化成DataFrame,尽量不要对df进行反复大量的修改操作。

1 数据格式和基本操作

Series
DataFrame:column是Series

属性和函数:shape index columns values dtypes
describe()
head()
tail()

统计属性Series:
count()统计总数
value_counts()统计各自value的总数

更改数据格式:astype()

2 函数

2.1 drop()

df.drop(labels, axis=1)# axis=1代表列,=0代表行,丢弃指定label的列

2.2 丢弃缺失值dropna()

df.dropna()#删除有空值的行
df.dropna(axis=1)#删除有空值的列
df.dropna(how=\'all\')# 丢弃一行全为空的行
df.dropna(thresh=3)# 如果至少有三个非空值才保留

2.3 缺失值填充fillna()

df.fillna(0)
df.fillna({1:1,2:-1}) #指定列1、2的缺省值(e.g分别为1,-1)
df.fillna(method=\'ffill\') #在列方向上以前一个值作为值赋给空值

2.4 去重
duplicated(),unique(),drop_duplictad()经常用到的三个函数,

df.duplicated()#df是否有重复行
df[\'Labelname\'].unique()#返回唯一值的array
df.drop_duplictad() #删除重复航

3 排序

3.1 索引排序
df.sort_index()
参数:axis=0行,=1列。ascending=True,升序,=False 降序
3.2 值排序
df.sort_values(by=[\'a\',\'b\'])# a b 是列名

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号