Pandas数据基本操作：清洗，排序

发布时间：2023-05-19 17:00

pandas是非常常用的数据分析工具包，去年做毕设涉及到大量的数据统计。
以前没有很好的记录习惯，在这里再整理一下。
使用DataFrame需要注意的一个问题是，最好先将元数据构成list等数据结构以后再转化成DataFrame，尽量不要对df进行反复大量的修改操作。

Series
DataFrame：column是Series

属性和函数：shape index columns values dtypes
describe()
head()
tail()

统计属性Series：
count()统计总数
value_counts()统计各自value的总数

更改数据格式:astype()

2.1 drop()

df.drop(labels, axis=1)# axis=1代表列，=0代表行，丢弃指定label的列

2.2 丢弃缺失值dropna()

df.dropna()#删除有空值的行
df.dropna(axis=1)#删除有空值的列
df.dropna(how=\'all\')# 丢弃一行全为空的行
df.dropna(thresh=3)# 如果至少有三个非空值才保留

2.3 缺失值填充fillna()

df.fillna(0)
df.fillna({1:1,2:-1}) #指定列1、2的缺省值（e.g分别为1，-1）
df.fillna(method=\'ffill\') #在列方向上以前一个值作为值赋给空值

2.4 去重
duplicated()，unique()，drop_duplictad()经常用到的三个函数，

df.duplicated()#df是否有重复行
df[\'Labelname\'].unique()#返回唯一值的array
df.drop_duplictad() #删除重复航

3.1 索引排序
df.sort_index()
参数：axis=0行，=1列。ascending=True，升序，=False 降序
3.2 值排序
df.sort_values(by=[\'a\',\'b\'])# a b 是列名