发布时间:2023-05-19 17:00
pandas是非常常用的数据分析工具包,去年做毕设涉及到大量的数据统计。
以前没有很好的记录习惯,在这里再整理一下。
使用DataFrame需要注意的一个问题是,最好先将元数据构成list等数据结构以后再转化成DataFrame,尽量不要对df进行反复大量的修改操作。
Series
DataFrame:column是Series
属性和函数:shape index columns values dtypes
describe()
head()
tail()
统计属性Series:
count()
统计总数
value_counts()
统计各自value的总数
更改数据格式:astype()
2.1 drop()
df.drop(labels, axis=1)# axis=1代表列,=0代表行,丢弃指定label的列
2.2 丢弃缺失值dropna()
df.dropna()#删除有空值的行
df.dropna(axis=1)#删除有空值的列
df.dropna(how=\'all\')# 丢弃一行全为空的行
df.dropna(thresh=3)# 如果至少有三个非空值才保留
2.3 缺失值填充fillna()
df.fillna(0)
df.fillna({1:1,2:-1}) #指定列1、2的缺省值(e.g分别为1,-1)
df.fillna(method=\'ffill\') #在列方向上以前一个值作为值赋给空值
2.4 去重
duplicated(),unique(),drop_duplictad()
经常用到的三个函数,
df.duplicated()#df是否有重复行
df[\'Labelname\'].unique()#返回唯一值的array
df.drop_duplictad() #删除重复航
3.1 索引排序
df.sort_index()
参数:axis=0行,=1列。ascending=True,升序,=False 降序
3.2 值排序
df.sort_values(by=[\'a\',\'b\'])# a b 是列名