发布时间:2023-12-17 17:00
drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,返回 DataFrame 格式数据。
使用语法:
DataFrame.drop_duplicates(subset=None, keep=\'first\', inplace=False, ignore_index=False)
参数:
import pandas as pd df = pd.DataFrame({\'a\':[1,1,2,2], \'b\':[\'a\',\'b\',\'a\',\'b\']}) # 单列 df.drop_duplicates(\'b\', \'first\', inplace=True) print(df) \'\'\' a b 0 1 a 1 1 b \'\'\' # 多列 df.drop_duplicates(subset=[\'a\', \'b\'], keep=\'first\', inplace=False) # 删除所有重复项 不保留 df.drop_duplicates(subset=[\'a\', \'b\'], False)
# 构建测试数据框 import pandas as pd df = pd.DataFrame({ \'brand\': [\'Yum Yum\', \'Yum Yum\', \'Indomie\', \'Indomie\', \'Indomie\'], \'style\': [\'cup\', \'cup\', \'cup\', \'pack\', \'pack\'], \'rating\': [4, 4, 3.5, 15, 5] }) # 默认按所有列去重 df.drop_duplicates() # 指定列 df.drop_duplicates(subset=[\'brand\']) # 保留最后一个重复值 df.drop_duplicates(subset=[\'brand\', \'style\'], keep=\'last\')
# 方法一 df.drop_duplicates(ignore_index=True) # 方法二 df.drop_duplicates().reset_index(drop=True) # 方法三 df.index = range(df.shape[0])
到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
Python:【人工智能】【机器学习】这篇博客带你读懂机器学习
[自用代码]将原始数据集进行划分成训练集、验证集和测试集,并计算权重
JAVA商城项目(微服务框架)——第15天 rabbitmq及数据同步
数据挖掘实验之用逻辑回归分析uci数据banknote_authentication,附python代码
web.xml中security-constraint安全认证标签说明
kernel 劫持seq_operations && 利用pt_regs
ubuntu c++ 实现自动回车键功能_从X86到ARM,实现C和C++语言90% Code自动迁移
【Xilinx Vivado时序分析/约束系列2】FPGA开发时序分析/约束-建立时间
用 Python 画一张北京实时疫情地图:从爬虫到绘图到自动上传服务器
SDI视频数据流格式简介(频率、速率、YUV、EAV、SAV)