pd.drop_duplicates删除重复行的方法实现

发布时间：2023-12-17 17:00

目录

一、使用语法及参数
二、实操

1.例子一
2.例子二
3.删除重复项后重置索引

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行，返回 DataFrame 格式数据。

一、使用语法及参数

使用语法：

DataFrame.drop_duplicates(subset=None, keep=\'first\', inplace=False, ignore_index=False)

参数：

subset – 指定特定的列默认所有列
keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项默认第一个
keep=False – 表示删除所有重复项不保留
inplace – 是否直接修改原对象
gnore_index=True – 重置索引（version 1.0.0 才有这个参数）

二、实操

1.例子一

import pandas as pd
df = pd.DataFrame({\'a\':[1,1,2,2],
                   \'b\':[\'a\',\'b\',\'a\',\'b\']})

# 单列
df.drop_duplicates(\'b\', \'first\', inplace=True)
print(df)
\'\'\'
   a  b
0  1  a
1  1  b
\'\'\'

# 多列
df.drop_duplicates(subset=[\'a\', \'b\'], keep=\'first\', inplace=False)

# 删除所有重复项 不保留
df.drop_duplicates(subset=[\'a\', \'b\'], False)

2.例子二

# 构建测试数据框
import pandas as pd
df = pd.DataFrame({
    \'brand\': [\'Yum Yum\', \'Yum Yum\', \'Indomie\', \'Indomie\', \'Indomie\'],
    \'style\': [\'cup\', \'cup\', \'cup\', \'pack\', \'pack\'],
    \'rating\': [4, 4, 3.5, 15, 5]
})

# 默认按所有列去重
df.drop_duplicates()

# 指定列
df.drop_duplicates(subset=[\'brand\'])

# 保留最后一个重复值
df.drop_duplicates(subset=[\'brand\', \'style\'], keep=\'last\')

3.删除重复项后重置索引

# 方法一
df.drop_duplicates(ignore_index=True)

# 方法二
df.drop_duplicates().reset_index(drop=True)

# 方法三
df.index = range(df.shape[0])

到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

相关推荐

Python：【人工智能】【机器学习】这篇博客带你读懂机器学习

[自用代码]将原始数据集进行划分成训练集、验证集和测试集，并计算权重

JAVA商城项目（微服务框架）——第15天 rabbitmq及数据同步

【算法日记】—— 搜索二叉树

mysql语法使用详细代码版

C语言中三块“难啃的硬骨头”

数据挖掘实验之用逻辑回归分析uci数据banknote_authentication，附python代码

web.xml中security-constraint安全认证标签说明

kernel 劫持seq_operations && 利用pt_regs

ubuntu c++ 实现自动回车键功能_从X86到ARM，实现C和C++语言90% Code自动迁移

【Xilinx Vivado时序分析/约束系列2】FPGA开发时序分析/约束-建立时间

C++超集C++/CLI模块的基本类型

用 Python 画一张北京实时疫情地图：从爬虫到绘图到自动上传服务器

SDI视频数据流格式简介（频率、速率、YUV、EAV、SAV）

mysql主库用户密码登陆失败从库正常

Redis 的分布式缓存

Sample上新，从API 8开始支持！速来拿走

《新程序员003》开启预售，“云原生和全面数字化实践”来了

如何在pycharm中导入pandas，numpy，matplotlib这三个包

到手的苹果股权“飞”了，只因离职前的“危险发言”？

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网，如有侵权请联系：561261067@qq.com

桂ICP备16001015号