如何用Python数据进行去重？只需要一行代码解决！

五维国度 • 2024年 1月 9日上午9:33 • Python • 阅读 80

1、导入数据

首先我们通过pandas将数据导入进来：

import pandas as pd
df=pd.read_excel('分类词.xlsx')

这大约20万数据长这样：

2、去重数据：

通过drop函数将数据进行去重：

df.drop_duplicates()

简单介绍一下这个函数的用法：

1、如果我们要对完全重复的行进行去重，直接输入以下代码就可以了，默认会保留第一次出现的数据，将后面重复的数据删除：
data.drop_duplicates()
2、如果我们要去重某几列重复的行数据：
data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
subset：列名，可选，默认为None
keep： {‘first’, ‘last’, False}, 默认值 ‘first’
first：保留第一次出现的重复行，删除后面的重复行。
last：删除重复项，除了最后一次出现。
False：删除所有重复项。

3、导出数据：

我们通过to_excel将去重后的数据导出：

df.to_excel('分类词去重.xlsx')

本资源由随笔博客发布。发布者：五维国度，转载请注明出处：http://blog.suibi.site/archives/4471

本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

如何用Python数据进行去重？只需要一行代码解决！

1、导入数据

2、去重数据：

3、导出数据：

相关推荐

超详细！Python当中的pip常用命令大全

用Python读写操作Excel数据！

13个有趣的Python高级脚本，建议收藏！

如何通过Python自动整理文件？

超详细的Python文件操作知识

发表回复

联系我们