如何用Python数据进行去重?只需要一行代码解决!

1、导入数据

首先我们通过pandas将数据导入进来:

import pandas as pd
df=pd.read_excel('分类词.xlsx')

这大约20万数据长这样:

如何用Python数据进行去重?只需要一行代码解决!

2、去重数据:

通过drop函数将数据进行去重:

df.drop_duplicates()

简单介绍一下这个函数的用法:

1、如果我们要对完全重复的行进行去重,直接输入以下代码就可以了,默认会保留第一次出现的数据,将后面重复的数据删除:
data.drop_duplicates()
2、如果我们要去重某几列重复的行数据:
data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
subset: 列名,可选,默认为None
keep: {‘first’, ‘last’, False}, 默认值 ‘first’
first: 保留第一次出现的重复行,删除后面的重复行。
last: 删除重复项,除了最后一次出现。
False: 删除所有重复项。

3、导出数据:

我们通过to_excel将去重后的数据导出:

df.to_excel('分类词去重.xlsx')

本资源由随笔博客发布。发布者:五维国度,转载请注明出处:http://blog.suibi.site/archives/4471


本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

(0)
上一篇 2024年 1月 9日 上午9:29
下一篇 2024年 1月 9日 上午11:33

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

在线咨询: QQ交谈

邮件:jctestxcx@163.com

关注微信