1、导入数据
首先我们通过pandas将数据导入进来:
import pandas as pd
df=pd.read_excel('分类词.xlsx')
这大约20万数据长这样:
2、去重数据:
通过drop函数将数据进行去重:
df.drop_duplicates()
简单介绍一下这个函数的用法:
1、如果我们要对完全重复的行进行去重,直接输入以下代码就可以了,默认会保留第一次出现的数据,将后面重复的数据删除:
data.drop_duplicates()
2、如果我们要去重某几列重复的行数据:
data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
subset: 列名,可选,默认为None
keep: {‘first’, ‘last’, False}, 默认值 ‘first’
first: 保留第一次出现的重复行,删除后面的重复行。
last: 删除重复项,除了最后一次出现。
False: 删除所有重复项。
3、导出数据:
我们通过to_excel将去重后的数据导出:
df.to_excel('分类词去重.xlsx')
本资源由随笔博客发布。发布者:五维国度,转载请注明出处:http://blog.suibi.site/archives/4471
本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。