百科网

首页 > 生活常识 > 生活经验

生活经验

从零开始的数据分析之旅(十五)数据清理

生活经验佚名2023-06-04

样本数据一般都会存在一些重复的数据也就是所谓的重复值,重复值的存在会影响最终数据分析结果的展示,所以应该尽可能的确保样本数据的准确性。样本数据通常保存在dataframe中,而如果要识别dataframe中的重复行,有两种方法可以帮助我们更好的识别出具体的重复数据,也就是duplicated和drop_duplicates,每个都将用于标识重复行的列作为参数。

下面我们来讲讲这两个方法的区别,duplicated返回一个布尔向量,其长度为行数,表示行是否重复。而drop_duplicates是直接删除重复的行。换句话说,第一个方法是负责识别,而第二个方法是负责删除。