生活经验

从零开始的数据分析之旅（十五）数据清理

生活经验佚名2023-06-04

一、清理数据重复值、缺失值与数据拆分

样本数据一般都会存在一些重复的数据也就是所谓的重复值，重复值的存在会影响最终数据分析结果的展示，所以应该尽可能的确保样本数据的准确性。样本数据通常保存在dataframe中，而如果要识别dataframe中的重复行，有两种方法可以帮助我们更好的识别出具体的重复数据，也就是duplicated和drop_duplicates，每个都将用于标识重复行的列作为参数。

下面我们来讲讲这两个方法的区别，duplicated返回一个布尔向量，其长度为行数，表示行是否重复。而drop_duplicates是直接删除重复的行。换句话说，第一个方法是负责识别，而第二个方法是负责删除。

样本数据中可能由于各种原因如数据库数据异常丢失、人为失误等，导致样本数据可能缺失一些数值，也就是缺失值，这也会影响最终数据分析结果的展示，所以我们应该填补缺失值，来尽可能的保证样本数据的准确性。

需要注意的是，在计算时通常默认不会包含缺失值，也就是说pandas默认不会对空值和NaN值做处理，所以为了更好的保障样本数据的准确性，我们应当以平均值或者中位数来填补这些缺失值，以便完善我们的统计结果。

分列操作是数据清理中比较简单的操作，它就是对目标列分割成两列，需要利用str.split方法进行拆分，关键参数为expand，由expand参数来控制是否对列进行拆分，当expand参数的值为true时则拆分为两列，当expand参数的值为false时则不拆分为两列。

踩一下 () 顶一下

百科网

生活经验

从零开始的数据分析之旅（十五）数据清理

一、清理数据重复值、缺失值与数据拆分

加入中国电信后才知道的那些事：中国电信正式员工现状

从零开始的数据分析之旅（二十）趋势预测

相关文章