从零开始的数据分析之旅(十五)数据清理
一、清理数据重复值、缺失值与数据拆分样本数据一般都会存在一些重复的数据也就是所谓的重复值,重复值的存在会影响最终数据分析结果的展示,所以应该尽可能的确保样本数据的准确性。样本数据通常保存在dataframe中,而如果要识别dataframe中的重复行,有两种方法可以帮助我们更好的识别出具体的重复数据,也就是duplicated和drop_duplicates,每个都将用于标识重复行的列作为参数。 下面我们来讲讲这两个方法的区别,duplicated返回一个布尔向量,其长度为行数,表示行是否重复。而drop_duplicates是直接删除重复的行。换句话说,第一个方法是负责识别,而第二个方法是负责删除。
样本数据中可能由于各种原因如数据库数据异常丢失、人为失误等,导致样本数据可能缺失一些数值,也就是缺失值,这也会影响最终数据分析结果的展示,所以我们应该填补缺失值,来尽可能的保证样本数据的准确性。 需要注意的是,在计算时通常默认不会包含缺失值,也就是说pandas默认不会对空值和NaN值做处理,所以为了更好的保障样本数据的准确性,我们应当以平均值或者中位数来填补这些缺失值,以便完善我们的统计结果。 分列操作是数据清理中比较简单的操作,它就是对目标列分割成两列,需要利用str.split方法进行拆分,关键参数为expand,由expand参数来控制是否对列进行拆分,当expand参数的值为true时则拆分为两列,当expand参数的值为false时则不拆分为两列。 |
相关文章
热销商品
天阿诗丹顿小厨宝家用厨房电热水器速热储水即热式一级能效小型8L升
阿诗丹顿小厨宝家用厨房电热水器速热储水即热式一级能效小型8L升
¥399 领券购买
天美的出品华凌电热水器一级能效节能出租房洗澡卫生间40升KY1pro
美的出品华凌电热水器一级能效节能出租房洗澡卫生间40升KY1pro
¥435 领券购买
天荣事达即热式电热水器速热洗澡家用过水热小型淋浴神器卫生间一体
荣事达即热式电热水器速热洗澡家用过水热小型淋浴神器卫生间一体
¥165 领券购买
淘A4文件柜美甲收纳柜平底抽屉式捏捏吧唧分类柜多层美妆烘焙储物柜
A4文件柜美甲收纳柜平底抽屉式捏捏吧唧分类柜多层美妆烘焙储物柜
¥20 领券购买
天东方宝石香氛沐浴乳白麝香95ML 沐浴露旅行装持久留香官方正品
东方宝石香氛沐浴乳白麝香95ML 沐浴露旅行装持久留香官方正品
¥25.5 领券购买
天【情人节礼物】纳西索narciso forher白瓶女士香水纯粹迷情礼盒
【情人节礼物】纳西索narciso forher白瓶女士香水纯粹迷情礼盒
¥540 领券购买
天李宁冰丝POLO衫男士夏季官方新款商务短袖男装翻领T恤透气运动服
李宁冰丝POLO衫男士夏季官方新款商务短袖男装翻领T恤透气运动服
¥118 领券购买
天JEEP SPIRIT吉普耳罩冬季男加绒保暖防冻护耳骑行耳套耳捂子耳暖
JEEP SPIRIT吉普耳罩冬季男加绒保暖防冻护耳骑行耳套耳捂子耳暖
¥29.9 领券购买
淘2025日本秋冬保暖耳罩男女护耳套可折叠防冻防寒骑行耳包耳暖耳捂
2025日本秋冬保暖耳罩男女护耳套可折叠防冻防寒骑行耳包耳暖耳捂
¥20 领券购买
淘耳朵会动款耳套女童男童加厚毛绒耳罩卡通可爱小狗耳包耳暖耳捂子
耳朵会动款耳套女童男童加厚毛绒耳罩卡通可爱小狗耳包耳暖耳捂子
¥23.4 领券购买
淘可爱真獭兔毛耳罩女冬季百搭保暖毛绒耳包骑车防风耳暖耳捂可伸缩
可爱真獭兔毛耳罩女冬季百搭保暖毛绒耳包骑车防风耳暖耳捂可伸缩
¥39.9 领券购买
天【天猫惊喜盒】马克华菲双肩包男新款旅行背包大容量电脑包书包女
【天猫惊喜盒】马克华菲双肩包男新款旅行背包大容量电脑包书包女
¥219 领券购买
天金号一次性浴巾旅行单独包装大号6条便携男女裹巾洗澡酒店用品
金号一次性浴巾旅行单独包装大号6条便携男女裹巾洗澡酒店用品
¥28.9 领券购买
淘【迷你珍珠】一次性浴巾毛巾酒店宾馆民宿公寓桑拿大毛巾洗澡浴巾
【迷你珍珠】一次性浴巾毛巾酒店宾馆民宿公寓桑拿大毛巾洗澡浴巾
¥10.58 领券购买
天有时光一次性浴巾旅行出差便捷加厚款压缩浴巾毛巾家用款独立包装
有时光一次性浴巾旅行出差便捷加厚款压缩浴巾毛巾家用款独立包装
¥6.87 领券购买
淘压缩毛巾洗脸巾浴巾礼盒装套装一次性加大加厚酒店旅行独立包装
压缩毛巾洗脸巾浴巾礼盒装套装一次性加大加厚酒店旅行独立包装
¥94 领券购买

