从零开始的数据分析之旅(十五)数据清理
一、清理数据重复值、缺失值与数据拆分样本数据一般都会存在一些重复的数据也就是所谓的重复值,重复值的存在会影响最终数据分析结果的展示,所以应该尽可能的确保样本数据的准确性。样本数据通常保存在dataframe中,而如果要识别dataframe中的重复行,有两种方法可以帮助我们更好的识别出具体的重复数据,也就是duplicated和drop_duplicates,每个都将用于标识重复行的列作为参数。 下面我们来讲讲这两个方法的区别,duplicated返回一个布尔向量,其长度为行数,表示行是否重复。而drop_duplicates是直接删除重复的行。换句话说,第一个方法是负责识别,而第二个方法是负责删除。
样本数据中可能由于各种原因如数据库数据异常丢失、人为失误等,导致样本数据可能缺失一些数值,也就是缺失值,这也会影响最终数据分析结果的展示,所以我们应该填补缺失值,来尽可能的保证样本数据的准确性。 需要注意的是,在计算时通常默认不会包含缺失值,也就是说pandas默认不会对空值和NaN值做处理,所以为了更好的保障样本数据的准确性,我们应当以平均值或者中位数来填补这些缺失值,以便完善我们的统计结果。 分列操作是数据清理中比较简单的操作,它就是对目标列分割成两列,需要利用str.split方法进行拆分,关键参数为expand,由expand参数来控制是否对列进行拆分,当expand参数的值为true时则拆分为两列,当expand参数的值为false时则不拆分为两列。 |
相关文章
热销商品
天海关锁出国行李箱密码锁托运行李小型旅行防盗通关锁书包拉链挂锁
海关锁出国行李箱密码锁托运行李小型旅行防盗通关锁书包拉链挂锁
¥9.9 领券购买
淘洁珊猫砂9L膨润土猫砂猫咪用品猫厕所猫砂盆猫沙结团满10kg20斤
洁珊猫砂9L膨润土猫砂猫咪用品猫厕所猫砂盆猫沙结团满10kg20斤
¥30.13 领券购买
淘透明亚克力单层多层手办盲盒阶梯展架收纳泡泡玛特香水阶梯置物架
透明亚克力单层多层手办盲盒阶梯展架收纳泡泡玛特香水阶梯置物架
¥5 领券购买
天FILA KIDS斐乐儿童斜挎包2026春季新款男女小童休闲可DIY单肩包
FILA KIDS斐乐儿童斜挎包2026春季新款男女小童休闲可DIY单肩包
¥211 领券购买
淘爱丽思狗狗厕所小型犬专用平板幼犬固定尿垫雪纳瑞托盘厕所爱丽丝
爱丽思狗狗厕所小型犬专用平板幼犬固定尿垫雪纳瑞托盘厕所爱丽丝
¥8.91 领券购买
天狗厕所小型犬狗狗定点上厕所神器狗尿盆狗砂盆防踩屎踩尿宠物厕所
狗厕所小型犬狗狗定点上厕所神器狗尿盆狗砂盆防踩屎踩尿宠物厕所
¥65.9 领券购买
淘窗帘加长下摆自粘缝隙遮光条加厚防风卧室落地窗底部延长漏光神器
窗帘加长下摆自粘缝隙遮光条加厚防风卧室落地窗底部延长漏光神器
¥13.5 领券购买
天儿童午睡枕小学生趴睡枕趴趴枕午休枕头睡觉专用神器抱枕学校折叠
儿童午睡枕小学生趴睡枕趴趴枕午休枕头睡觉专用神器抱枕学校折叠
¥33.6 领券购买
淘无花果干伊朗无糖精无添加剂泡水煲汤土耳其优质大无花果即食新货
无花果干伊朗无糖精无添加剂泡水煲汤土耳其优质大无花果即食新货
¥11.5 领券购买
天361°正品男袜春夏男款运动短袜网眼透气抗菌防臭休闲棉袜短筒袜
361°正品男袜春夏男款运动短袜网眼透气抗菌防臭休闲棉袜短筒袜
¥18.9 领券购买
淘新货速卖】红焖羊排熟食加热即食手抓羊排手把肉五香羊排开袋即食
新货速卖】红焖羊排熟食加热即食手抓羊排手把肉五香羊排开袋即食
¥8.6 领券购买
天加绒皮衣外套女短款2025年新款冬季时尚宽松小个子加厚皮夹克棉服
加绒皮衣外套女短款2025年新款冬季时尚宽松小个子加厚皮夹克棉服
¥205 领券购买
淘外星伴侣 BAPE杂志附录包猿人头皮质压花长款钱包零钱包潮流卡包
外星伴侣 BAPE杂志附录包猿人头皮质压花长款钱包零钱包潮流卡包
¥120 领券购买
淘Converse All Star chuck taylor core 高帮 帆布鞋 男女同款
Converse All Star chuck taylor core 高帮 帆布鞋 男女同款
¥9979 领券购买
淘三资堂睫毛膏钢管防水纤长卷翘不晕染防汗打底持久三姿堂官方旗舰
三资堂睫毛膏钢管防水纤长卷翘不晕染防汗打底持久三姿堂官方旗舰
¥44.9 领券购买
淘piara佩冉睫毛膏纤长打底定型液卷翘浓密细刷头持久不易晕染棕色
piara佩冉睫毛膏纤长打底定型液卷翘浓密细刷头持久不易晕染棕色
¥34.2 领券购买

