百科网

首页 > 生活常识 > 生活经验

生活经验

从零开始的数据分析之旅(十四)pandas与dataframe入门

生活经验佚名2023-06-04

一、Pandas库入门

在现代信息社会,充斥着非常多的数据,而为了提高数据分析师的数据处理能力,我们通常会借助成熟的Pandas库来高效的处理数据。

Pandas库是一个进行数据处理与分析的Python库,它可以做的事情有很多,包括清洗数据、数据运算、数据统计、数据筛选、数据排序等等。

Pandas库的使用也很简单,首先需要在Python文件中通过import pandas as pd的方式将pandas库引入,之后即可使用该库的内容。

举个使用pandas库的例子,如pd.Series([1,2,3,4])即可生成一个简单的一维数组。

二、DataFrame入门

在说dataframe之前,我们先来聊聊前面提到的series,看看这两者有什么区别。首先series是一维数组,pandas库对series的描述是带标签的一维数组,可存储整数、浮点数、字符串、Python对象等类型的数据,轴标签统称为索引,在pandas库中,只需要调用pd.Series即可生成。

pd.series的第一个参数是代表值,第二个参数index是代表索引。

dataframe是二维数据结构,可以和series相互转化,但是在series向dataframe转化的过程中需要注意确保这些series的行数相同,如果行数不一样时就会出现缺失值,而缺失值通常会采用NaN来表示。当然,也并非所有缺失值都采用NaN来表示,在没有规定具体个数或范围时,可以直接用一个值来填充现有的所有行。

接下来讲讲dataframe的相关操作,如.loc和.iloc方法可以按值或者按索引的方式来选择行,df[列表]则是按字段名来选取列,df[选取条件]则可以进行一些相对模糊或者精确的查询,自由度相对更大。