百科网

首页 > 生活常识 > 生活经验

生活经验

从零开始的数据分析之旅(十三)初识爬虫与request库入门

生活经验佚名2023-06-04

一、什么是爬虫

爬虫就是利用信息技术手段来实现对网络上对应网页信息的抓取,一般网页可以看到的所有内容都可以通过爬虫抓取。爬虫的基本步骤是定位到需要抓取信息的目标地址,获取所有的网页信息,从已获取的信息中提取出需要的目标信息,当然,这个步骤因网页的渲染方式不同可能存在变动(如静态网页、动态渲染等等)。

那么为什么我们需要使用到爬虫呢?实际上获取信息的手段非常多样,但是爬虫可以使我们获取以及处理信息的效率倍增,而在如今这种快餐化的时代,速度很大程度上就决定了市场的抢占率。

既然爬虫这么重要,那么我们应该如何来实现爬虫呢?实现Python往往需要借助一下现有的Python包,包括request库负责访问并获取网页信息,beautifulSoup库负责解析并且提取目标信息。

二、request库入门

request库具体有这么几个基本的功能,包括与网站建立链接、抓取网站的内容信息、实现自动登录认证等。

在新建的.py文件中通过import request来导入request库,即可开始使用request库里面的API了。通过request.get的方法,在里面添加需要建立链接的网站网址即可与对应的网站建立链接,如果对应的网站需要一些头部内容则可以通过headers参数来添加。

当然,有一些网站是有鉴权限制的,也就是说需要用户是处于登录状态才能够访问,比如github的个人用户界面,这个时候就可以在request.get方法添加一个auth参数,并在auth参数写上对应的用户名与密码来通过github服务器的鉴权。
(www.ws46.cOm)