生活经验

从零开始的数据分析之旅（十三）初识爬虫与request库入门

生活经验佚名2023-06-04

爬虫就是利用信息技术手段来实现对网络上对应网页信息的抓取，一般网页可以看到的所有内容都可以通过爬虫抓取。爬虫的基本步骤是定位到需要抓取信息的目标地址，获取所有的网页信息，从已获取的信息中提取出需要的目标信息，当然，这个步骤因网页的渲染方式不同可能存在变动（如静态网页、动态渲染等等）。

那么为什么我们需要使用到爬虫呢？实际上获取信息的手段非常多样，但是爬虫可以使我们获取以及处理信息的效率倍增，而在如今这种快餐化的时代，速度很大程度上就决定了市场的抢占率。

既然爬虫这么重要，那么我们应该如何来实现爬虫呢？实现Python往往需要借助一下现有的Python包，包括request库负责访问并获取网页信息，beautifulSoup库负责解析并且提取目标信息。

request库具体有这么几个基本的功能，包括与网站建立链接、抓取网站的内容信息、实现自动登录认证等。

在新建的.py文件中通过import request来导入request库，即可开始使用request库里面的API了。通过request.get的方法，在里面添加需要建立链接的网站网址即可与对应的网站建立链接，如果对应的网站需要一些头部内容则可以通过headers参数来添加。

当然，有一些网站是有鉴权限制的，也就是说需要用户是处于登录状态才能够访问，比如github的个人用户界面，这个时候就可以在request.get方法添加一个auth参数，并在auth参数写上对应的用户名与密码来通过github服务器的鉴权。
(www.wS46.com)

打赏