Python爬虫基础-Requests

您好,我是沧沧凉凉,是一名前端开发者,目前在掘金知乎以及个人博客上同步发表一些学习前端时遇到的趣事和知识,欢迎关注。


前一篇文章大致讲了什么是爬虫,以及使用爬虫的一些风险,还有就是如何开始写一个爬虫,当时我们已经获取到了数据,但是没有说如何提取数据,其实请求来的爬虫数据有两种,一种是json格式一种是字符串格式,因为现在前后端分离的盛行,所以大部分新的网站已经开始使用ajax从后端获取数据,在一般情况下,为了前后端开发效率,这些数据都是会由后端整理好,然后以一个json形式返回给前端,如果你想要获取的数据是在一个json格式中,那恭喜你,你会省下非常多的时间。

但是现在还有相当大的网站因为是历史遗留产物,或者使用了SSR(服务端渲染),你需要的数据是在一个HTML格式的文件中,那你就需要使用到今天的主角beautifulsoup,来解析HTML,从而提取这些数据。

这里再额外说一点,如果不使用beautifulsoup而使用正则表达式其实也是能够提取到你想要的那些信息,但是大部分人对于正则表达式都不是太熟悉,而且得了一种看到正则就头痛的病,还有就是某些数据使用正则来提取会非常的麻烦,那这样的话beautifulsoup是你的不二选择。

最后

学习了Requests和beautifulsoup后,一般的网站数据你都能够进行爬取了,但是!很多网站会拥有很多反爬措施,也就是禁止爬虫的一些措施,你可能用这些正常的流程根本都爬取不到数据,比如淘宝、京东等等这些稍微大一点的网站都会有反爬措施,如果有反爬措施的网站你还要强行爬取是会承担一定的法律风险的。