您好，我是沧沧凉凉，是一名前端开发者，目前在掘金、知乎以及个人博客上同步发表一些学习前端时遇到的趣事和知识，欢迎关注。

前一篇文章大致讲了什么是爬虫，以及使用爬虫的一些风险，还有就是如何开始写一个爬虫，当时我们已经获取到了数据，但是没有说如何提取数据，其实请求来的爬虫数据有两种，一种是json格式一种是字符串格式，因为现在前后端分离的盛行，所以大部分新的网站已经开始使用ajax从后端获取数据，在一般情况下，为了前后端开发效率，这些数据都是会由后端整理好，然后以一个json形式返回给前端，如果你想要获取的数据是在一个json格式中，那恭喜你，你会省下非常多的时间。

但是现在还有相当大的网站因为是历史遗留产物，或者使用了SSR（服务端渲染），你需要的数据是在一个HTML格式的文件中，那你就需要使用到今天的主角beautifulsoup，来解析HTML，从而提取这些数据。

这里再额外说一点，如果不使用beautifulsoup而使用正则表达式其实也是能够提取到你想要的那些信息，但是大部分人对于正则表达式都不是太熟悉，而且得了一种看到正则就头痛的病，还有就是某些数据使用正则来提取会非常的麻烦，那这样的话beautifulsoup是你的不二选择。

最后

学习了Requests和beautifulsoup后，一般的网站数据你都能够进行爬取了，但是！很多网站会拥有很多反爬措施，也就是禁止爬虫的一些措施，你可能用这些正常的流程根本都爬取不到数据，比如淘宝、京东等等这些稍微大一点的网站都会有反爬措施，如果有反爬措施的网站你还要强行爬取是会承担一定的法律风险的。

服务器开发

undone jenkins

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Python爬虫基础-Requests 上一篇

使用Jenkins部署前端项目下一篇