Python数据分析-pandas学习之路(一)
您好,我是沧沧凉凉,是一名前端开发者,目前在掘金、知乎以及个人博客上同步发表一些学习前端时遇到的趣事和知识,欢迎关注。
比起numpy来说,pandas才是最为常用的数据分析库,因为numpy主要是针对数组类型的数据,而pandas在numpy的基础上,还增加了字典类型的数据处理,也就是说你可以随时从数据库中将数据提取出来,然后通过pandas来进行分析处理。
为什么要学习pandas,当然是因为pandas在数据分析中是一个非常有名的库,而数据分析又是机器学习的一环,说到机器学习,就是一个非常大的领域了,当然,无论是数据分析还是机器学习,都离不开一个东西:数据。而数据的获取又离不开爬虫,而爬虫爬取到的数据应该保存到哪儿呢?除了保存到本地外还可以保存到数据库,那么数据库应该怎么进行安装呢?这又涉及到服务器(Linux)的知识。
这环环相扣就带来了大量的需要学习的内容,所以学习就像一个气球,当你学的东西越多,你就会发现你不知道的东西就越多。
pandas的功能非常的多,我也只能从我的学习之路来讲起。
之前的爬虫学完了后,我们就可以开始用pandas处理一些数据了,既然要学习pandas那么我们就需要准备一些数据,这里就直接获取豆瓣的数据好了。
相信学习过前端的朋友应该都熟悉ajax请求,也就是网页内容动态加载,即在页面不进行刷新的情况下,从后端获取数据,从而展示到前端上。
首先我们打开豆瓣的电影界面:https://movie.douban.com/。然后按F12打开控制台:
右键
好,我们就获取到了50条数据。
那么接下来我们要使用pandas实现几种需求:
- 按照评分排序。
- 统计各个评分对应的电影个数。
- 提取评分前10的数据,将它保存为excal。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!