Python数据分析-pandas学习之路(一)

您好,我是沧沧凉凉,是一名前端开发者,目前在掘金知乎以及个人博客上同步发表一些学习前端时遇到的趣事和知识,欢迎关注。


比起numpy来说,pandas才是最为常用的数据分析库,因为numpy主要是针对数组类型的数据,而pandas在numpy的基础上,还增加了字典类型的数据处理,也就是说你可以随时从数据库中将数据提取出来,然后通过pandas来进行分析处理。

为什么要学习pandas,当然是因为pandas在数据分析中是一个非常有名的库,而数据分析又是机器学习的一环,说到机器学习,就是一个非常大的领域了,当然,无论是数据分析还是机器学习,都离不开一个东西:数据。而数据的获取又离不开爬虫,而爬虫爬取到的数据应该保存到哪儿呢?除了保存到本地外还可以保存到数据库,那么数据库应该怎么进行安装呢?这又涉及到服务器(Linux)的知识。

这环环相扣就带来了大量的需要学习的内容,所以学习就像一个气球,当你学的东西越多,你就会发现你不知道的东西就越多。

pandas的功能非常的多,我也只能从我的学习之路来讲起。


之前的爬虫学完了后,我们就可以开始用pandas处理一些数据了,既然要学习pandas那么我们就需要准备一些数据,这里就直接获取豆瓣的数据好了。

相信学习过前端的朋友应该都熟悉ajax请求,也就是网页内容动态加载,即在页面不进行刷新的情况下,从后端获取数据,从而展示到前端上。

首先我们打开豆瓣的电影界面:https://movie.douban.com/。然后按F12打开控制台:

右键

好,我们就获取到了50条数据。

那么接下来我们要使用pandas实现几种需求:

  1. 按照评分排序。
  2. 统计各个评分对应的电影个数。
  3. 提取评分前10的数据,将它保存为excal。