爬虫实战,selenium爬取斗鱼吃鸡所有主播信息和人气

2018-07-23 分类:Python, 爬虫 阅读(593) 评论(0)

吃鸡很火,咱们爬下斗鱼的网站,把所有的刺激战场的主播和人气爬下来,存到excel里面,初步做个分析,网站是 https://www.douyu.com/g_jdqscjzc。

咱们大致浏览一下这个网页,发现它的数据都是动态加载的,把网站的js禁用了之后,页面上基本上没啥东西了。

禁用javaScript

重新刷新网页

发现下一页都没有了,页面上图片都没有了,这样子的网站就是js动态加载的网页了。

那就不能用原来那种发http请求的方式了,就得用selenium打开浏览器,渲染页面,拿到数据了。

咱们用selenium获取到渲染后的页面html,然后用lxml模块解析,找到咱们想要的数据,然后保存起来存到excel里面。

当然里面的xpath需要自己分析一下斗鱼的html页面,找到对应数据的class,然后取

代码如下:

下面是爬到的数据,可以看到有1600+的主播

 

您可能也喜欢:

协程、gevent实现异步io、进程、线程、协程对比

异步io的说白了就是遇到io操作的时候,就停下来去做别的事情。io分网络io和磁盘io,网络io比如说打开一个网站获取数据,下载一首歌等等,磁盘io就是把数据存到一个文件里面,写到磁盘上。 从网站上获取数据或者把数据写到磁盘上都是需要时间的,那就得等待了,这样的话,很多任务的时候就比较慢了,而异步i...

more

迭代器、生成器

迭代器只有在调用next的时候才会取数据(所以省内存),或者循环的时候,一个对象里面实现了__iter__方法,iter方法里面返回了一个迭代器,那就是一个可迭代对象了。 下面的代码,首先实现了iter方法,这个对象就是一个可迭代对象了,然后又返回了self就是自己,就是一个迭代器了。 使用for ...

more

socket、tcp/ip协议、udp协议

socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,应用程序通常通过"套接字"向网络发出请求或者应答网络请求。 socket起源于Unix,而Unix/Linux基本哲学之一就是“一切皆文件”,对于文件用【打开】【读写】【关闭】模式来操作。socket就是该模式的一个实现,...

more

评论&留言
欢迎新朋友你的到来!
还没有人抢沙发呢~
昵称

登录

忘记密码 ?

切换登录

注册