爬虫实战,抓取qq群成员的头像和昵称生成词云

2018-07-13 分类:Python, 爬虫 阅读(921) 评论(0)

前面学了那么多东西了,这次来个实战,把前面的都学的都用上,抓取某个qq群的所有群成员昵称、头像,然后把所有人的头像拼到一个图片里,所有人的昵称,生成一个词云图片。

准备

1、分析qq群的请求

2、使用requests模块发请求、下载qq头像

3、使用获取每个人的qq号、昵称

4、使用wordcloud模块生成昵称词云

5、使用pillow模块拼接头像

前面的如果不会的话,可以参考前面的博客

在浏览器里面查看请求详情 http://www.nnzhp.cn/archives/580

requests模块使用 http://www.nnzhp.cn/archives/613

生成词云 http://www.nnzhp.cn/archives/663

拼接头像 http://www.nnzhp.cn/archives/666

下面咱们从第一步开始,先分析一下qq群的请求,打开 https://qun.qq.com/member.html,这个url是qq群的网页管理版,可以选择一个你加入的任意一个qq群,看到所有成员的信息,然后选择一个qq群,抓包,可以看到它是请求了一个search_group_members的接口,传入了群号,返回了群里的一些成员信息,如下图

下面是请求头的信息

请求分析完了,现在能获取到每个群成员的信息了,返回的mems这个list里面存的是所有qq成员的信息,每个成员信息是一个字典,nick这个是qq昵称,uin这个key是每个人的qq号

再通过分析上面的请求咱们也拿到了获取头像的url,就是qq号不一样而已,https://q4.qlogo.cn/g?b=qq&nk=498201529&s=140,nk这个是qq号,想获取谁的头像,换个qq号就可以了。

用postman请求一下这个搜索接口,看下返回数据的格式,因为这个qq群管理的网页必须得登录才能看到群信息,所以调用这个接口的时候,要传入cookie,咱们之间从浏览器里面把cookie复制过来拿进去。

url : https://qun.qq.com/cgi-bin/qun_mgr/search_group_member,post请求,把headers里面的请求数据拿过来。

上面的分析已经完成了,知道了通过search_mems这个接口可以获取到所有群成员信息,还有下载qq头像的url。

那咱们就写代码咯,思路上面已经写了。一步步的做,代码如下,都加上了注释,有不明白的可以给我留言

 

 

 

您可能也喜欢:

python使用rsa加密

rsa加密 对称加密   对称加密,对称加密意思就是解密和加密的方式是一样的,比如说你自己设计了一段加密规则,b d s f => 2,3,4,5 这4个字母是相对应的,那只要知道这个加密的规则,也就可以解密了,这就是对称加密。   非对称加密(rsa)   rs...

more

协程、gevent实现异步io、进程、线程、协程对比

异步io的说白了就是遇到io操作的时候,就停下来去做别的事情。io分网络io和磁盘io,网络io比如说打开一个网站获取数据,下载一首歌等等,磁盘io就是把数据存到一个文件里面,写到磁盘上。 从网站上获取数据或者把数据写到磁盘上都是需要时间的,那就得等待了,这样的话,很多任务的时候就比较慢了,而异步i...

more

迭代器、生成器

迭代器只有在调用next的时候才会取数据(所以省内存),或者循环的时候,一个对象里面实现了__iter__方法,iter方法里面返回了一个迭代器,那就是一个可迭代对象了。 下面的代码,首先实现了iter方法,这个对象就是一个可迭代对象了,然后又返回了self就是自己,就是一个迭代器了。 使用for ...

more

评论&留言
欢迎新朋友你的到来!
还没有人抢沙发呢~
昵称

登录

忘记密码 ?

切换登录

注册