爬虫学习笔记(四)正则表达式

2018-01-06 分类:爬虫, 首页 阅读(461) 评论(0)

上一篇博客写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各种规则来匹配咱们想要的数据。

正则表达式的基本用法可以看我这个博客,http://www.nnzhp.cn/archives/411,咱们这篇博客就写一些正则的实例,从一个网站里面匹配到咱们想要的数据。

http://music.163.com/#/discover/toplist?id=3779629 这个网站是网易云音乐的新歌榜,咱们就写个正则来匹配,把新歌排行榜里面的这100首歌曲的名字和歌手的名字匹配到。

待续。。

您可能也喜欢:

使用python拼接所有好友的头像

这篇博客介绍一下怎么用python把多张图片按比例缩小,拼成一张图片,比如说我要把我所有微信好友的头像,到一个图片里,如下图:        咱们先不着急写代码,先分析下需求,把思路缕清,代码就好写了。 这个拼图片,就像咱们要做一个照片墙一样,做照片墙怎么做呢,假如说现在有一块640*640的一块...

more

使用python生成词云

什么是词云呢? 词云就是一些关键词组成的一个图片。大家在网上经常看到,下面看一些例子:   那用python生成一个词云的话怎么办呢,首先要有一些词,咱们随便找个吧,用see you again的歌词好了,放到again.txt里面,放着待会咱们用。 然后呢,咱们用 wrodcloud...

more

centos使用squid搭建代理服务器

我们在爬取某个网站的时候,如果有的网站做了反爬虫,如果频繁访问的话,就把我们的ip封掉了,不能访问了,那怎么办呢,就得使用代理了,代理的意思就是,先把请求发到代理上,然后代理帮你把请求发出去,这样你要爬取的网站收到的就是代理发出去的请求了。 网上有很多提供代理的网站,可以搜一下,每天都有免费的代理可...

more

评论&留言
欢迎新朋友你的到来!
还没有人抢沙发呢~
昵称

登录

忘记密码 ?

切换登录

注册