爬虫学习笔记(四)正则表达式

2018-01-06 分类:爬虫, 首页 阅读(234) 评论(0)

上一篇博客写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各种规则来匹配咱们想要的数据。

正则表达式的基本用法可以看我这个博客,http://www.nnzhp.cn/archives/411,咱们这篇博客就写一些正则的实例,从一个网站里面匹配到咱们想要的数据。

http://music.163.com/#/discover/toplist?id=3779629 这个网站是网易云音乐的新歌榜,咱们就写个正则来匹配,把新歌排行榜里面的这100首歌曲的名字和歌手的名字匹配到。

待续。。

您可能也喜欢:

爬虫学习笔记(六)PyQuery模块

PyQuery模块也是一个解析html的一个模块,它和Beautiful Soup用起来差不多,它是jquery实现的,和jquery语法差不多,会用jquery的人用起来就比较方便了。 Pyquery需要依赖lxml模块,不装的话,使用会报错。 安装 ...

more

爬虫学习笔记(五) Beautiful Soup使用

上篇博客说了正则表达式,但是正则学起来比较费劲,写的时候也不好写,这次说下Beautiful Soup怎么用,这个模块是用来解析html的,它操作很简单,用起来比较方便,比正则学习起来简单多了。 这是第三方模块需要安装 ...

more

爬虫学习笔记(三)requests模块使用

前面在说爬虫原理的时候说了,就写代码自动化的获取数据,保存下来数据,那怎么写代码来请求一个网址,获取结果呢,就得用requests模块了。 这篇博客说一下requests模块的使用,requests模块是python的一个第三方模块,它是基于python自带的urllib模块封装的,用来发送http...

more

评论&留言
欢迎新朋友你的到来!
还没有人抢沙发呢~
昵称

登录

忘记密码 ?

切换登录

注册