爬虫学习笔记(四)正则表达式

2018-01-06 分类:爬虫, 首页 阅读(556) 评论(0)

上一篇博客写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各种规则来匹配咱们想要的数据。

正则表达式的基本用法可以看我这个博客,http://www.nnzhp.cn/archives/411,咱们这篇博客就写一些正则的实例,从一个网站里面匹配到咱们想要的数据。

http://music.163.com/#/discover/toplist?id=3779629 这个网站是网易云音乐的新歌榜,咱们就写个正则来匹配,把新歌排行榜里面的这100首歌曲的名字和歌手的名字匹配到。

待续。。

您可能也喜欢:

爬虫学习笔记(十)scrapy入门,使用scrapy爬取猫眼电影top100

上面篇博客说了scrapy的流程,这次先做个小项目,爬取到猫眼电影排行榜前100的电影名称、评分、上映时间、主演,存储到mongodb里面。再做这个项目的过程中,来学习scrapy各个组件的用法。 需要把mongodb装好,启动,linux下不会装的可以在我的博客里面搜一下mongodb,有教程,W...

more

爬虫学习笔记(九)scrapy爬虫框架流程介绍

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 当然用咱们前面学的requests、正则表达式、selenium、Beautiful Soup、lxml等等的也可以爬取到数据,代码量也不大。为什么还要用scrapy呢,因为scrapy框架封装了...

more

爬虫实战,selenium爬取斗鱼吃鸡所有主播信息和人气

吃鸡很火,咱们爬下斗鱼的网站,把所有的刺激战场的主播和人气爬下来,存到excel里面,初步做个分析,网站是 https://www.douyu.com/g_jdqscjzc。 咱们大致浏览一下这个网页,发现它的数据都是动态加载的,把网站的js禁用了之后,页面上基本上没啥东西了。 禁用javaScri...

more

评论&留言
欢迎新朋友你的到来!
还没有人抢沙发呢~
昵称

登录

忘记密码 ?

切换登录

注册