爬虫学习笔记(四)正则表达式

2018-01-06 分类:首页 阅读(24) 评论(0)

上一篇博客写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各种规则来匹配咱们想要的数据。

正则表达式的基本用法可以看我这个博客,http://www.nnzhp.cn/archives/411,咱们这篇博客就写一些正则的实例,从一个网站里面匹配到咱们想要的数据。

http://music.163.com/#/discover/toplist?id=3779629 这个网站是网易云音乐的新歌榜,咱们就写个正则来匹配,把新歌排行榜里面的这100首歌曲的名字和歌手的名字匹配到。

待续。。

您可能也喜欢:

密码保护:性能测试之mysql监控、优化

我们在做性能测试的目的是什么,就是要测出一个系统的瓶颈在哪里,到底是哪里影响了我们系统的性能,找到问题,然后解决它。当然一个系统由很多东西一起组合到一起,应用程序、数据库、服务器、中中间件等等很多东西。那我们测试的时候上面这些东西里面任何一个环节都可能会出问题,都可能会影响我们系统的性能。这篇博客主...

more

Jenkins安装以及邮件配置

Jenkins介绍 Jenkins是一个java开发的、开源的、非常好用持续集成的工具,它能帮我们实现自动化部署环境、测试、打包等等的工作,还可以在构建任务成功或者失败之后给我们发邮件通知。 什么叫持续集成呢,就是能重复、持久的去运行一个任务。   Jenkins下载、安装 Jenkins...

more

爬虫学习笔记(一)初识爬虫

什么是爬虫?   爬虫是什么呢,就是地上爬的小虫子,就是爬虫咯。呵呵,开个玩笑,一般说的爬虫都是网络爬虫。那什么是网络爬虫呢,百度百科的解释是这样子的: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或...

more

评论&留言
欢迎新朋友你的到来!
还没有人抢沙发呢~
昵称

登录

忘记密码 ?

切换登录

注册