爬虫学习笔记(八)xpath和lxml

2018-07-23 分类:Python, 爬虫 阅读(391) 评论(0)

XPATH

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

说白了就根据元素的路径找元素。

http://www.w3school.com.cn/xpath/index.asp具体介绍可以看这个。

lxml

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML

解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

lxml python 官方文档:http://lxml.de/index.html
需要安装C语言库,可使用 pip 安装:pip install lxml (或通过wheel方式安装)

可以通过lxml来操作网页的xpath,获取到对应的数据或者节点。

下面是几种常用的方法

 

 

您可能也喜欢:

python使用rsa加密

rsa加密 对称加密   对称加密,对称加密意思就是解密和加密的方式是一样的,比如说你自己设计了一段加密规则,b d s f => 2,3,4,5 这4个字母是相对应的,那只要知道这个加密的规则,也就可以解密了,这就是对称加密。   非对称加密(rsa)   rs...

more

协程、gevent实现异步io、进程、线程、协程对比

异步io的说白了就是遇到io操作的时候,就停下来去做别的事情。io分网络io和磁盘io,网络io比如说打开一个网站获取数据,下载一首歌等等,磁盘io就是把数据存到一个文件里面,写到磁盘上。 从网站上获取数据或者把数据写到磁盘上都是需要时间的,那就得等待了,这样的话,很多任务的时候就比较慢了,而异步i...

more

迭代器、生成器

迭代器只有在调用next的时候才会取数据(所以省内存),或者循环的时候,一个对象里面实现了__iter__方法,iter方法里面返回了一个迭代器,那就是一个可迭代对象了。 下面的代码,首先实现了iter方法,这个对象就是一个可迭代对象了,然后又返回了self就是自己,就是一个迭代器了。 使用for ...

more

评论&留言
欢迎新朋友你的到来!
还没有人抢沙发呢~
昵称

登录

忘记密码 ?

切换登录

注册