爬虫学习笔记(八)xpath和lxml

2018-07-23 分类:Python, 爬虫 阅读(1052) 评论(0)

XPATH

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

说白了就根据元素的路径找元素。

http://www.w3school.com.cn/xpath/index.asp具体介绍可以看这个。

lxml

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML

解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

lxml python 官方文档:http://lxml.de/index.html
需要安装C语言库,可使用 pip 安装:pip install lxml (或通过wheel方式安装)

可以通过lxml来操作网页的xpath,获取到对应的数据或者节点。

下面是几种常用的方法

 

 

您可能也喜欢:

Python AES加密

AES是一种常用的对称加密的方法,高级加密标准(Advanced Encryption Standard),对称加密就是加密解密的方式都一样,只要知道了你加密用的key就可以解密,加密速度比较快,适合大数据量的加解密处理 https://blog.csdn.net/qq_28205153/artic...

more

Python的重试模块

我们写代码的时候,经常会用到重试,如果出错了,或者出现了其他的问题,就重试一次或者N次,自己写实现起来比较复杂,用retrying模块就可以很容易的解决了。 1 pip instal...

more

python使用rsa加密

rsa加密 对称加密   对称加密,对称加密意思就是解密和加密的方式是一样的,比如说你自己设计了一段加密规则,b d s f => 2,3,4,5 这4个字母是相对应的,那只要知道这个加密的规则,也就可以解密了,这就是对称加密。   非对称加密(rsa)   rs...

more

评论&留言
欢迎新朋友你的到来!
还没有人抢沙发呢~
昵称

登录

忘记密码 ?

切换登录

注册