xpath实用提取规则

2023-05-31 0 0 1

详情介绍
常见问题

能够运用以下语法来提取文本内容中包括“中国银行“并且长度大于20的文本数据：

//text()[contains(.,'中国银行') and string-length(.)>20]

这个XPath表达式用到了以下函数：

text()：表明当时节点的一切文簿本节点。
contains(.,'中国银行')：判别文本内容中是否包括“中国银行”。
string-length(.)>20：判别文本内容长度是否大于20。其间，“.”代表当时节点，也便是要提取文本的节点。

最终成果会返回一切契合以上两个条件的文本内容。

能够运用以下XPath定位找到文本内容为”下一页”的标签：

//a[text()='下一页']

上述语句中，//a 表明挑选一切的链接标签。[text()='下一页'] 表明在该选定集合中挑选出文本内容为“下一页”的元素。

假如您想约束只在某个特定元素下查找，能够将//替换为该元素的XPath路径。例如，假如要在带有id特点值为pagination的div元素中查找下一页链接：

//div[@id='pagination']//a[text()='下一页']

其间 //div[@id='pagination'] 用于在id为“pagination”的 div 元素内查找子元素。

通过确定父级标签找兄弟标签：

xpath("//strong[text()='公司名称：']/../span/text()").get("").strip()

这个 XPath 表达式的含义是：

//: 从根节点开始查找
strong: 元素名为 strong 的元素
[text()='公司名称：']: 其间包括文本内容为“公司名称：”（留意这里直接判等，假如 strong 标签内有其他字符可能会匹配不成功）
/..: 向上查找一级，即到这个 strong 标签的父标签
/span: 在 strong 标签的父标签中寻找一个子标签名为 span 的元素
/text(): 获取该 span 元素的文本内容
.get(''): 获取获取到的元素文本内容。假如元素不存在则返回空字符串。
.strip(): 去除内容首尾的空白符和换行符等。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

免费下载或者VIP会员资源能否直接商用？

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。
提示下载完但解压或打开不了？

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们。
找不到素材资源介绍文章里的示例图片？

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。
付款后无法显示下载地址或者无法查看内容？

如果您已经成功付款但是网站没有弹出成功提示，请联系站长提供付款信息为您处理
购买该资源后，可以退款吗？

源码素材属于虚拟商品，具有可复制性，可传播性，一旦授予，不接受任何形式的退款、换货要求。请您在购买获取之前确认好是您所需要的资源