从入门到精通XPath XML数据解析实战指南

威震华夏关云长 · 发表于 2025-9-23 14:10:00

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

1. XPath简介和基础概念

XPath（XML Path Language）是一种用于在XML文档中定位节点的语言。它提供了一种灵活的方式来导航XML文档的元素树结构，并选取节点或节点集。XPath最初是为XSLT设计的，但现在已成为许多XML相关技术的重要组成部分。

XML文档树结构

在了解XPath之前，我们需要理解XML文档的树结构。XML文档被视为一个树形结构，包含以下几种节点类型：

• 元素节点（Element Nodes）：XML文档中的元素，如<book>、<title>等。
• 属性节点（Attribute Nodes）：元素的属性，如category="COOKING"。
• 文本节点（Text Nodes）：元素中的文本内容，如”Everyday Italian”。
• 命名空间节点（Namespace Nodes）：与元素关联的命名空间。
• 处理指令节点（Processing Instruction Nodes）：如<?xml version="1.0"?>。
• 注释节点（Comment Nodes）：XML文档中的注释，如。
• 根节点（Root Nodes）：整个XML文档的根节点，是所有节点的祖先。

节点关系

在XML树结构中，节点之间存在以下关系：

• 父节点（Parent）：每个元素和属性都有一个父节点。
• 子节点（Children）：元素节点可以有零个或多个子节点。
• 兄弟节点（Siblings）：具有相同父节点的节点。
• 祖先节点（Ancestors）：一个节点的父节点、父节点的父节点等。
• 后代节点（Descendants）：一个节点的子节点、子节点的子节点等。

让我们通过一个示例XML文档来理解这些概念：

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title lang="en">Harry Potter</title>
<author>J.K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>

复制代码

在这个例子中：

• bookstore是根节点，也是两个book元素的父节点。
• 两个book元素是兄弟节点，它们都是bookstore的子节点。
• 每个book元素包含四个子节点：title、author、year和price。
• category是book元素的属性节点。
• “Everyday Italian”是title元素的文本节点。

2. XPath语法和表达式

XPath使用路径表达式来选取XML文档中的节点。这些路径表达式类似于文件系统中的路径。

基本路径表达式

• nodename：选取所有名为nodename的子节点。
• /：从根节点选取。
• //：从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
• .：选取当前节点。
• ..：选取当前节点的父节点。
• @：选取属性。

让我们通过示例来理解这些基本表达式：

bookstore /* 选取所有bookstore子节点 */
/bookstore /* 从根节点选取bookstore元素 */
bookstore/book /* 选取所有属于bookstore子元素的book元素 */
//book /* 选取所有book元素，不管它们在文档中的位置 */
bookstore//book /* 选取所有属于bookstore后代元素的book元素 */
//@lang /* 选取所有名为lang的属性 */

复制代码

谓语（Predicates）

谓语用于查找某个特定的节点或者包含某个指定值的节点。谓语被嵌在方括号[]中。

/bookstore/book[1] /* 选取属于bookstore子元素的第一个book元素 */
/bookstore/book[last()] /* 选取属于bookstore子元素的最后一个book元素 */
/bookstore/book[position()<3] /* 选取最前面的两个属于bookstore子元素的book元素 */
//title[@lang] /* 选取所有拥有名为lang的属性的title元素 */
//title[@lang='eng'] /* 选取所有title元素，且这些元素拥有值为eng的lang属性 */
/bookstore/book[price>35.00] /* 选取bookstore元素的所有book元素，且其中的price元素的值须大于35.00 */

复制代码

通配符

XPath支持通配符，用于选取未知的XML元素。

* /* 匹配任何元素节点 */
@* /* 匹配任何属性节点 */
node() /* 匹配任何类型的节点 */
/bookstore/* /* 选取bookstore元素的所有子元素 */
//* /* 选取文档中的所有元素 */
//title[@*] /* 选取所有带有属性的title元素 */

复制代码

多个路径

通过在XPath表达式中使用|运算符，你可以选取多个路径。

//book/title | //book/price /* 选取book元素的所有title和price元素 */
//title | //price /* 选取文档中的所有title和price元素 */
/bookstore/book/title | //price /* 选取属于bookstore元素的book元素的所有title元素，以及文档中所有的price元素 */

复制代码

3. XPath轴和节点测试

XPath轴定义了相对于当前节点的节点集。轴可以用来更精确地定位节点。

XPath轴

• ancestor：选取当前节点的所有祖先（父、祖父等）。
• ancestor-or-self：选取当前节点的所有祖先以及当前节点本身。
• attribute：选取当前节点的所有属性。
• child：选取当前节点的所有子元素。
• descendant：选取当前节点的所有后代（子、孙等）。
• descendant-or-self：选取当前节点的所有后代以及当前节点本身。
• following：选取文档中当前节点的结束标签之后的所有节点。
• following-sibling：选取当前节点之后的所有兄弟节点。
• namespace：选取当前节点的所有命名空间节点。
• parent：选取当前节点的父节点。
• preceding：选取文档中当前节点的开始标签之前的所有节点。
• preceding-sibling：选取当前节点之前的所有兄弟节点。
• self：选取当前节点。

节点测试

节点测试用于筛选轴中的节点。节点测试可以是节点名称、通配符或节点类型。

child::book /* 选取当前节点的所有book子节点 */
attribute::lang /* 选取当前节点的lang属性 */
child::* /* 选取当前节点的所有子元素 */
attribute::* /* 选取当前节点的所有属性 */
child::text() /* 选取当前节点的所有文本子节点 */
child::node() /* 选取当前节点的所有子节点 */
descendant::book /* 选取当前节点的所有book后代节点 */
ancestor::book /* 选取当前节点的所有book祖先节点 */
child::*/child::price /* 选取当前节点的所有price孙节点 */

复制代码

简写语法

XPath提供了一些简写语法，使得表达式更加简洁：

• child::可以省略，例如child::book可以简写为book。
• attribute::可以简写为@，例如attribute::lang可以简写为@lang。
• //是/descendant-or-self::node()/的简写。
• .是self::node()的简写。
• ..是parent::node()的简写。

4. XPath函数和运算符

XPath提供了丰富的函数库，用于处理字符串、数值、布尔值和节点集。

运算符

• 算术运算符：+（加）、-（减）、*（乘）、div（除）、mod（取余）
• 比较运算符：=（等于）、!=（不等于）、<（小于）、<=（小于等于）、>（大于）、>=（大于等于）
• 布尔运算符：and（与）、or（或）、not()（非）
• 其他运算符：|（并集，返回两个节点集的合并）

节点集函数

• last()：返回当前上下文中的最后一个节点的位置编号。
• position()：返回当前节点的位置编号。
• count(node-set)：返回节点集中的节点数。
• id(string)：返回具有唯一ID的元素节点，该ID由string参数指定。
• local-name(node-set)：返回节点集中第一个节点的本地名称（不带命名空间前缀）。
• namespace-uri(node-set)：返回节点集中第一个节点的命名空间URI。
• name(node-set)：返回节点集中第一个节点的完整名称（带命名空间前缀）。

字符串函数

• string(object)：将对象转换为字符串。
• concat(string, string, ...)：连接两个或多个字符串。
• starts-with(string, string)：如果第一个字符串以第二个字符串开头，则返回true。
• contains(string, string)：如果第一个字符串包含第二个字符串，则返回true。
• substring-before(string, string)：返回第一个字符串中在第二个字符串出现之前的部分。
• substring-after(string, string)：返回第一个字符串中在第二个字符串出现之后的部分。
• substring(string, start, length)：返回从start位置开始的指定长度的子字符串。
• string-length(string)：返回字符串的长度。
• normalize-space(string)：删除字符串前后的空白，并将连续的空白替换为单个空格。
• translate(string, string, string)：将第一个字符串中的字符替换为第三个字符串中对应位置的字符。

布尔函数

• boolean(object)：将对象转换为布尔值。
• not(boolean)：返回布尔值的反值。
• true()：返回true。
• false()：返回false。
• lang(string)：如果上下文节点的语言与指定的语言匹配，则返回true。

数值函数

• number(object)：将对象转换为数值。
• sum(node-set)：返回节点集中所有节点的数值之和。
• floor(number)：返回不大于number的最大整数。
• ceiling(number)：返回不小于number的最小整数。
• round(number)：返回最接近number的整数。

5. 实战案例：使用XPath解析XML

让我们通过一个实际的XML文档来演示XPath的使用。

示例XML文档

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title lang="en">Harry Potter</title>
<author>J.K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title lang="en">XQuery Kick Start</title>
<author>James McGovern</author>
<author>Per Bothner</author>
<author>Kurt Cagle</author>
<author>James Linn</author>
<author>Vaidyanathan Nagarajan</author>
<year>2003</year>
<price>49.99</price>
</book>
<book category="WEB">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>

复制代码

基本XPath查询示例

1. 选取根元素bookstore：/bookstore
2. 选取所有book元素：/bookstore/book
3. 选取所有book元素下的所有title元素：/bookstore/book/title
4. 选取所有book元素下的第一个title元素：/bookstore/book/title[1]
5. 选取所有带有category属性且值为WEB的book元素：/bookstore/book[@category='WEB']
6. 选取所有价格大于35的book元素：/bookstore/book[price>35]
7. 选取所有带有lang属性的title元素：//title[@lang]
8. 选取所有lang属性值为en的title元素：//title[@lang='en']

选取根元素bookstore：

/bookstore

复制代码

选取所有book元素：

/bookstore/book

复制代码

选取所有book元素下的所有title元素：

/bookstore/book/title

复制代码

选取所有book元素下的第一个title元素：

/bookstore/book/title[1]

复制代码

选取所有带有category属性且值为WEB的book元素：

/bookstore/book[@category='WEB']

复制代码

选取所有价格大于35的book元素：

/bookstore/book[price>35]

复制代码

选取所有带有lang属性的title元素：

//title[@lang]

复制代码

选取所有lang属性值为en的title元素：

//title[@lang='en']

复制代码

高级XPath查询示例

1. 选取所有价格大于35且category为WEB的book元素：/bookstore/book[@category='WEB' and price>35]
2. 选取所有价格大于30或category为CHILDREN的book元素：/bookstore/book[price>30 or @category='CHILDREN']
3. 选取所有title元素，其中title的文本包含”XML”：//title[contains(text(), 'XML')]
4. 选取所有title元素，其中title的文本以”Learning”开头：//title[starts-with(text(), 'Learning')]
5. 选取所有book元素，并按价格降序排列：/bookstore/book（注意：XPath 1.0本身不支持排序，但可以在XSLT或编程语言中实现）
6. 选取所有book元素，并计算它们的平均价格：sum(/bookstore/book/price) div count(/bookstore/book)
7. 选取所有book元素，并找出价格最高的book：/bookstore/book[price = max(/bookstore/book/price)]（注意：max()函数是XPath 2.0引入的，XPath 1.0中需要使用其他方法）
8. 选取所有包含多个作者的book元素：/bookstore/book[count(author) > 1]

选取所有价格大于35且category为WEB的book元素：

/bookstore/book[@category='WEB' and price>35]

复制代码

选取所有价格大于30或category为CHILDREN的book元素：

/bookstore/book[price>30 or @category='CHILDREN']

复制代码

选取所有title元素，其中title的文本包含”XML”：

//title[contains(text(), 'XML')]

复制代码

选取所有title元素，其中title的文本以”Learning”开头：

//title[starts-with(text(), 'Learning')]

复制代码

选取所有book元素，并按价格降序排列：

/bookstore/book

复制代码

（注意：XPath 1.0本身不支持排序，但可以在XSLT或编程语言中实现）

选取所有book元素，并计算它们的平均价格：

sum(/bookstore/book/price) div count(/bookstore/book)

复制代码

选取所有book元素，并找出价格最高的book：

/bookstore/book[price = max(/bookstore/book/price)]

复制代码

（注意：max()函数是XPath 2.0引入的，XPath 1.0中需要使用其他方法）

选取所有包含多个作者的book元素：

/bookstore/book[count(author) > 1]

复制代码

使用XPath处理命名空间

当XML文档使用命名空间时，XPath查询需要考虑命名空间。

示例XML文档（带命名空间）：

<?xml version="1.0" encoding="UTF-8"?>
<ns:bookstore xmlns:ns="http://example.com/bookstore">
<ns:book category="COOKING">
<ns:title lang="en">Everyday Italian</ns:title>
<ns:author>Giada De Laurentiis</ns:author>
<ns:year>2005</ns:year>
<ns:price>30.00</ns:price>
</ns:book>
<ns:book category="CHILDREN">
<ns:title lang="en">Harry Potter</ns:title>
<ns:author>J.K. Rowling</ns:author>
<ns:year>2005</ns:year>
<ns:price>29.99</ns:price>
</ns:book>
</ns:bookstore>

复制代码

XPath查询示例：

1. 选取所有book元素（需要使用命名空间前缀）：//ns:book
2. 选取所有title元素（需要使用命名空间前缀）：//ns:title

选取所有book元素（需要使用命名空间前缀）：

//ns:book

复制代码

选取所有title元素（需要使用命名空间前缀）：

//ns:title

复制代码

注意：在实际应用中，命名空间前缀需要与XML处理器中注册的命名空间URI匹配。

6. XPath在不同编程语言中的应用

XPath不仅是一种查询语言，还可以在各种编程语言中使用。下面我们将介绍如何在几种常见的编程语言中使用XPath。

Python中使用XPath

Python中有多个库支持XPath，最常用的是lxml库。

pip install lxml

复制代码

from lxml import etree
# 示例XML文档
xml_doc = """
<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title lang="en">Harry Potter</title>
<author>J.K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title lang="en">XQuery Kick Start</title>
<author>James McGovern</author>
<author>Per Bothner</author>
<author>Kurt Cagle</author>
<author>James Linn</author>
<author>Vaidyanathan Nagarajan</author>
<year>2003</year>
<price>49.99</price>
</book>
<book category="WEB">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>
"""
# 解析XML文档
tree = etree.fromstring(xml_doc.encode('utf-8'))
# 1. 选取所有book元素
books = tree.xpath('//book')
print(f"Total books: {len(books)}")
# 2. 选取所有title元素
titles = tree.xpath('//title/text()')
print("All titles:")
for title in titles:
print(f"- {title}")
# 3. 选取所有category为WEB的book元素
web_books = tree.xpath('//book[@category="WEB"]')
print("\nWeb books:")
for book in web_books:
title = book.xpath('title/text()')[0]
price = book.xpath('price/text()')[0]
print(f"- {title}: {price}")
# 4. 选取价格大于35的book元素
expensive_books = tree.xpath('//book[price>35]')
print("\nExpensive books:")
for book in expensive_books:
title = book.xpath('title/text()')[0]
price = book.xpath('price/text()')[0]
print(f"- {title}: {price}")
# 5. 计算所有book的平均价格
prices = tree.xpath('//price/text()')
total = sum(float(price) for price in prices)
average = total / len(prices)
print(f"\nAverage price: {average:.2f}")
# 6. 使用XPath函数
# 选取所有title元素，其中title的文本包含"XML"
xml_titles = tree.xpath('//title[contains(text(), "XML")]/text()')
print("\nTitles containing 'XML':")
for title in xml_titles:
print(f"- {title}")

复制代码

Java中使用XPath

Java内置了对XPath的支持，主要通过javax.xml.xpath包。

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathExpression;
import javax.xml.xpath.XPathFactory;
import org.w3c.dom.Document;
import org.w3c.dom.NodeList;
public class XPathExample {
public static void main(String[] args) throws Exception {
// 示例XML文档
String xml = "<?xml version="1.0" encoding="UTF-8"?>\n" +
"<bookstore>\n" +
" <book category="COOKING">\n" +
" <title lang="en">Everyday Italian</title>\n" +
" <author>Giada De Laurentiis</author>\n" +
" <year>2005</year>\n" +
" <price>30.00</price>\n" +
" </book>\n" +
" <book category="CHILDREN">\n" +
" <title lang="en">Harry Potter</title>\n" +
" <author>J.K. Rowling</author>\n" +
" <year>2005</year>\n" +
" <price>29.99</price>\n" +
" </book>\n" +
" <book category="WEB">\n" +
" <title lang="en">XQuery Kick Start</title>\n" +
" <author>James McGovern</author>\n" +
" <author>Per Bothner</author>\n" +
" <author>Kurt Cagle</author>\n" +
" <author>James Linn</author>\n" +
" <author>Vaidyanathan Nagarajan</author>\n" +
" <year>2003</year>\n" +
" <price>49.99</price>\n" +
" </book>\n" +
" <book category="WEB">\n" +
" <title lang="en">Learning XML</title>\n" +
" <author>Erik T. Ray</author>\n" +
" <year>2003</year>\n" +
" <price>39.95</price>\n" +
" </book>\n" +
"</bookstore>";
// 解析XML文档
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document document = builder.parse(new java.io.ByteArrayInputStream(xml.getBytes()));
// 创建XPath对象
XPathFactory xPathFactory = XPathFactory.newInstance();
XPath xpath = xPathFactory.newXPath();
// 1. 选取所有book元素
XPathExpression expr = xpath.compile("//book");
NodeList books = (NodeList) expr.evaluate(document, XPathConstants.NODESET);
System.out.println("Total books: " + books.getLength());
// 2. 选取所有title元素的文本内容
expr = xpath.compile("//title/text()");
NodeList titles = (NodeList) expr.evaluate(document, XPathConstants.NODESET);
System.out.println("\nAll titles:");
for (int i = 0; i < titles.getLength(); i++) {
System.out.println("- " + titles.item(i).getNodeValue());
}
// 3. 选取所有category为WEB的book元素
expr = xpath.compile("//book[@category='WEB']");
NodeList webBooks = (NodeList) expr.evaluate(document, XPathConstants.NODESET);
System.out.println("\nWeb books:");
for (int i = 0; i < webBooks.getLength(); i++) {
String title = xpath.evaluate("title/text()", webBooks.item(i));
String price = xpath.evaluate("price/text()", webBooks.item(i));
System.out.println("- " + title + ": " + price);
}
// 4. 选取价格大于35的book元素
expr = xpath.compile("//book[price>35]");
NodeList expensiveBooks = (NodeList) expr.evaluate(document, XPathConstants.NODESET);
System.out.println("\nExpensive books:");
for (int i = 0; i < expensiveBooks.getLength(); i++) {
String title = xpath.evaluate("title/text()", expensiveBooks.item(i));
String price = xpath.evaluate("price/text()", expensiveBooks.item(i));
System.out.println("- " + title + ": " + price);
}
// 5. 计算所有book的平均价格
expr = xpath.compile("sum(//price) div count(//book)");
Double average = (Double) expr.evaluate(document, XPathConstants.NUMBER);
System.out.printf("\nAverage price: %.2f\n", average);
// 6. 使用XPath函数
// 选取所有title元素，其中title的文本包含"XML"
expr = xpath.compile("//title[contains(text(), 'XML')]/text()");
NodeList xmlTitles = (NodeList) expr.evaluate(document, XPathConstants.NODESET);
System.out.println("\nTitles containing 'XML':");
for (int i = 0; i < xmlTitles.getLength(); i++) {
System.out.println("- " + xmlTitles.item(i).getNodeValue());
}
}
}

复制代码

JavaScript中使用XPath

在浏览器环境中，可以使用document.evaluate()方法来执行XPath查询。

<!DOCTYPE html>
<html>
<head>
<title>XPath Example</title>
</head>
<body>
<div id="result"></div>
<script>
// 示例XML文档
const xmlString = `
<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title lang="en">Harry Potter</title>
<author>J.K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title lang="en">XQuery Kick Start</title>
<author>James McGovern</author>
<author>Per Bothner</author>
<author>Kurt Cagle</author>
<author>James Linn</author>
<author>Vaidyanathan Nagarajan</author>
<year>2003</year>
<price>49.99</price>
</book>
<book category="WEB">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>
`;
// 解析XML文档
const parser = new DOMParser();
const xmlDoc = parser.parseFromString(xmlString, "text/xml");
// 创建结果容器
const resultDiv = document.getElementById('result');
let html = '';
// 辅助函数：执行XPath查询并返回结果
function evaluateXPath(xpath, contextNode = xmlDoc, resultType = XPathResult.ANY_TYPE) {
return document.evaluate(xpath, contextNode, null, resultType, null);
}
// 1. 选取所有book元素
const books = evaluateXPath('//book', xmlDoc, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE);
html += `<p>Total books: ${books.snapshotLength}</p>`;
// 2. 选取所有title元素的文本内容
const titles = evaluateXPath('//title/text()', xmlDoc, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE);
html += '<p>All titles:</p><ul>';
for (let i = 0; i < titles.snapshotLength; i++) {
html += `<li>${titles.snapshotItem(i).nodeValue}</li>`;
}
html += '</ul>';
// 3. 选取所有category为WEB的book元素
const webBooks = evaluateXPath('//book[@category="WEB"]', xmlDoc, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE);
html += '<p>Web books:</p><ul>';
for (let i = 0; i < webBooks.snapshotLength; i++) {
const book = webBooks.snapshotItem(i);
const title = evaluateXPath('title/text()', book, XPathResult.STRING_TYPE).stringValue;
const price = evaluateXPath('price/text()', book, XPathResult.STRING_TYPE).stringValue;
html += `<li>${title}: ${price}</li>`;
}
html += '</ul>';
// 4. 选取价格大于35的book元素
const expensiveBooks = evaluateXPath('//book[price>35]', xmlDoc, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE);
html += '<p>Expensive books:</p><ul>';
for (let i = 0; i < expensiveBooks.snapshotLength; i++) {
const book = expensiveBooks.snapshotItem(i);
const title = evaluateXPath('title/text()', book, XPathResult.STRING_TYPE).stringValue;
const price = evaluateXPath('price/text()', book, XPathResult.STRING_TYPE).stringValue;
html += `<li>${title}: ${price}</li>`;
}
html += '</ul>';
// 5. 计算所有book的平均价格
const prices = evaluateXPath('//price/text()', xmlDoc, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE);
let total = 0;
for (let i = 0; i < prices.snapshotLength; i++) {
total += parseFloat(prices.snapshotItem(i).nodeValue);
}
const average = total / prices.snapshotLength;
html += `<p>Average price: ${average.toFixed(2)}</p>`;
// 6. 使用XPath函数
// 选取所有title元素，其中title的文本包含"XML"
const xmlTitles = evaluateXPath('//title[contains(text(), "XML")]/text()', xmlDoc, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE);
html += '<p>Titles containing "XML":</p><ul>';
for (let i = 0; i < xmlTitles.snapshotLength; i++) {
html += `<li>${xmlTitles.snapshotItem(i).nodeValue}</li>`;
}
html += '</ul>';
// 显示结果
resultDiv.innerHTML = html;
</script>
</body>
</html>

复制代码

C#中使用XPath

在.NET框架中，可以使用System.Xml.XPath命名空间中的类来处理XPath查询。

using System;
using System.Xml;
using System.Xml.XPath;
class XPathExample
{
static void Main()
{
// 示例XML文档
string xml = @"<?xml version=""1.0"" encoding=""UTF-8""?>
<bookstore>
<book category=""COOKING"">
<title lang=""en"">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category=""CHILDREN"">
<title lang=""en"">Harry Potter</title>
<author>J.K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category=""WEB"">
<title lang=""en"">XQuery Kick Start</title>
<author>James McGovern</author>
<author>Per Bothner</author>
<author>Kurt Cagle</author>
<author>James Linn</author>
<author>Vaidyanathan Nagarajan</author>
<year>2003</year>
<price>49.99</price>
</book>
<book category=""WEB"">
<title lang=""en"">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>";
// 加载XML文档
XmlDocument doc = new XmlDocument();
doc.LoadXml(xml);
// 创建XPath导航器
XPathNavigator navigator = doc.CreateNavigator();
// 1. 选取所有book元素
XPathNodeIterator books = navigator.Select("//book");
Console.WriteLine($"Total books: {books.Count}");
// 2. 选取所有title元素的文本内容
XPathNodeIterator titles = navigator.Select("//title/text()");
Console.WriteLine("\nAll titles:");
while (titles.MoveNext())
{
Console.WriteLine($"- {titles.Current.Value}");
}
// 3. 选取所有category为WEB的book元素
XPathNodeIterator webBooks = navigator.Select("//book[@category='WEB']");
Console.WriteLine("\nWeb books:");
while (webBooks.MoveNext())
{
XPathNavigator book = webBooks.Current;
string title = book.SelectSingleNode("title/text()").Value;
string price = book.SelectSingleNode("price/text()").Value;
Console.WriteLine($"- {title}: {price}");
}
// 4. 选取价格大于35的book元素
XPathNodeIterator expensiveBooks = navigator.Select("//book[price>35]");
Console.WriteLine("\nExpensive books:");
while (expensiveBooks.MoveNext())
{
XPathNavigator book = expensiveBooks.Current;
string title = book.SelectSingleNode("title/text()").Value;
string price = book.SelectSingleNode("price/text()").Value;
Console.WriteLine($"- {title}: {price}");
}
// 5. 计算所有book的平均价格
double total = (double)navigator.Evaluate("sum(//price)");
int count = (int)navigator.Evaluate("count(//book)");
double average = total / count;
Console.WriteLine($"\nAverage price: {average:F2}");
// 6. 使用XPath函数
// 选取所有title元素，其中title的文本包含"XML"
XPathNodeIterator xmlTitles = navigator.Select("//title[contains(text(), 'XML')]/text()");
Console.WriteLine("\nTitles containing 'XML':");
while (xmlTitles.MoveNext())
{
Console.WriteLine($"- {xmlTitles.Current.Value}");
}
}
}

复制代码

7. 高级技巧和最佳实践

处理大型XML文档

当处理大型XML文档时，内存使用可能成为一个问题。以下是一些处理大型XML文档的技巧：

1. 使用流式处理：对于非常大的XML文件，考虑使用SAX（Simple API for XML）或StAX（Streaming API for XML）等流式处理方法，而不是DOM（Document Object Model）。
2. 使用XPath优化查询：尽量使用具体的路径表达式，避免使用//，因为它会搜索整个文档。
3. 分块处理：如果可能，将大型XML文档分成较小的块进行处理。
4. 使用XPath的谓词：使用谓词来限制结果集的大小，减少内存使用。

使用流式处理：对于非常大的XML文件，考虑使用SAX（Simple API for XML）或StAX（Streaming API for XML）等流式处理方法，而不是DOM（Document Object Model）。

使用XPath优化查询：尽量使用具体的路径表达式，避免使用//，因为它会搜索整个文档。

分块处理：如果可能，将大型XML文档分成较小的块进行处理。

使用XPath的谓词：使用谓词来限制结果集的大小，减少内存使用。

处理命名空间

处理带有命名空间的XML文档时，需要特别注意：

1. 注册命名空间：在使用XPath查询之前，确保所有相关的命名空间都已注册。
2. 使用命名空间前缀：在XPath表达式中使用命名空间前缀来限定元素和属性名称。
3. 避免使用local-name()函数：虽然可以使用local-name()函数来忽略命名空间，但这会使查询变得脆弱，因为XML结构的变化可能会破坏查询。

注册命名空间：在使用XPath查询之前，确保所有相关的命名空间都已注册。

使用命名空间前缀：在XPath表达式中使用命名空间前缀来限定元素和属性名称。

避免使用local-name()函数：虽然可以使用local-name()函数来忽略命名空间，但这会使查询变得脆弱，因为XML结构的变化可能会破坏查询。

XPath性能优化

以下是一些优化XPath性能的技巧：

1. 使用具体的路径：尽量使用具体的路径表达式，而不是通配符。
2. 避免在谓词中使用复杂表达式：谓词中的复杂表达式可能会降低性能。
3. 使用索引：如果XML处理器支持索引，确保对经常查询的元素和属性建立索引。
4. 缓存查询结果：如果多次使用相同的查询结果，考虑缓存它们。
5. 使用XPath 2.0或更高版本：如果可能，使用XPath 2.0或更高版本，因为它们提供了更多的优化和功能。

使用具体的路径：尽量使用具体的路径表达式，而不是通配符。

避免在谓词中使用复杂表达式：谓词中的复杂表达式可能会降低性能。

使用索引：如果XML处理器支持索引，确保对经常查询的元素和属性建立索引。

缓存查询结果：如果多次使用相同的查询结果，考虑缓存它们。

使用XPath 2.0或更高版本：如果可能，使用XPath 2.0或更高版本，因为它们提供了更多的优化和功能。

XPath与XSLT结合使用

XPath通常与XSLT（Extensible Stylesheet Language Transformations）结合使用，以转换XML文档。以下是一些结合使用XPath和XSLT的技巧：

1. 使用XPath模板匹配：在XSLT中使用XPath来匹配模板。
2. 使用XPath变量：在XSLT中定义XPath变量，以简化复杂的表达式。
3. 使用XPath键：在XSLT中使用xsl:key和key()函数来创建索引，提高查询性能。
4. 使用XPath函数：利用XPath函数库来处理字符串、数值和布尔值。

使用XPath模板匹配：在XSLT中使用XPath来匹配模板。

使用XPath变量：在XSLT中定义XPath变量，以简化复杂的表达式。

使用XPath键：在XSLT中使用xsl:key和key()函数来创建索引，提高查询性能。

使用XPath函数：利用XPath函数库来处理字符串、数值和布尔值。

XPath与XQuery结合使用

XQuery是一种用于查询XML数据的语言，它扩展了XPath的功能。以下是一些结合使用XPath和XQuery的技巧：

1. 使用FLWOR表达式：XQuery的FLWOR（For, Let, Where, Order by, Return）表达式提供了比XPath更强大的查询能力。
2. 使用XPath作为XQuery的基础：XQuery使用XPath来定位节点，因此XPath的知识对于使用XQuery至关重要。
3. 使用XQuery函数：XQuery提供了比XPath更丰富的函数库，可以用于更复杂的数据处理。

使用FLWOR表达式：XQuery的FLWOR（For, Let, Where, Order by, Return）表达式提供了比XPath更强大的查询能力。

使用XPath作为XQuery的基础：XQuery使用XPath来定位节点，因此XPath的知识对于使用XQuery至关重要。

使用XQuery函数：XQuery提供了比XPath更丰富的函数库，可以用于更复杂的数据处理。

8. 性能优化和常见问题解决

XPath性能优化

1. 避免使用//：//操作符会搜索整个文档，这可能会很慢。尽量使用具体的路径。
2. 使用谓词限制结果：使用谓词来限制结果集的大小，减少内存使用。
3. 避免在谓词中使用复杂表达式：谓词中的复杂表达式可能会降低性能。
4. 使用索引：如果XML处理器支持索引，确保对经常查询的元素和属性建立索引。
5. 缓存查询结果：如果多次使用相同的查询结果，考虑缓存它们。

避免使用//：//操作符会搜索整个文档，这可能会很慢。尽量使用具体的路径。

使用谓词限制结果：使用谓词来限制结果集的大小，减少内存使用。

避免在谓词中使用复杂表达式：谓词中的复杂表达式可能会降低性能。

使用索引：如果XML处理器支持索引，确保对经常查询的元素和属性建立索引。

缓存查询结果：如果多次使用相同的查询结果，考虑缓存它们。

常见问题解决

1. 命名空间问题：问题：XPath查询无法找到带有命名空间的元素。解决方案：确保在XPath查询中正确使用命名空间前缀，并在XML处理器中注册命名空间。
2. 问题：XPath查询无法找到带有命名空间的元素。
3. 解决方案：确保在XPath查询中正确使用命名空间前缀，并在XML处理器中注册命名空间。
4. 大小写敏感问题：问题：XPath查询对元素和属性名称的大小写敏感。解决方案：确保XPath表达式中的大小写与XML文档中的大小写匹配。
5. 问题：XPath查询对元素和属性名称的大小写敏感。
6. 解决方案：确保XPath表达式中的大小写与XML文档中的大小写匹配。
7. 上下文问题：问题：XPath查询返回意外的结果，可能是由于上下文不正确。解决方案：确保在正确的上下文中执行XPath查询，可以使用.和..来导航到正确的节点。
8. 问题：XPath查询返回意外的结果，可能是由于上下文不正确。
9. 解决方案：确保在正确的上下文中执行XPath查询，可以使用.和..来导航到正确的节点。
10. 数据类型问题：问题：XPath查询中的数值比较不工作。解决方案：确保数值比较中的值确实是数值类型，可以使用number()函数进行转换。
11. 问题：XPath查询中的数值比较不工作。
12. 解决方案：确保数值比较中的值确实是数值类型，可以使用number()函数进行转换。
13. 特殊字符问题：问题：XPath查询中的特殊字符（如<,>,&等）导致错误。解决方案：使用XML实体或CDATA来处理特殊字符。
14. 问题：XPath查询中的特殊字符（如<,>,&等）导致错误。
15. 解决方案：使用XML实体或CDATA来处理特殊字符。

命名空间问题：

• 问题：XPath查询无法找到带有命名空间的元素。
• 解决方案：确保在XPath查询中正确使用命名空间前缀，并在XML处理器中注册命名空间。

大小写敏感问题：

• 问题：XPath查询对元素和属性名称的大小写敏感。
• 解决方案：确保XPath表达式中的大小写与XML文档中的大小写匹配。

上下文问题：

• 问题：XPath查询返回意外的结果，可能是由于上下文不正确。
• 解决方案：确保在正确的上下文中执行XPath查询，可以使用.和..来导航到正确的节点。

数据类型问题：

• 问题：XPath查询中的数值比较不工作。
• 解决方案：确保数值比较中的值确实是数值类型，可以使用number()函数进行转换。

特殊字符问题：

• 问题：XPath查询中的特殊字符（如<,>,&等）导致错误。
• 解决方案：使用XML实体或CDATA来处理特殊字符。

调试XPath查询

调试XPath查询可能会很困难，以下是一些调试技巧：

1. 使用XPath测试工具：有许多在线和离线的XPath测试工具，可以帮助你测试和调试XPath表达式。
2. 分步调试：将复杂的XPath表达式分解为较小的部分，逐步测试每个部分。
3. 使用count()函数：使用count()函数来检查XPath表达式返回的节点数量。
4. 使用name()函数：使用name()函数来检查节点的名称。
5. 使用string()函数：使用string()函数来检查节点的文本内容。

使用XPath测试工具：有许多在线和离线的XPath测试工具，可以帮助你测试和调试XPath表达式。

分步调试：将复杂的XPath表达式分解为较小的部分，逐步测试每个部分。

使用count()函数：使用count()函数来检查XPath表达式返回的节点数量。

使用name()函数：使用name()函数来检查节点的名称。

使用string()函数：使用string()函数来检查节点的文本内容。

XPath与其他技术的比较

XPath与其他XML处理技术相比，有其优缺点：

1. XPath vs. DOM：XPath：更简洁，更易于编写和维护，适合查询和提取数据。DOM：提供更全面的文档操作能力，适合修改文档结构。
2. XPath：更简洁，更易于编写和维护，适合查询和提取数据。
3. DOM：提供更全面的文档操作能力，适合修改文档结构。
4. XPath vs. SAX：XPath：更适合随机访问和查询XML文档。SAX：更适合顺序处理大型XML文档，内存效率更高。
5. XPath：更适合随机访问和查询XML文档。
6. SAX：更适合顺序处理大型XML文档，内存效率更高。
7. XPath vs. XQuery：XPath：更简单，适合简单的查询和提取数据。XQuery：更强大，适合复杂的查询和转换XML数据。
8. XPath：更简单，适合简单的查询和提取数据。
9. XQuery：更强大，适合复杂的查询和转换XML数据。
10. XPath vs. JSONPath：XPath：用于XML文档，功能更强大。JSONPath：用于JSON文档，语法更简单。
11. XPath：用于XML文档，功能更强大。
12. JSONPath：用于JSON文档，语法更简单。

XPath vs. DOM：

• XPath：更简洁，更易于编写和维护，适合查询和提取数据。
• DOM：提供更全面的文档操作能力，适合修改文档结构。

XPath vs. SAX：

• XPath：更适合随机访问和查询XML文档。
• SAX：更适合顺序处理大型XML文档，内存效率更高。

XPath vs. XQuery：

• XPath：更简单，适合简单的查询和提取数据。
• XQuery：更强大，适合复杂的查询和转换XML数据。

XPath vs. JSONPath：

• XPath：用于XML文档，功能更强大。
• JSONPath：用于JSON文档，语法更简单。

总结

XPath是一种强大的查询语言，用于在XML文档中定位和提取数据。它提供了丰富的语法和函数库，可以处理各种复杂的查询需求。通过本文的介绍，你应该已经了解了XPath的基本概念、语法、函数和高级技巧，以及如何在不同的编程语言中使用XPath。

要精通XPath，需要不断练习和实践。尝试使用XPath来解析各种XML文档，解决实际问题，这将帮助你更好地理解和掌握XPath。同时，关注XPath的最新发展，如XPath 3.1，它引入了许多新功能和改进。

XPath是XML技术栈中的重要组成部分，掌握它将使你能够更有效地处理和利用XML数据。无论是在Web开发、数据集成还是文档处理中，XPath都是一个非常有用的工具。

版权声明

1、转载或引用本网站内容(从入门到精通XPath XML数据解析实战指南)须注明原网址及作者(威震华夏关云长)，并标明本网站网址(https://pixtech.cc/)。

2、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

3、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

本文地址: https://pixtech.cc/thread-38204-1-1.html

	通知：是的！我们正在计划一个大动作！	11-02 12:46
	通知：Telegram 推送频道https://t.me/+2tB3a7aKXlw2YjA1 及时接收第一手论坛帖子信息～	10-23 09:32
	通知：本站资源由网友上传分享，如有违规等问题请到版务模块进行投诉，将及时处理！	10-23 09:31
	通知：加入QQ社群吧 https://qm.qq.com/q/QZibQd1hiq	10-23 09:28
	通知：签到时间调整为每日4:00（东八区）	10-23 09:26

活动公告

从入门到精通XPath XML数据解析实战指南

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

版权声明

三倍冰淇淋

无人之境【一阶】

财Doro

小樱（小丑装）

立华奏

以外的星空【二阶】

⑨的冰沙

友情链接

频道订阅

加入社群