Inicio ¿Qué es XPath?
Artículo
Cancelar

¿Qué es XPath?

Introducción

XPath es un estándar (diferente de XML) aprobado por el W3C, que permite navegar entre los elementos y atributos de un documento XML.

XPath es un lenguaje que permite seleccionar nodos de un documento XML.

La forma en que XPath selecciona partes del documento XML se basa en la representación arbórea que se genera del documento.

En XSLT, dentro del atributo match se incluye una ruta XPath.

Inicialmente se creo para utilizarlo con XLST, pero en la actualidad se utiliza también con XML Schema, Xquery, Xlink, Xpointer, Xforms, etc.

Existen varias versiones de XPath aprobadas por el W3C.

Linea del tiempo de las versiones de XPath Linea del tiempo de las versiones de XPath

¿Qué versión de XPath debería aprender o utilizar?

XPath 2.0 y versiones posteriores no están soportadas de forma nativa en la mayoría de los lenguajes de programación de alto nivel. Esto incluye lenguajes populares como Java, Python, PHP, JavaScript, C#, entre otros. Estos lenguajes generalmente solo soportan XPath 1.0 de forma nativa a través de sus bibliotecas estándar de procesamiento de XML.

Para usar XPath 2.0 o versiones posteriores en estos lenguajes, generalmente necesitarás una biblioteca de terceros. Por ejemplo, en Java puedes usar Saxon.

Árbol del documento

XPath considera un documento XML como un árbol de nodos. En Informática, un árbol es una estructura de datos que equivale a un árbol matemático. En Matemáticas un árbol es un caso particular de grafo. Los siguientes términos definidos en teoría de grafos se utilizan también en Informática y en XPath:

Un grafo es un conjunto de objetos llamados nodos o vértices unidos por enlaces llamados arcos o aristas.

Grafo Grafo

Un grafo dirigido es un grafo en el que los arcos tienen dirección.

Grafo dirigido Grafo dirigido

Cuando dos nodos están unidos por un arco con dirección, el nodo padre es el nodo del que parte el arco y el nodo hijo es el nodo al que llega el arco.

Nodo padre y nodo hijo Nodo padre y nodo hijo

Un árbol es un grafo en el que cualquier pareja de vértices están conectada por un único camino (es decir, que no hay ciclos). Un árbol dirigido es un árbol en el que las aristas tienen dirección y todos los nodos menos uno tienen un único padre.

Árbol Árbol

Árbol dirigido Árbol dirigido

El nodo raíz de un árbol dirigido es el único nodo sin padre. Los nodos hermanos son los nodos que tienen el mismo padre.

Nodo raíz y nodos hermanos Nodo raíz y nodos hermanos

Los nodos descendientes de un nodo son todos los nodos a los que se llega desde el nodo: los hijos, los hijos de los hijos, etc.

Nodos descendientes Nodos descendientes

Los nodos ascendientes de un nodo son todos los nodos de los que un nodo es descendiente: el padre, el padre del padre, etc.

Nodos ascendientes Nodos ascendientes

¿Qué es el DOM?

Tipos de nodos

Un documento XML puede representarse como un árbol dirigido, considerando por ejemplo los elementos como nodos y que un elemento es padre de los elementos que contiene. Pero en XPath no sólo los elementos son nodos, en realidad hay siete tipos de nodos:

  • Raíz
  • Elemento
  • Atributo
  • Texto
  • Comentario
  • Instrucción de procesamiento
  • Espacio de nombres

La declaración DOCTYPE no se considera como nodo.

Por ejemplo, el documento XML siguiente:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<?xml version="1.0" encoding="UTF-8"?>
<biblioteca>
  <libro>
    <titulo>La vida está en otra parte</titulo>
    <autor>Milan Kundera</autor>
    <fechaPublicacion año="1973"/>
  </libro>
  <libro>
    <titulo>Pantaleón y las visitadoras</titulo>
    <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
    <fechaPublicacion año="1973"/>
  </libro>
  <libro>
    <titulo>Conversación en la catedral</titulo>
    <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
    <fechaPublicacion año="1969"/>
  </libro>
</biblioteca>

Se puede representar mediante el siguiente grafo:

Árbol de documento XML Árbol de documento XML

Los nodos atributos y de texto no son como los nodos elemento. Por ejemplo, los nodos atributo y de texto no pueden tener descendientes. En realidad el nodo atributo ni siquiera se considera como hijo, sino como una etiqueta adosada al elemento. El texto contenido por una etiqueta sí que se considera hijo del elemento, aunque las expresiones XPath suelen trabajar con nodos elemento y para referirse a los atributos o al texto se utilizan notaciones especiales.

Sintaxis de la expresiones XPath

Una expresión XPath es una cadena de texto que representa un recorrido en el árbol del documento. Las expresiones más simples se parecen a las rutas de los archivos en el explorador de Windows o en la shell de GNU/Linux.

Evaluar una expresión XPath es buscar si hay nodos en el documento que se ajustan al recorrido definido en la expresión. El resultado de la evaluación son todos los nodos que se ajustan a la expresión. Para poder evaluar una expresión XPath, el documento debe estar bien formado.

Las expresiones XPath se pueden escribir de dos formas distintas:

  • sintaxis abreviada: más compacta y fácil de leer, que se explica en esta lección
  • sintaxis completa: más larga pero con más opciones disponibles

Las expresiones XPath se pueden dividir en pasos de búsqueda. Cada paso de búsqueda se puede a su vez dividir en tres partes:

  • Eje: selecciona nodos elemento o atributo basándose en sus nombres.
  • Predicado: restringe la selección del eje a que los nodos cumplan ciertas condiciones.
  • Selección de nodos: de los nodos seleccionados por el eje y predicado, selecciona los elementos, el texto que contienen o ambos.

Sintaxis abreviada

Veamos unos ejemplos de expresiones XPath de sintaxis abreviada y el resultado de su evaluación en el documento de ejemplo anterior:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<?xml version="1.0" encoding="UTF-8"?>
<biblioteca>
  <libro>
    <titulo>La vida está en otra parte</titulo>
    <autor>Milan Kundera</autor>
    <fechaPublicacion año="1973"/>
  </libro>
  <libro>
    <titulo>Pantaleón y las visitadoras</titulo>
    <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
    <fechaPublicacion año="1973"/>
  </libro>
  <libro>
    <titulo>Conversación en la catedral</titulo>
    <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
    <fechaPublicacion año="1969"/>
  </libro>
</biblioteca>

En el artículo XPath: XML Path language (Resumen) tienes un resumen de la sintaxis abreviada de XPath.

Eje (en inglés, axis)

El eje nos permite seleccionar un subconjunto de nodos del documento y corresponde a recorridos en el árbol del documento. Los nodos elemento se indican mediante el nombre del elemento. Los nodos atributo se indican mediante @ y el nombre del atributo.

¿Se pueden listar directamente los atributos de un elemento?

  • /: si está al principio de la expresión, indica el nodo raíz, si no, indica “hijo”. Debe ir seguida del nombre de un elemento.
1
/biblioteca/libro/autor
1
2
3
<autor>Milan Kundera</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
1
/autor

No devuelve nada porque <autor> no es hijo del nodo raíz.

1
/biblioteca/autor

No devuelve nada porque <autor> no es hijo de <biblioteca>.

1
/biblioteca/libro/autor/@fechaNacimiento
1
2
 fechaNacimiento="28/03/1936"
 fechaNacimiento="28/03/1936"
1
/biblioteca/libro/@fechaNacimiento

No devuelve nada porque <libro> no tiene el atributo fechaNacimiento.

En XPath 1.0 no se puede seleccionar únicamente el valor del atributo, sino que se obtienen respuestas del tipo nombreDelAtributo=ValorDelAtributo

  • //: indica “descendiente” (hijos, hijos de hijos, etc.).
1
/biblioteca//autor
1
2
3
<autor>Milan Kundera</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
1
//autor
1
2
3
<autor>Milan Kundera</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
1
//autor//libro

No devuelve nada porque <libro> no es descendiente de <autor>.

1
//@año
1
2
3
 año="1973"
 año="1973"
 año="1969"

/..: indica el elemento padre.

En el resultado de los ejemplos siguientes se obtienen únicamente los nodos que tienen el atributo fechaNacimiento.

1
/biblioteca/libro/autor/@fechaNacimiento/..
1
2
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
1
//@fechaNacimiento/../..
1
2
3
4
5
6
7
8
9
10
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>
<libro>
  <titulo>Conversación en la catedral</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1969"/>
</libro>
  • |: permite indicar varios recorridos.
1
//autor|//titulo
1
2
3
4
5
6
<titulo>La vida está en otra parte</titulo>
<autor>Milan Kundera</autor>
<titulo>Pantaleón y las visitadoras</titulo>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<titulo>Conversación en la catedral</titulo>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
1
//autor|//titulo|//@año
1
2
3
4
5
6
7
8
9
<titulo>La vida está en otra parte</titulo>
<autor>Milan Kundera</autor>
 año="1973"
<titulo>Pantaleón y las visitadoras</titulo>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
 año="1973"
<titulo>Conversación en la catedral</titulo>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
 año="1969"

Predicado (en inglés, predicate)

El predicado se escribe entre corchetes, a continuación del eje. Si el eje ha seleccionado unos nodos, el predicado permite restringir esa selección a los que cumplan determinadas condiciones.

Selección por atributo

[@atributo]: selecciona los elementos que tienen el atributo.

1
//autor[@fechaNacimiento]
1
2
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>

Selección por orden

[número]: si hay varios resultados selecciona uno de ellos por número de orden; last() selecciona el último de ellos.

1
//libro[1]
1
2
3
4
5
<libro>
  <titulo>La vida está en otra parte</titulo>
  <autor>Milan Kundera</autor>
  <fechaPublicacion año="1973"/>
</libro>
1
//libro[last()]
1
2
3
4
5
<libro>
  <titulo>Conversación en la catedral</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1969"/>
</libro>
1
//libro[last()-1]
1
2
3
4
5
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>

Selección por condición

[condicion]: selecciona los nodos que cumplen la condición.

Los predicados permiten definir condiciones sobre los valores de los atributos. En las condiciones se pueden utilizar los operadores siguientes:

  • Operadores lógicos: and, or, not()
  • Operadores aritméticos: +, -, *, div, mod
  • Operadores de comparación: =, !=, <, >, <=, >=

Las comparaciones se pueden hacer entre valores de nodos y atributos o con cadenas de texto o numéricas. Las cadenas de texto deben escribirse entre comillas simples o dobles. En el caso de las cadenas numéricas, las comillas son optativas.

La condición puede utilizar el valor de un atributo (utilizando @) o el texto que contiene el elemento.

En el siguiente se obtienen los elementos <fechaPublicacion> cuyo atributo año es posterior/mayor a 1970:

1
//fechaPublicacion[@año>1970]
1
2
3
<fechaPublicacion año="1973"/>
<fechaPublicacion año="1973"/>

En el siguiente se obtienen los elementos <libro> cuyo subelemento <autor> tiene como contenido “Mario Vargas Llosa”:

1
//libro[autor="Mario Vargas Llosa"]
1
2
3
4
5
6
7
8
9
10
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>
<libro>
  <titulo>Conversación en la catedral</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1969"/>
</libro>

Para hacer referencia al propio valor del elemento seleccionado se utiliza el punto (.).

1
//@año[.>1970]
1
2
 año="1973"
 año="1973"
1
//autor[.="Mario Vargas Llosa"]
1
2
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>

Un predicado puede contener condiciones compuestas.

En el siguiente ejemplo se seleccionan los libros escritos por Mario Vargas Llosa y publicados en 1973:

1
//libro[autor="Mario Vargas Llosa" and fechaPublicacion/@año="1973"]
1
2
3
4
5
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>

En el siguiente ejemplo se seleccionan los libros escritos por Mario Vargas Llosa o publicados en 1973:

1
//libro[autor="Mario Vargas Llosa" or fechaPublicacion/@año="1973"]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<libro>
  <titulo>La vida está en otra parte</titulo>
  <autor>Milan Kundera</autor>
  <fechaPublicacion año="1973"/>
</libro>
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>
<libro>
  <titulo>Conversación en la catedral</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1969"/>
</libro>

Se pueden escribir varios predicados seguidos, cada uno de los cuales restringe los resultados del anterior, como si estuvieran encadenados por la operación lógica and.

En el ejemplo siguiente se seleccionan los libros escritos por Mario Vargas Llosa y publicados en 1973:

1
//libro[autor="Mario Vargas Llosa"][fechaPublicacion/@año="1973"]
1
2
3
4
5
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>

Selección de nodos (en inglés, node test)

La selección de nodos se escribe a continuación del eje y el predicado. Si el eje y el predicado han seleccionado unos nodos, la selección de nodos indica con qué parte de esos nodos nos quedamos.

Selección de nodos

  • /node(): selecciona todos los hijos (elementos o texto) del nodo.
  • //node(): selecciona todos los descendientes (elementos o texto) del nodo.
1
//libro/node()
1
2
3
4
5
6
7
8
9
<titulo>La vida está en otra parte</titulo>
<autor>Milan Kundera</autor>
<fechaPublicacion año="1973"/>
<titulo>Pantaleón y las visitadoras</titulo>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<fechaPublicacion año="1973"/>
<titulo>Conversación en la catedral</titulo>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<fechaPublicacion año="1969"/>
1
//autor/node()
1
2
3
Milan Kundera
Mario Vargas Llosa
Mario Vargas Llosa
1
//libro//node()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<titulo>La vida está en otra parte</titulo>
La vida está en otra parte
<autor>Milan Kundera</autor>
Milan Kundera
<fechaPublicacion año="1973"/>
<titulo>Pantaleón y las visitadoras</titulo>
Pantaleón y las visitadoras
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
Mario Vargas Llosa
<fechaPublicacion año="1973"/>
<titulo>Conversación en la catedral</titulo>
Conversación en la catedral
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
Mario Vargas Llosa
<fechaPublicacion año="1969"/>

Selección de texto

  • /text(): selecciona únicamente el texto contenido en el nodo.
  • //text(): selecciona únicamente el texto contenido en el nodo y todos sus descendientes.
1
//autor/text()
1
2
3
Milan Kundera
Mario Vargas Llosa
Mario Vargas Llosa
1
//libro/text()

No devuelve nada porque <libro> no contiene texto.

1
//libro//text()
1
2
3
4
5
6
La vida está en otra parte
Milan Kundera
Pantaleón y las visitadoras
Mario Vargas Llosa
Conversación en la catedral
Mario Vargas Llosa

Selección comodín

  • /*: selecciona todos los hijos (sólo elementos) del nodo.
  • //*: selecciona todos los descendientes (sólo elementos) del nodo.
1
/biblioteca/*
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<libro>
  <titulo>La vida está en otra parte</titulo>
  <autor>Milan Kundera</autor>
  <fechaPublicacion año="1973"/>
</libro>
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>
<libro>
  <titulo>Conversación en la catedral</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1969"/>
</libro>
1
//autor/*

No devuelve nada porque <autor> sólo contiene texto.

1
/biblioteca//*
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
<libro>
  <titulo>La vida está en otra parte</titulo>
  <autor>Milan Kundera</autor>
  <fechaPublicacion año="1973"/>
</libro>
<titulo>La vida está en otra parte</titulo>
<autor>Milan Kundera</autor>
<fechaPublicacion año="1973"/>
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>
<titulo>Pantaleón y las visitadoras</titulo>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<fechaPublicacion año="1973"/>
<libro>
  <titulo>Conversación en la catedral</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1969"/>
</libro>
<titulo>Conversación en la catedral</titulo>
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
<fechaPublicacion año="1969"/>
  • /@*: selecciona todos los atributos del nodo.
  • //@*: selecciona todos los atributos de los descendientes del nodo.
1
//@*
1
2
3
4
5
año="1973"
fechaNacimiento="28/03/1936"
año="1973"
fechaNacimiento="28/03/1936"
año="1969"
1
//libro/@*

No devuelve nada porque <libro> no tiene atributos.

1
//autor/@*
1
2
 fechaNacimiento="28/03/1936"
 fechaNacimiento="28/03/1936"

En XPath 1.0 no se puede seleccionar únicamente el valor del atributo, sino que se obtienen respuestas del tipo nombreDelAtributo=ValorDelAtributo

Pasos de búsqueda consecutivos

Una expresión XPath puede contener varios pasos de búsqueda consecutivos. Cada uno incluirá su eje (y en su caso, su predicado) y el último paso de búsqueda incluirá en su caso una selección de nodos. Cada paso de búsqueda trabaja a partir de los nodos seleccionados por el paso de búsqueda anterior.

En el ejemplo siguiente se obtienen los títulos de los libros publicados después de 1970, mediante dos pasos de búsqueda:

  1. En el primer paso (//fechaPublicacion[@año>1970]) se seleccionan los elementos <fechaPublicacion> cuyo atributo año es superior a 1970.
  2. En el segundo paso (/../titulo), se seleccionan primero los elementos padre (/..) de los <fechaPublicacion> seleccionados en el primer paso de búsqueda (es decir, elementos <libro>) y a continuación sus subelementos <titulo>.
1
//fechaPublicacion[@año>1970]/../titulo
1
2
<titulo>La vida está en otra parte</titulo>
<titulo>Pantaleón y las visitadoras</titulo>

Un determinado resultado se puede obtener mediante un sólo paso de búsqueda o mediante varios pasos.

En los ejemplos siguientes se obtienen los libros escritos por Mario Vargas Llosa de dos formas distintas:

Mediante un sólo paso de búsqueda. Se seleccionan los elementos <libro> cuyo subelemento <autor> tiene como contenido la cadena “Mario Vargas Llosa”.

1
//libro[autor="Mario Vargas Llosa"]
1
2
3
4
5
6
7
8
9
10
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>
<libro>
  <titulo>Conversación en la catedral</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1969"/>
</libro>

Mediante dos pasos de búsqueda:

  1. En el primer paso se seleccionan los elementos <autor> cuyo contenido es la cadena “Mario Vargas Llosa”.
  2. En el segundo paso de búsqueda se seleccionan los elementos padre (es decir, los elementos <libro>).
1
//autor[.="Mario Vargas Llosa"]/..
1
2
3
4
5
6
7
8
9
10
<libro>
  <titulo>Pantaleón y las visitadoras</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1973"/>
</libro>
<libro>
  <titulo>Conversación en la catedral</titulo>
  <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
  <fechaPublicacion año="1969"/>
</libro>

En los ejemplos siguientes se obtiene el autor que ha publicado libros en 1969 de varias formas distintas:

1
//@año[.=1969]/../../autor
1
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
1
//libro[fechaPublicacion/@año=1969]/autor
1
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
1
//fechaPublicacion[@año=1969]/../autor
1
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
1
//autor[../fechaPublicacion/@año=1969]
1
<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>

Expresiones anidadas

Las expresiones XPath pueden anidarse, lo que permite definir expresiones más complicadas. Por ejemplo, en el documento utilizado anteriormente:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<?xml version="1.0" encoding="UTF-8"?>
<biblioteca>
  <libro>
    <titulo>La vida está en otra parte</titulo>
    <autor>Milan Kundera</autor>
    <fechaPublicacion año="1973"/>
  </libro>
  <libro>
    <titulo>Pantaleón y las visitadoras</titulo>
    <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
    <fechaPublicacion año="1973"/>
  </libro>
  <libro>
    <titulo>Conversación en la catedral</titulo>
    <autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
    <fechaPublicacion año="1969"/>
  </libro>
</biblioteca>

Un ejemplo de expresión anidada sería, por ejemplo, obtener los títulos de los libros publicados el mismo año que la novela “La vida está en otra parte”. Esta información no está directamente almacenada en el documento, pero se puede obtener la respuesta en dos pasos:

Obtener primero el año en que se publicó la novela “La vida está en otra parte”:

1
//libro[titulo="La vida está en otra parte"]/fechaPublicacion/@año
1
año="1973"

Y obtener después los títulos de los libros publicados en 1973:

1
//libro[fechaPublicacion/@año=1973]/titulo
1
2
<titulo>La vida está en otra parte</titulo>
<titulo>Pantaleón y las visitadoras</titulo>

Estas dos expresiones se pueden unir en una única expresión, sustituyendo en la segunda expresión el valor 1973 por la primera expresión:

1
//libro[fechaPublicacion/@año=//libro[titulo="La vida está en otra parte"]/fechaPublicacion/@año]/titulo
1
2
<titulo>La vida está en otra parte</titulo>
<titulo>Pantaleón y las visitadoras</titulo>

Como cada una de las expresiones puede escribirse de varias maneras, en realidad hay muchas formas de encontrar la respuesta. Por ejemplo, en la solución siguiente los predicados se encuentran al final del eje en cada subexpresión:

1
//titulo[../fechaPublicacion/@año=//@año[../../titulo="La vida está en otra parte"]]
1
2
<titulo>La vida está en otra parte</titulo>
<titulo>Pantaleón y las visitadoras</titulo>

Otro ejemplo de expresión anidada sería obtener los títulos de los libros del mismo autor que la novela “Pantaleón y las visitadoras”. Como en el ejemplo anterior, la respuesta puede obtenerse en dos pasos:

Obtener primero el autor de la novela “Pantaleón y las visitadoras”:

1
//libro[titulo="Pantaleón y las visitadoras"]/autor/text()
1
Mario Vargas Llosa

Y obtener después los títulos de los libros escritos por Mario Vargas Llosa:

1
//libro[autor="Mario Vargas Llosa"]/titulo
1
2
<titulo>Pantaleón y las visitadoras</titulo>
<titulo>Conversación en la catedral</titulo>

Estas dos expresiones se pueden unir en una única expresión, sustituyendo en la segunda expresión el valor “Mario Vargas Llosa” por la primera expresión:

1
//libro[autor=//libro[titulo="Pantaleón y las visitadoras"]/autor/text()]/titulo
1
2
<titulo>Pantaleón y las visitadoras</titulo>
<titulo>Conversación en la catedral</titulo>

Un detalle importante es que no hay que escribir la primera expresión entre comillas.

Incluso se puede omitir la selección de nodos /text() de la segunda expresión y escribir la expresión XPath así:

1
//libro[autor=//libro[titulo="Pantaleón y las visitadoras"]/autor]/titulo
1
2
<titulo>Pantaleón y las visitadoras</titulo>
<titulo>Conversación en la catedral</titulo>

Funciones XPath 1.0

Además de la función last() vista anteriormente que selecciona el último elemento del conjunto seleccionado, existen otras funciones que nos permiten realizar diferentes operaciones:

  • position(), devuelve un número igual a la posición del elemento actual.
  • count(), cuenta el número de elementos seleccionados.
  • sum(), devuelve la suma de los elementos seleccionado.
  • name(), devuelve el nombre del elemento seleccionado.
  • concat(<cad1>, <cad2>, ...), concatena cadenas.
  • name(), devuelve el nombre del elemento seleccionado.
  • concat(<cad1>, <cad2>, ...), concatena cadenas.
  • starts-with(<cad1>, <cad2>), devuelve verdadero cuando la cadena cad1 tiene como prefijo cad2.
  • contains(<cad1>, <cad2>), devuelve verdadero cuando la cadena cad1 contiene cad2.
  • string-length(<argumento>), devuelve el número de caracteres de su argumento.
  • div(), divide.
  • mod(), calcula el resto de la división.
  • string(<argumento>), convierte el argumento en string.

La especificación al completo de XPath 1.0 la tienes en inglés en este enlace y su traducción al español este enlace por si quieres conocer todas las funciones disponibles.

Funciones XPath 2.0

La versión 2.0 e XPath añade más funciones importantes como:

  • max(), devuelve el máximo de los elementos seleccionados.
  • min(), devuelve el mínimo de los elementos seleccionados.
  • avg(), devuelve la media de los elementos seleccionados.
  • data(<expresión XPath>), devuelve el texto de los nodos de la expresión sin las etiquetas.
  • number(<argumento>), para convertir a número lo introducido en el argumento.
  • compare(<exp>, <exp2>), compara las dos expresiones, devuelve 0 si son iguales, 1 si exp1 > exp2 y -1 si exp1 < exp2.
  • lower-case(<cadena>), convierte a minúsculas la cadena.

La especificación al completo de XPath 2.0 la tienes en inglés en este enlace. En este caso, no hay versión en español.

Bibliografía

Este artículo está licenciado bajo CC BY 4.0 por el autor.

Transformación de documentos XML

¿Qué es XQuery?