Extractor de URLs de Sitemap | Extrae URLs de manera rápida

El Extractor de URLs de Sitemap extrae todas las URLs de un sitemap XML. Ingresa la URL y obtén una lista de enlaces, útil para auditorías SEO. Descarga en CSV.

En tu navegador Actualizado 05/2026

Pega la URL completa de un sitemap XML o de un índice de sitemaps; por ejemplo, https://example.com/sitemap.xml
Útil cuando el sitemap está protegido por inicio de sesión, alojado en una intranet o cuando guardaste una copia local.
https://
Obtendremos el robots.txt del dominio y mostraremos todas las directivas Sitemap: que encontremos. Después haz clic en cualquiera para extraer sus URL.
Privacidad: Esta herramienta admite tanto sitemaps normales como archivos de índice de sitemaps. Nada de lo que envíes se almacena en nuestros servidores: los resultados desaparecen al cerrar la pestaña.

Características clave

  • Tres modos de entrada: pegar una URL de sitemap, pegar XML en bruto o detectar automáticamente sitemaps desde el robots.txt de un dominio
  • Expansión recursiva del índice de sitemaps: descarga hasta 50 sitemaps hijos con un clic y combina todas las URL en una sola lista
  • Metadatos por URL: lastmod, changefreq y priority extraídos del XML cuando están presentes
  • Filtro en vivo (subcadena o /regex/) más seis modos de orden (A→Z, Z→A, más largas, más cortas, lastmod más reciente, predeterminado)
  • Eliminación de duplicados con un clic cuando la misma URL aparece en varios sub-sitemaps
  • Estadísticas de un vistazo: total de URL, dominios únicos, desglose por extensión y rango de fechas lastmod
  • Descarga el resultado como TXT (una URL por línea), CSV (con todas las columnas de metadatos) o JSON
  • Copia la lista completa, solo la lista visible filtrada o cualquier URL individual con un clic
  • Maneja sitemaps enormes (más de 50 000 URL) gracias al análisis del lado del servidor y a una tabla de resultados virtualizada
  • Gratis, sin registro, sin cuenta, sin registros: útil para auditorías SEO, migraciones, preparación de scraping e investigación de la competencia

Casos de uso comunes

  • Auditorías SEO: inventaría rápidamente todas las URL que un sitio expone a los motores de búsqueda
  • Migraciones de sitio: genera la lista completa de URL para mapear redirecciones antes de relanzar en un nuevo dominio o CMS
  • Investigación de la competencia: escanea un sitemap público para entender la huella de contenido, las categorías y la frecuencia de actualización de un competidor
  • Preparación de rastreos: alimenta URL en Screaming Frog, Sitebulb, scrapers personalizados de Python o cualquier herramienta de comprobación HTTP
  • Auditorías de enlazado interno: combina la lista de URL con una hoja de auditoría de contenido para encontrar páginas huérfanas
  • Análisis de brechas de contenido: compara tu sitemap con el de un competidor para descubrir vacíos temáticos
  • QA de un nuevo despliegue: verifica que tu CMS produce el sitemap esperado tras una publicación
  • Inventario por lastmod: detecta páginas obsoletas ordenando por la columna lastmod e identificando entradas sin actualizar desde hace años
  • Solicitudes de indexación masiva: exporta a CSV y envía URL por lotes al protocolo IndexNow o a un flujo de inspección de URL en Google Search Console
  • Cumplimiento y accesibilidad: produce una lista maestra de URL para revisiones periódicas de accesibilidad (WCAG) o privacidad

Cómo usarla

  1. Elige una pestaña. Desde URL es la ruta más habitual: pega cualquier dirección pública de sitemap (la mayoría de sitios publican uno en /sitemap.xml).
  2. Activa opcionalmente Obtener también sub-sitemaps si sospechas que la URL es un archivo de índice: la herramienta seguirá cada sitemap hijo y combinará todas las URL.
  3. Si tu sitemap es privado o lo tienes como archivo, cambia a la pestaña Pegar XML y pega el contenido directamente.
  4. ¿No sabes dónde está el sitemap? Usa la pestaña Buscar mediante robots.txt y solo introduce el dominio: mostraremos todas las directivas Sitemap: declaradas en robots.txt.
  5. Haz clic en Extraer URL. Aparece la tabla de resultados con un panel de estadísticas encima que muestra total de URL, dominios únicos, desglose por extensión y rango de lastmod.
  6. Usa la caja de filtro para conservar solo URL que coincidan con una subcadena (p. ej. /blog/) o una expresión regular (p. ej. /^https:\/\/.+\.pdf$/).
  7. Ordena la lista con el desplegable: útil para detectar páginas obsoletas por lastmod o encontrar las URL más largas o más cortas.
  8. Activa Eliminar duplicados si la combinación de sub-sitemaps incluyó duplicados.
  9. Usa los botones Copiar todo, TXT, CSV o JSON. CSV conserva las columnas lastmod, changefreq y priority.

Usa esta herramienta desde tu agente IA

API JSON y servidor Model Context Protocol (MCP) gratuitos. Sin registro, sin clave de API, CORS abierto. Pensado para Claude, ChatGPT, Cursor, scripts y aplicaciones frontend.

curl -X POST https://mate.tools/api/v1/sitemap-extract.php \
  -H "Content-Type: application/json" \
  -d '{"url":"https://example.com/sitemap.xml"}'
import urllib.request, json

req = urllib.request.Request(
    "https://mate.tools/api/v1/sitemap-extract.php",
    data=json.dumps({"url":"https://example.com/sitemap.xml"}).encode(),
    headers={"Content-Type": "application/json"},
)
with urllib.request.urlopen(req) as r:
    print(json.load(r))
const r = await fetch("https://mate.tools/api/v1/sitemap-extract.php", {
    method: "POST",
    headers: { "Content-Type": "application/json" },
    body: JSON.stringify({"url":"https://example.com/sitemap.xml"}),
});
console.log(await r.json());

Añade a claude_desktop_config.json (Claude Desktop), ~/.cursor/mcp.json (Cursor) o cualquier otro cliente compatible con MCP:

{
  "mcpServers": {
    "mate-tools": {
      "command": "npx",
      "args": ["-y", "@mate-tools/mcp-server"]
    }
  }
}
Documentación de la API OpenAPI 3.1 npm 60 req/min · 600 req/hora · cuerpo máx. 1 MB

Preguntas frecuentes

Un sitemap XML es un archivo que lista todas las URL que un sitio web quiere que conozcan los motores de búsqueda. La mayoría de los sitios publica el suyo en https://example.com/sitemap.xml o lo declara en robots.txt. Usa la pestaña Buscar mediante robots.txt si no estás seguro.

Un índice de sitemaps es un sitemap que apunta a otros sitemaps: los sitios grandes dividen sus URL en muchos archivos. Esta herramienta detecta ambos. Si envías un índice, puedes obtener la lista de sitemaps hijos o marcar Obtener también sub-sitemaps para expandirlos todos en una lista combinada de URL (limitada a 50 sub-sitemaps por seguridad).

No hay un límite estricto, pero los sitemaps muy grandes (>100 000 URL) pueden tardar en renderizarse en el navegador. El analizador XML se ejecuta en el servidor y maneja archivos enormes con facilidad: la parte lenta es renderizar la tabla de resultados.

Cuando están presentes en el XML, leemos <lastmod>, <changefreq> y <priority> para cada URL. La tabla de resultados muestra lastmod y las descargas CSV/JSON incluyen las tres columnas. Las entradas del índice de sitemaps también muestran su lastmod cuando se proporciona.

Sí: escribe cualquier subcadena (sin distinción de mayúsculas) en la caja de filtro o envuelve una expresión regular entre barras (p. ej. /\.pdf$/). El contador de resultados, las acciones de copia y descarga respetan el filtro activo, para que extraigas solo la porción que te interesa.

Esta herramienta obtiene sitemaps de forma anónima por HTTPS, así que los sitemaps protegidos por contraseña, restringidos por IP o de staging no son accesibles directamente. Abre el archivo en tu navegador, copia el XML y usa la pestaña Pegar XML.

Activa el interruptor Eliminar duplicados en la barra de herramientas de resultados. Cuando los sub-sitemaps se solapan (algo común en sitios multilingües que reeditan la misma URL canónica en varios sitemaps de idioma), esto es esencial.

Sí. Los sitemaps son archivos públicos, así que el sitemap de cualquier sitio accesible públicamente puede analizarse. Es una forma excelente de mapear las categorías de contenido, la profundidad y la frecuencia de actualización de un competidor.

No. Cada solicitud se procesa en memoria y se descarta en cuanto se renderiza la página. Nada se registra, encola ni persiste. Recarga la página y la extracción anterior desaparece.

TXT (una URL por línea) es ideal para canalizar a herramientas de línea de comandos o flujos de pegar en formularios. CSV se abre directamente en Excel/Sheets y conserva lastmod, changefreq y priority. JSON es el más cómodo para scripts (Python, Node, etc.) y se reimporta perfectamente.