Extracteur d'URL Sitemap | Extraire des URLs rapidement
L'Extracteur d'URL Sitemap extrait rapidement toutes les URL d'un fichier sitemap XML. Utile pour l'analyse SEO, il facilite l'optimisation de la visibilité de votre site. Entrez l'URL du sitemap pour obtenir la liste des URL.
Confidentialité: Cet outil prend en charge les sitemaps standards et les fichiers d'index de sitemaps. Rien de ce que vous soumettez n'est conservé sur nos serveurs — les résultats disparaissent à la fermeture de l'onglet.
Fonctionnalités clés
- Trois modes de saisie : coller une URL de sitemap, coller du XML brut, ou détecter automatiquement les sitemaps depuis le robots.txt d'un domaine
- Expansion récursive de l'index de sitemaps — récupérez jusqu'à 50 sitemaps enfants en un clic et fusionnez toutes les URL en une seule liste
- Métadonnées par URL : lastmod, changefreq et priority extraits du XML lorsqu'ils sont présents
- Filtre en direct (sous-chaîne ou /regex/) plus six modes de tri (A→Z, Z→A, plus longue, plus courte, lastmod le plus récent, par défaut)
- Déduplication en un clic lorsque la même URL apparaît dans plusieurs sous-sitemaps
- Statistiques en un coup d'œil : total d'URL, domaines uniques, répartition par extension, plage de dates lastmod
- Téléchargez le résultat en TXT (une URL par ligne), CSV (avec toutes les colonnes de métadonnées) ou JSON
- Copiez la liste complète, uniquement la liste filtrée visible, ou n'importe quelle URL en un clic
- Gère les sitemaps énormes (50 000+ URL) grâce à l'analyse côté serveur et à un tableau de résultats virtualisé
- Gratuit, sans inscription, sans compte, sans journalisation — utile pour les audits SEO, les migrations, la préparation de scraping et la veille concurrentielle
Cas d'usage courants
- Audits SEO — inventoriez rapidement chaque URL qu'un site expose aux moteurs de recherche
- Migrations de site — produisez la liste complète d'URL pour le mapping des redirections avant un relancement sur un nouveau domaine ou CMS
- Veille concurrentielle — analysez un sitemap public pour comprendre l'empreinte de contenu, les catégories et la cadence de mise à jour d'un concurrent
- Préparation de crawl — alimentez Screaming Frog, Sitebulb, des scrapers Python sur mesure ou tout outil de vérification HTTP
- Audits de maillage interne — associez la liste d'URL à un tableau d'audit de contenu pour détecter les pages orphelines
- Analyse des écarts de contenu — comparez votre sitemap à celui d'un concurrent pour découvrir les sujets manquants
- QA d'une nouvelle release — vérifiez que votre CMS produit le sitemap attendu après un déploiement
- Inventaire lastmod — repérez les pages obsolètes en triant sur la colonne lastmod et en identifiant les entrées non mises à jour depuis des années
- Demandes d'indexation en masse — exportez en CSV et soumettez les URL par lots au protocole IndexNow ou à un workflow d'inspection d'URL Google Search Console
- Conformité et accessibilité — produisez une liste maîtresse d'URL pour des revues périodiques d'accessibilité (WCAG) ou de confidentialité
Comment l'utiliser
- Choisissez un onglet. Depuis une URL est le chemin le plus courant : collez n'importe quelle adresse de sitemap public (la plupart des sites en publient un à
/sitemap.xml). - Activez éventuellement Récupérer aussi les sous-sitemaps si vous soupçonnez que l'URL est un fichier d'index — l'outil suivra chaque sitemap enfant et fusionnera toutes les URL.
- Si votre sitemap est privé ou que vous l'avez sous forme de fichier, basculez sur l'onglet Coller du XML et collez le contenu directement.
- Vous ne savez pas où se trouve le sitemap ? Utilisez l'onglet Trouver via robots.txt et entrez juste le domaine — nous listerons toutes les directives Sitemap: déclarées dans robots.txt.
- Cliquez sur Extraire les URL. Le tableau de résultats apparaît avec un panneau de statistiques au-dessus indiquant le total d'URL, les domaines uniques, la répartition par extension et la plage de lastmod.
- Utilisez le champ de filtre pour ne conserver que les URL correspondant à une sous-chaîne (par ex.
/blog/) ou à une expression régulière (par ex./^https:\/\/.+\.pdf$/). - Triez la liste avec le menu déroulant — utile pour repérer les pages obsolètes par lastmod ou trouver les URL les plus longues/courtes.
- Activez Dédupliquer si la combinaison des sous-sitemaps a inclus des doublons.
- Utilisez les boutons Tout copier, TXT, CSV ou JSON. Le CSV conserve les colonnes lastmod, changefreq et priority.
Utilisez cet outil depuis votre agent IA
API JSON et serveur Model Context Protocol (MCP) gratuits. Sans inscription, sans clé d'API, CORS ouvert. Conçu pour Claude, ChatGPT, Cursor, scripts et applications frontend.
curl -X POST https://mate.tools/api/v1/sitemap-extract.php \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com/sitemap.xml"}' import urllib.request, json
req = urllib.request.Request(
"https://mate.tools/api/v1/sitemap-extract.php",
data=json.dumps({"url":"https://example.com/sitemap.xml"}).encode(),
headers={"Content-Type": "application/json"},
)
with urllib.request.urlopen(req) as r:
print(json.load(r)) const r = await fetch("https://mate.tools/api/v1/sitemap-extract.php", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({"url":"https://example.com/sitemap.xml"}),
});
console.log(await r.json()); Ajoutez à claude_desktop_config.json (Claude Desktop), ~/.cursor/mcp.json (Cursor) ou tout autre client compatible MCP :
{
"mcpServers": {
"mate-tools": {
"command": "npx",
"args": ["-y", "@mate-tools/mcp-server"]
}
}
} Questions fréquentes
Un sitemap XML est un fichier qui liste toutes les URL qu'un site web souhaite faire connaître aux moteurs de recherche. La plupart des sites publient le leur à
https://example.com/sitemap.xml ou le déclarent dans robots.txt. Utilisez l'onglet Trouver via robots.txt si vous n'êtes pas sûr.Un index de sitemaps est un sitemap qui pointe vers d'autres sitemaps — les grands sites répartissent leurs URL sur plusieurs fichiers. Cet outil détecte les deux. Si vous soumettez un index, vous pouvez soit récupérer la liste des sitemaps enfants, soit cocher Récupérer aussi les sous-sitemaps pour les développer tous en une liste combinée d'URL (limitée à 50 sous-sitemaps par sécurité).
Il n'y a pas de plafond strict, mais les sitemaps très volumineux (>100 000 URL) peuvent être lents à afficher dans le navigateur. L'analyseur XML lui-même est côté serveur et gère facilement les fichiers énormes — la partie lente est juste le rendu du tableau de résultats.
Lorsqu'ils sont présents dans le XML, nous lisons
<lastmod>, <changefreq> et <priority> pour chaque URL. Le tableau de résultats affiche lastmod, et les téléchargements CSV/JSON incluent les trois colonnes. Les entrées d'index de sitemap exposent également leur lastmod lorsqu'il est fourni.Oui — saisissez n'importe quelle sous-chaîne (insensible à la casse) dans le champ de filtre, ou encadrez une expression régulière de barres obliques (par ex.
/\.pdf$/). Le compteur de résultats, les actions de copie et de téléchargement respectent tous le filtre actif, vous pouvez donc extraire uniquement la portion qui vous intéresse.Cet outil récupère les sitemaps de façon anonyme via HTTPS, les sitemaps protégés par mot de passe, restreints par IP ou en staging ne sont donc pas accessibles directement. Ouvrez le fichier dans votre navigateur, copiez le XML et utilisez l'onglet Coller du XML.
Activez l'interrupteur Dédupliquer dans la barre d'outils des résultats. Lorsque les sous-sitemaps se chevauchent (courant sur les sites multilingues qui republient la même URL canonique sur plusieurs sitemaps de langue), c'est essentiel.
Oui. Les sitemaps sont des fichiers publics, donc le sitemap de tout site accessible publiquement peut être analysé. C'est un excellent moyen de cartographier les catégories de contenu, la profondeur et la fréquence de mise à jour d'un concurrent.
Non. Chaque requête est traitée en mémoire et supprimée dès que la page est rendue. Rien n'est journalisé, mis en file d'attente ou persisté. Rechargez la page et l'extraction précédente a disparu.
TXT (une URL par ligne) est idéal pour alimenter des outils en ligne de commande ou des workflows de collage dans un formulaire. CSV s'ouvre directement dans Excel/Sheets et conserve lastmod, changefreq et priority. JSON est le plus pratique pour les scripts (Python, Node, etc.) et fait l'aller-retour parfaitement.