Extrator de URLs do Sitemap | Extraia URLs rapidamente
Extraia URLs de um sitemap XML com nossa ferramenta. Ideal para SEO e auditoria de conteúdo, fornece uma lista completa para otimização do site.
Privacidade: Esta ferramenta suporta tanto sitemaps regulares quanto arquivos de índice de sitemap. Nada do que você envia é armazenado em nossos servidores — os resultados desaparecem quando você fecha a aba.
Principais recursos
- Três modos de entrada: colar uma URL de sitemap, colar XML bruto ou descobrir automaticamente sitemaps a partir do robots.txt de um domínio
- Expansão recursiva de índice de sitemap — busque até 50 sitemaps filhos com um clique e mescle todas as URLs em uma única lista
- Metadados por URL: lastmod, changefreq e priority extraídos do XML quando presentes
- Filtro ao vivo (substring ou /regex/) mais seis modos de ordenação (A→Z, Z→A, mais longa, mais curta, lastmod mais recente, padrão)
- Deduplicação com um clique quando a mesma URL aparece em vários sub-sitemaps
- Estatísticas em uma olhada: total de URLs, domínios únicos, distribuição por extensão de arquivo, intervalo de datas lastmod
- Baixe o resultado como TXT (uma URL por linha), CSV (com todas as colunas de metadados) ou JSON
- Copie a lista completa, apenas a lista filtrada visível ou qualquer URL individual com um clique
- Lida com sitemaps enormes (mais de 50.000 URLs) graças à análise no servidor e a uma tabela de resultados virtualizada
- Gratuito, sem cadastro, sem conta, sem registros — útil para auditorias de SEO, migrações, preparação de scraping e pesquisa de concorrentes
Casos de uso comuns
- Auditorias de SEO — inventarie rapidamente cada URL que um site expõe aos mecanismos de busca
- Migrações de site — gere a lista completa de URLs para o mapeamento de redirecionamentos antes de relançar em um novo domínio ou CMS
- Pesquisa de concorrentes — escaneie um sitemap público para entender a pegada de conteúdo, as categorias e a cadência de atualização de um concorrente
- Preparação de crawl — alimente URLs no Screaming Frog, Sitebulb, scrapers Python personalizados ou qualquer ferramenta de verificação HTTP
- Auditorias de links internos — combine a lista de URLs com uma planilha de auditoria de conteúdo para encontrar páginas órfãs
- Análise de lacunas de conteúdo — compare seu sitemap com o de um concorrente para descobrir lacunas temáticas
- QA de uma nova versão — verifique se seu CMS produz o sitemap esperado após um deploy
- Inventário por lastmod — identifique páginas obsoletas ordenando pela coluna lastmod e identificando entradas que não foram atualizadas há anos
- Solicitações de indexação em massa — exporte para CSV e envie URLs em lotes para o protocolo IndexNow ou para um fluxo de inspeção de URL no Google Search Console
- Conformidade e acessibilidade — gere uma lista mestre de URLs para revisões periódicas de acessibilidade (WCAG) ou privacidade
Como usar
- Escolha uma aba. A partir da URL é o caminho mais comum: cole qualquer endereço público de sitemap (a maioria dos sites publica um em
/sitemap.xml). - Opcionalmente, ative Buscar também os sub-sitemaps se suspeitar que a URL é um arquivo de índice — a ferramenta seguirá cada sitemap filho e mesclará todas as URLs.
- Se o seu sitemap for privado ou você o tiver como arquivo, mude para a aba Colar XML e cole o conteúdo diretamente.
- Não sabe onde está o sitemap? Use a aba Encontrar via robots.txt e basta inserir o domínio — listaremos todas as diretivas Sitemap: declaradas no robots.txt.
- Clique em Extrair URLs. A tabela de resultados aparece com um painel de estatísticas acima dela mostrando total de URLs, domínios únicos, distribuição por extensão de arquivo e intervalo de lastmod.
- Use a caixa de filtro para manter apenas URLs que correspondam a uma substring (por exemplo,
/blog/) ou a uma expressão regular (por exemplo,/^https:\/\/.+\.pdf$/). - Ordene a lista com o menu suspenso — útil para identificar páginas obsoletas por lastmod ou encontrar as URLs mais longas/curtas.
- Ative Remover duplicadas se a combinação de sub-sitemaps incluiu duplicatas.
- Use os botões Copiar tudo, TXT, CSV ou JSON. O CSV preserva as colunas lastmod, changefreq e priority.
Use esta ferramenta a partir do seu agente de IA
API JSON e servidor Model Context Protocol (MCP) gratuitos. Sem cadastro, sem chave de API, CORS aberto. Projetado para Claude, ChatGPT, Cursor, scripts e aplicativos frontend.
curl -X POST https://mate.tools/api/v1/sitemap-extract.php \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com/sitemap.xml"}' import urllib.request, json
req = urllib.request.Request(
"https://mate.tools/api/v1/sitemap-extract.php",
data=json.dumps({"url":"https://example.com/sitemap.xml"}).encode(),
headers={"Content-Type": "application/json"},
)
with urllib.request.urlopen(req) as r:
print(json.load(r)) const r = await fetch("https://mate.tools/api/v1/sitemap-extract.php", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({"url":"https://example.com/sitemap.xml"}),
});
console.log(await r.json()); Adicione a claude_desktop_config.json (Claude Desktop), ~/.cursor/mcp.json (Cursor) ou qualquer outro cliente compatível com MCP:
{
"mcpServers": {
"mate-tools": {
"command": "npx",
"args": ["-y", "@mate-tools/mcp-server"]
}
}
} Perguntas frequentes
Um sitemap XML é um arquivo que lista todas as URLs que um site quer que os mecanismos de busca conheçam. A maioria dos sites publica o seu em
https://example.com/sitemap.xml ou o declara no robots.txt. Use a aba Encontrar via robots.txt se não tiver certeza.Um índice de sitemap é um sitemap que aponta para outros sitemaps — sites grandes dividem suas URLs em vários arquivos. Esta ferramenta detecta ambos. Se você enviar um índice, pode receber a lista de sitemaps filhos ou marcar Buscar também os sub-sitemaps para expandi-los todos em uma lista combinada de URLs (limitada a 50 sub-sitemaps por segurança).
Não há um limite rígido, mas sitemaps muito grandes (>100.000 URLs) podem ser lentos para renderizar no navegador. O analisador XML em si fica no servidor e lida com arquivos enormes facilmente — a parte lenta é apenas renderizar a tabela de resultados.
Quando presentes no XML, lemos
<lastmod>, <changefreq> e <priority> para cada URL. A tabela de resultados mostra lastmod, e os downloads CSV/JSON incluem as três colunas. As entradas de índice de sitemap também expõem seu lastmod quando fornecido.Sim — digite qualquer substring (sem distinção de maiúsculas e minúsculas) na caixa de filtro, ou envolva uma expressão regular em barras (por exemplo,
/\.pdf$/). O contador de resultados, as ações de copiar e baixar respeitam o filtro ativo, então você extrai apenas a fatia que importa.Esta ferramenta busca sitemaps anonimamente via HTTPS, então sitemaps protegidos por senha, restritos por IP ou de staging não são acessíveis diretamente. Abra o arquivo no seu navegador, copie o XML e use a aba Colar XML.
Ative o interruptor Remover duplicadas na barra de ferramentas de resultados. Quando os sub-sitemaps se sobrepõem (comum em sites multilíngues que republicam a mesma URL canônica em vários sitemaps de idioma), isso é essencial.
Sim. Sitemaps são arquivos públicos, então o sitemap de qualquer site acessível publicamente está disponível para análise. É uma maneira excelente de mapear as categorias de conteúdo, profundidade e frequência de atualização de um concorrente.
Não. Cada solicitação é processada na memória e descartada assim que a página é renderizada. Nada é registrado, enfileirado ou persistido. Recarregue a página e a extração anterior desaparece.
TXT (uma URL por linha) é melhor para enviar a ferramentas de linha de comando ou fluxos de colar em formulário. CSV abre diretamente no Excel/Sheets e preserva lastmod, changefreq e priority. JSON é o mais amigável para scripts (Python, Node, etc.) e faz round-trip perfeitamente.