サイトマップURL抽出器 | URLを迅速に抽出する
サイトマップURL抽出器は、指定したサイトマップからURLを迅速に抽出するツールです。XMLやHTML形式に対応し、短時間で大量のURLを取得できます。SEOやサイト分析に役立ちます。
プライバシー: このツールは通常のサイトマップとサイトマップインデックスファイルの両方をサポートしています。送信した内容は当社のサーバーに保存されません — タブを閉じると結果は消えます。
主な機能
- 3つの入力モード: サイトマップURLを貼り付け、生のXMLを貼り付け、またはドメインのrobots.txtからサイトマップを自動検出
- 再帰的なサイトマップインデックス展開 — 1クリックで最大50個の子サイトマップを取得し、すべてのURLを1つのリストに統合
- URLごとのメタデータ: 存在する場合、XMLからlastmod、changefreq、priorityを抽出
- ライブフィルター(部分文字列または/regex/)と6つの並べ替えモード(A→Z、Z→A、最長、最短、最新のlastmod、デフォルト)
- 同じURLが複数のサブサイトマップに表示される場合のワンクリック重複排除
- 一目でわかる統計: URL総数、一意のドメイン、ファイル拡張子の内訳、lastmodの日付範囲
- 結果をTXT(1行に1 URL)、CSV(すべてのメタデータ列付き)、またはJSONとしてダウンロード
- 完全なリスト、表示されているフィルター済みリストのみ、または単一のURLを1クリックでコピー
- サーバーサイド解析と仮想化された結果テーブルにより、巨大なサイトマップ(50,000以上のURL)に対応
- 無料、サインアップ不要、アカウント不要、ログ記録なし — SEO監査、移行、スクレイピング準備、競合調査に役立ちます
一般的なユースケース
- SEO監査 — サイトが検索エンジンに公開しているすべてのURLを素早く把握
- サイト移行 — 新しいドメインまたはCMSへの再公開前にリダイレクトマッピング用の完全なURLリストを作成
- 競合調査 — 公開サイトマップをスキャンして競合のコンテンツフットプリント、カテゴリ、更新頻度を理解
- クロール準備 — Screaming Frog、Sitebulb、カスタムPythonスクレイパー、または任意のHTTPチェックツールにURLを入力
- 内部リンク監査 — URLリストとコンテンツ監査スプレッドシートを組み合わせて孤立ページを発見
- コンテンツギャップ分析 — 自分のサイトマップを競合のものと比較してトピックのギャップを発見
- 新リリースのQA — デプロイ後にCMSが期待されるサイトマップを生成しているか確認
- lastmodインベントリ — lastmod列で並べ替えて何年も更新されていないエントリを特定し、古いページを発見
- バルクインデックスリクエスト — CSVにエクスポートし、IndexNowプロトコルまたはGoogle Search ConsoleのURL検査ワークフローにバッチで送信
- コンプライアンスとアクセシビリティ — 定期的なアクセシビリティ(WCAG)またはプライバシーレビュー用のマスターURLリストを作成
使い方
- タブを選択します。URLからが最も一般的な方法です: 公開されているサイトマップアドレスを貼り付けます(ほとんどのサイトは
/sitemap.xmlに1つ公開しています)。 - URLがインデックスファイルだと思われる場合は、必要に応じてサブサイトマップも取得するを切り替えます — ツールが各子サイトマップをたどり、すべてのURLを統合します。
- サイトマップが非公開またはファイルとして所有している場合は、XMLを貼り付けタブに切り替えてコンテンツを直接貼り付けます。
- サイトマップの場所が不明ですか?robots.txtから検索タブを使用して、ドメインだけを入力してください — robots.txtで宣言されているすべてのSitemap:ディレクティブを一覧表示します。
- URLを抽出をクリックします。結果テーブルが表示され、その上にURL総数、一意のドメイン、ファイル拡張子の内訳、lastmod範囲を示す統計パネルが表示されます。
- フィルターボックスを使用して、部分文字列(例:
/blog/)または正規表現(例:/^https:\/\/.+\.pdf$/)に一致するURLのみを保持します。 - ドロップダウンでリストを並べ替えます — lastmodで古いページを発見したり、最長/最短のURLを見つけるのに便利です。
- 統合されたサブサイトマップに重複が含まれている場合は、重複排除を切り替えます。
- すべてコピー、TXT、CSV、またはJSONボタンを使用します。CSVはlastmod、changefreq、priorityの列を保持します。
AIエージェントからこのツールを使う
無料のJSON APIとModel Context Protocol (MCP) サーバー。登録不要、APIキー不要、CORS開放。Claude、ChatGPT、Cursor、スクリプト、フロントエンドアプリ向けに設計。
curl -X POST https://mate.tools/api/v1/sitemap-extract.php \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com/sitemap.xml"}' import urllib.request, json
req = urllib.request.Request(
"https://mate.tools/api/v1/sitemap-extract.php",
data=json.dumps({"url":"https://example.com/sitemap.xml"}).encode(),
headers={"Content-Type": "application/json"},
)
with urllib.request.urlopen(req) as r:
print(json.load(r)) const r = await fetch("https://mate.tools/api/v1/sitemap-extract.php", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({"url":"https://example.com/sitemap.xml"}),
});
console.log(await r.json()); Claude Desktopのclaude_desktop_config.json、Cursorの~/.cursor/mcp.json、その他のMCP対応クライアントに追加:
{
"mcpServers": {
"mate-tools": {
"command": "npx",
"args": ["-y", "@mate-tools/mcp-server"]
}
}
} よくある質問
XMLサイトマップは、ウェブサイトが検索エンジンに知らせたいすべてのURLをリストするファイルです。ほとんどのサイトは
https://example.com/sitemap.xmlに公開するか、robots.txtに記載しています。不明な場合はrobots.txtから検索タブを使用してください。サイトマップインデックスは他のサイトマップを指すサイトマップです — 大規模なサイトはURLを多数のファイルに分割します。このツールは両方を検出します。インデックスを送信すると、子サイトマップのリストを取得するか、サブサイトマップも取得するにチェックを入れて、すべてを1つの統合されたURLリストに展開できます(安全のため50個のサブサイトマップに制限)。
ハードキャップはありませんが、非常に大きなサイトマップ(100,000以上のURL)はブラウザでのレンダリングが遅くなる可能性があります。XMLパーサー自体はサーバーサイドで、巨大なファイルを簡単に処理します — 遅いのは結果テーブルのレンダリングだけです。
XMLに存在する場合、各URLの
<lastmod>、<changefreq>、<priority>を読み取ります。結果テーブルにはlastmodが表示され、CSV/JSONダウンロードには3つすべての列が含まれます。サイトマップインデックスのエントリも、提供された場合にlastmodが公開されます。はい — フィルターボックスに任意の部分文字列(大文字と小文字を区別しない)を入力するか、正規表現をスラッシュで囲みます(例:
/\.pdf$/)。結果カウンター、コピー、ダウンロードアクションはすべてアクティブなフィルターを尊重するため、関心のある部分だけを抽出できます。このツールはHTTPS経由で匿名でサイトマップを取得するため、パスワード保護、IP制限、またはステージングサイトマップには直接アクセスできません。ブラウザでファイルを開き、XMLをコピーして、XMLを貼り付けタブを使用してください。
結果ツールバーの重複排除スイッチを切り替えます。サブサイトマップが重複する場合(言語サイトマップ間で同じ正規URLを再公開する多言語サイトでは一般的)、これは不可欠です。
はい。サイトマップは公開ファイルなので、公開アクセス可能なサイトのサイトマップは分析の対象になります。競合のコンテンツカテゴリ、深さ、更新頻度をマッピングするのに最適な方法です。
いいえ。各リクエストはメモリで処理され、ページがレンダリングされるとすぐに破棄されます。何もログに記録されたり、キューに入れられたり、永続化されたりしません。ページを再読み込みすると、前の抽出は消えています。
TXT(1行に1 URL)はコマンドラインツールへのパイプやフォームへの貼り付けワークフローに最適です。CSVはExcel/Sheetsで直接開き、lastmod、changefreq、priorityを保持します。JSONはスクリプト(Python、Nodeなど)に最も親和性が高く、ラウンドトリップが完全です。