网站地图链接提取器 | 快速提取网站链接
网站地图链接提取器是一款工具,能快速从网站地图提取链接。用户输入网址后,可获得完整的URL列表,支持XML和HTML格式,便于网站分析和优化,提高搜索引擎可见性。
隐私: 本工具同时支持常规站点地图和站点地图索引文件。您提交的任何内容都不会存储在我们的服务器上 — 关闭标签页后结果即消失。
主要功能
- 三种输入模式:粘贴站点地图URL、粘贴原始XML,或从域名的robots.txt自动发现站点地图
- 递归扩展站点地图索引 — 一键获取多达50个子站点地图,并将所有URL合并为一个列表
- 每个URL的元数据:从XML中提取lastmod、changefreq和priority(如存在)
- 实时筛选(子字符串或/regex/)以及六种排序模式(A→Z、Z→A、最长、最短、最新lastmod、默认)
- 当同一URL出现在多个子站点地图中时一键去重
- 一目了然的统计信息:URL总数、唯一域名、文件扩展名分布、lastmod日期范围
- 将结果下载为TXT(每行一个URL)、CSV(包含所有元数据列)或JSON
- 一键复制完整列表、仅可见的筛选列表或任何单个URL
- 得益于服务器端解析和虚拟化结果表,可处理超大站点地图(50,000+ URL)
- 免费、无需注册、无需账户、无日志记录 — 适用于SEO审计、迁移、抓取准备和竞争对手研究
常见用例
- SEO审计 — 快速盘点站点向搜索引擎公开的每个URL
- 站点迁移 — 在新域名或CMS上重新发布之前生成完整的URL列表用于重定向映射
- 竞争对手研究 — 扫描公开的站点地图以了解竞争对手的内容覆盖、分类和更新节奏
- 抓取准备 — 将URL输入Screaming Frog、Sitebulb、自定义Python抓取器或任何HTTP检查工具
- 内部链接审计 — 将URL列表与内容审计电子表格配对以查找孤立页面
- 内容差距分析 — 将您的站点地图与竞争对手的进行对比以发现主题差距
- 新版本QA — 验证您的CMS在部署后是否生成了预期的站点地图
- lastmod盘点 — 通过对lastmod列排序并识别多年未更新的条目,发现陈旧页面
- 批量索引请求 — 导出为CSV并通过IndexNow协议或Google Search Console URL检查工作流批量提交URL
- 合规和无障碍 — 为定期的无障碍(WCAG)或隐私审查生成主URL列表
如何使用
- 选择一个标签页。从URL是最常用的方式:粘贴任意公开的站点地图地址(大多数站点会在
/sitemap.xml发布一份)。 - 如果您怀疑URL是索引文件,可选择切换同时获取子站点地图 — 该工具将跟随每个子站点地图并合并所有URL。
- 如果您的站点地图为私有或您拥有其文件版本,请切换到粘贴XML标签页并直接粘贴内容。
- 不知道站点地图在哪?请使用通过robots.txt查找标签页,只需输入域名 — 我们将列出robots.txt中声明的每个Sitemap:指令。
- 点击提取URL。结果表会显示,其上方有一个统计面板,显示URL总数、唯一域名、文件扩展名分布以及lastmod范围。
- 使用筛选框仅保留匹配子字符串(例如
/blog/)或正则表达式(例如/^https:\/\/.+\.pdf$/)的URL。 - 使用下拉菜单对列表进行排序 — 适用于通过lastmod发现陈旧页面或查找最长/最短的URL。
- 如果合并的子站点地图包含重复项,请切换去重。
- 使用全部复制、TXT、CSV或JSON按钮。CSV会保留lastmod、changefreq和priority列。
从你的AI智能体调用此工具
免费的JSON API和Model Context Protocol (MCP) 服务器。无需注册、无需API密钥、CORS开放。专为Claude、ChatGPT、Cursor、脚本和前端应用设计。
curl -X POST https://mate.tools/api/v1/sitemap-extract.php \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com/sitemap.xml"}' import urllib.request, json
req = urllib.request.Request(
"https://mate.tools/api/v1/sitemap-extract.php",
data=json.dumps({"url":"https://example.com/sitemap.xml"}).encode(),
headers={"Content-Type": "application/json"},
)
with urllib.request.urlopen(req) as r:
print(json.load(r)) const r = await fetch("https://mate.tools/api/v1/sitemap-extract.php", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({"url":"https://example.com/sitemap.xml"}),
});
console.log(await r.json()); 添加到 claude_desktop_config.json(Claude Desktop)、~/.cursor/mcp.json(Cursor)或任何其他MCP兼容客户端:
{
"mcpServers": {
"mate-tools": {
"command": "npx",
"args": ["-y", "@mate-tools/mcp-server"]
}
}
} 常见问题
XML站点地图是一个文件,列出网站希望搜索引擎了解的每个URL。大多数站点会在
https://example.com/sitemap.xml发布,或在robots.txt中列出它。如果不确定,请使用通过robots.txt查找标签页。站点地图索引是指向其他站点地图的站点地图 — 大型站点会将其URL拆分到多个文件中。本工具可同时检测两者。如果您提交一个索引,您可以获取子站点地图列表,或勾选同时获取子站点地图将它们全部展开为一个合并的URL列表(出于安全考虑,最多50个子站点地图)。
没有硬性上限,但非常大的站点地图(>100,000个URL)在浏览器中渲染可能较慢。XML解析器本身在服务器端运行,可轻松处理巨大文件 — 较慢的部分只是结果表的渲染。
当XML中存在时,我们会读取每个URL的
<lastmod>、<changefreq>和<priority>。结果表显示lastmod,CSV/JSON下载包含全部三列。如果提供,站点地图索引条目也会公开其lastmod。可以 — 在筛选框中输入任意子字符串(不区分大小写),或将正则表达式包在斜杠中(例如
/\.pdf$/)。结果计数器、复制和下载操作都遵循当前活动的筛选条件,因此您可以仅提取所需的部分。本工具通过HTTPS匿名获取站点地图,因此密码保护、IP限制或预发布站点地图无法直接访问。请在浏览器中打开文件,复制XML,然后使用粘贴XML标签页。
请切换结果工具栏中的去重开关。当子站点地图重叠时(在跨语言站点地图重新发布相同规范URL的多语言网站上很常见),这是必不可少的。
可以。站点地图是公开文件,因此任何可公开访问的站点的站点地图都可用于分析。这是绘制竞争对手的内容分类、深度和更新频率的绝佳方法。
不会。每个请求都在内存中处理,并在页面渲染后立即丢弃。不会记录、排队或持久化任何内容。重新加载页面后,先前的提取结果就消失了。
TXT(每行一个URL)最适合传输到命令行工具或粘贴到表单工作流。CSV可直接在Excel/Sheets中打开,并保留lastmod、changefreq和priority。JSON对脚本(Python、Node等)最友好,并能完美往返。