Trình Trích URL Sitemap | Trích xuất nhanh URL Sitemap
Công cụ Trích URL Sitemap cho phép bạn nhanh chóng lấy tất cả URL từ tệp sitemap XML. Nhập liên kết sitemap, công cụ tự động liệt kê các URL để quản lý và tối ưu hóa nội dung trang web.
Quyền riêng tư: Công cụ này hỗ trợ cả sitemap thông thường và tệp chỉ mục sitemap. Không có gì bạn gửi được lưu trữ trên máy chủ của chúng tôi — kết quả biến mất khi bạn đóng tab.
Tính năng chính
- Ba chế độ nhập: dán URL sitemap, dán XML thô hoặc tự động khám phá sitemap từ robots.txt của tên miền
- Mở rộng chỉ mục sitemap đệ quy — lấy tối đa 50 sitemap con chỉ với một cú nhấp chuột và gộp mọi URL vào một danh sách duy nhất
- Siêu dữ liệu cho mỗi URL: lastmod, changefreq và priority được trích xuất từ XML khi có
- Bộ lọc trực tiếp (chuỗi con hoặc /regex/) cộng với sáu chế độ sắp xếp (A→Z, Z→A, dài nhất, ngắn nhất, lastmod mới nhất, mặc định)
- Loại bỏ trùng lặp một cú nhấp khi cùng một URL xuất hiện trong nhiều sitemap con
- Thống kê nhanh: tổng số URL, tên miền duy nhất, phân tích phần mở rộng tệp, phạm vi ngày lastmod
- Tải xuống kết quả dưới dạng TXT (mỗi URL trên một dòng), CSV (với tất cả các cột siêu dữ liệu) hoặc JSON
- Sao chép toàn bộ danh sách, chỉ danh sách đã lọc hiển thị hoặc bất kỳ URL đơn lẻ nào chỉ với một cú nhấp
- Xử lý sitemap khổng lồ (50.000+ URL) nhờ phân tích cú pháp phía máy chủ và bảng kết quả ảo hóa
- Miễn phí, không đăng ký, không tài khoản, không ghi log — hữu ích cho kiểm tra SEO, di chuyển, chuẩn bị scraping và nghiên cứu đối thủ
Trường hợp sử dụng phổ biến
- Kiểm tra SEO — nhanh chóng kiểm kê mọi URL mà một trang web đang phơi bày cho các công cụ tìm kiếm
- Di chuyển trang web — tạo danh sách URL đầy đủ để ánh xạ chuyển hướng trước khi khởi chạy lại trên tên miền hoặc CMS mới
- Nghiên cứu đối thủ — quét sitemap công khai để hiểu dấu chân nội dung, danh mục và nhịp độ cập nhật của đối thủ
- Chuẩn bị thu thập dữ liệu — đưa URL vào Screaming Frog, Sitebulb, các trình thu thập Python tùy chỉnh hoặc bất kỳ công cụ kiểm tra HTTP nào
- Kiểm tra liên kết nội bộ — ghép danh sách URL với bảng kiểm tra nội dung để tìm các trang mồ côi
- Phân tích khoảng trống nội dung — so sánh sitemap của bạn với của đối thủ để khám phá khoảng trống chủ đề
- QA bản phát hành mới — xác minh CMS của bạn đang tạo ra sitemap mong đợi sau khi triển khai
- Kiểm kê lastmod — phát hiện các trang lỗi thời bằng cách sắp xếp theo cột lastmod và xác định các mục chưa được cập nhật trong nhiều năm
- Yêu cầu lập chỉ mục hàng loạt — xuất ra CSV và gửi URL theo lô đến giao thức IndexNow hoặc quy trình kiểm tra URL trong Google Search Console
- Tuân thủ và khả năng truy cập — tạo danh sách URL chính cho các đánh giá khả năng truy cập định kỳ (WCAG) hoặc quyền riêng tư
Cách sử dụng
- Chọn một tab. Từ URL là đường dẫn phổ biến nhất: dán bất kỳ địa chỉ sitemap công khai nào (hầu hết các trang đều xuất bản tại
/sitemap.xml). - Tùy chọn bật Cũng lấy các sitemap con nếu bạn nghi ngờ URL là tệp chỉ mục — công cụ sẽ theo dõi từng sitemap con và gộp mọi URL.
- Nếu sitemap của bạn là riêng tư hoặc bạn có nó dưới dạng tệp, hãy chuyển sang tab Dán XML và dán nội dung trực tiếp.
- Không biết sitemap ở đâu? Sử dụng tab Tìm qua robots.txt và chỉ cần nhập tên miền — chúng tôi sẽ liệt kê mọi chỉ thị Sitemap: được khai báo trong robots.txt.
- Nhấp vào Trích xuất URL. Bảng kết quả xuất hiện với bảng thống kê phía trên hiển thị tổng số URL, tên miền duy nhất, phân tích phần mở rộng tệp và phạm vi lastmod.
- Sử dụng hộp lọc để chỉ giữ các URL khớp với chuỗi con (ví dụ:
/blog/) hoặc biểu thức chính quy (ví dụ:/^https:\/\/.+\.pdf$/). - Sắp xếp danh sách bằng menu thả xuống — hữu ích để phát hiện các trang lỗi thời theo lastmod hoặc tìm URL dài nhất/ngắn nhất.
- Bật Loại bỏ trùng lặp nếu các sitemap con kết hợp bao gồm bản sao.
- Sử dụng các nút Sao chép tất cả, TXT, CSV hoặc JSON. CSV bảo toàn các cột lastmod, changefreq và priority.
Sử dụng công cụ này từ tác nhân AI của bạn
API JSON và máy chủ Model Context Protocol (MCP) miễn phí. Không cần đăng ký, không cần khóa API, CORS mở. Được thiết kế cho Claude, ChatGPT, Cursor, script và ứng dụng frontend.
curl -X POST https://mate.tools/api/v1/sitemap-extract.php \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com/sitemap.xml"}' import urllib.request, json
req = urllib.request.Request(
"https://mate.tools/api/v1/sitemap-extract.php",
data=json.dumps({"url":"https://example.com/sitemap.xml"}).encode(),
headers={"Content-Type": "application/json"},
)
with urllib.request.urlopen(req) as r:
print(json.load(r)) const r = await fetch("https://mate.tools/api/v1/sitemap-extract.php", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({"url":"https://example.com/sitemap.xml"}),
});
console.log(await r.json()); Thêm vào claude_desktop_config.json (Claude Desktop), ~/.cursor/mcp.json (Cursor) hoặc bất kỳ máy khách MCP tương thích nào khác:
{
"mcpServers": {
"mate-tools": {
"command": "npx",
"args": ["-y", "@mate-tools/mcp-server"]
}
}
} Câu hỏi thường gặp
Sitemap XML là một tệp liệt kê mọi URL mà một trang web muốn các công cụ tìm kiếm biết đến. Hầu hết các trang đều xuất bản tại
https://example.com/sitemap.xml hoặc liệt kê trong robots.txt. Hãy sử dụng tab Tìm qua robots.txt nếu bạn không chắc.Chỉ mục sitemap là một sitemap trỏ đến các sitemap khác — các trang web lớn chia URL của họ trên nhiều tệp. Công cụ này phát hiện cả hai. Nếu bạn gửi một chỉ mục, bạn có thể nhận lại danh sách các sitemap con hoặc đánh dấu Cũng lấy các sitemap con để mở rộng tất cả thành một danh sách URL kết hợp (giới hạn ở 50 sitemap con để an toàn).
Không có giới hạn cứng, nhưng các sitemap rất lớn (>100.000 URL) có thể chậm khi hiển thị trong trình duyệt. Bộ phân tích cú pháp XML chính nó nằm ở phía máy chủ và xử lý các tệp khổng lồ một cách dễ dàng — phần chậm chỉ là hiển thị bảng kết quả.
Khi có trong XML, chúng tôi đọc
<lastmod>, <changefreq> và <priority> cho mỗi URL. Bảng kết quả hiển thị lastmod và các bản tải xuống CSV/JSON bao gồm cả ba cột. Các mục chỉ mục sitemap cũng hiển thị lastmod của chúng khi được cung cấp.Có — nhập bất kỳ chuỗi con nào (không phân biệt chữ hoa chữ thường) vào hộp lọc hoặc bao bọc một biểu thức chính quy trong dấu gạch chéo (ví dụ:
/\.pdf$/). Bộ đếm kết quả, các thao tác sao chép và tải xuống đều tôn trọng bộ lọc đang hoạt động, vì vậy bạn có thể trích xuất chỉ phần bạn quan tâm.Công cụ này lấy sitemap ẩn danh qua HTTPS, vì vậy các sitemap được bảo vệ bằng mật khẩu, hạn chế IP hoặc staging không thể truy cập trực tiếp. Mở tệp trong trình duyệt của bạn, sao chép XML và sử dụng tab Dán XML.
Hãy bật công tắc Loại bỏ trùng lặp trong thanh công cụ kết quả. Khi các sitemap con chồng chéo (phổ biến trên các trang đa ngôn ngữ tái xuất bản cùng một URL chuẩn trên các sitemap ngôn ngữ), điều này là cần thiết.
Có. Sitemap là tệp công khai, vì vậy sitemap của bất kỳ trang web nào có thể truy cập công khai đều có thể được phân tích. Đây là một cách tuyệt vời để vẽ bản đồ các danh mục nội dung, độ sâu và tần suất cập nhật của đối thủ.
Không. Mỗi yêu cầu được xử lý trong bộ nhớ và bị loại bỏ ngay khi trang được hiển thị. Không có gì được ghi log, xếp hàng hoặc lưu trữ. Tải lại trang và việc trích xuất trước đó sẽ biến mất.
TXT (mỗi URL trên một dòng) là tốt nhất để chuyển vào các công cụ dòng lệnh hoặc quy trình dán vào biểu mẫu. CSV mở trực tiếp trong Excel/Sheets và bảo toàn lastmod, changefreq và priority. JSON thân thiện nhất cho các tập lệnh (Python, Node, v.v.) và đi vòng hoàn hảo.