crawler-links
v1.0.1
Published
Node.js web crawler to get all internal links from a website.
Downloads
9
Maintainers
Readme
Crawler Links
Một công cụ Node.js để crawl tất cả internal links từ một website và tạo sitemap.
Cài đặt
Cài đặt global
npm install -g crawler-linksSử dụng với npx (không cần cài đặt)
npx crawler-linksCách sử dụng
Cú pháp cơ bản
PAGE=<URL_BẮT_ĐẦU> OUTPUT=<TÊN_FILE_OUTPUT> crawler-linksVí dụ
# Crawl website và lưu vào file sitemap.txt
PAGE=https://example.com OUTPUT=sitemap.txt crawler-links
# Crawl với prefix cụ thể
PAGE=https://example.com OUTPUT=blog-links.txt PREFIX=https://example.com/blog crawler-links
# Sử dụng với npx
PAGE=https://hotro-digital.mpos.vn OUTPUT=hotro-digital-sitemap.txt npx crawler-linksBiến môi trường
| Biến | Bắt buộc | Mô tả |
|------|----------|-------|
| PAGE | ✅ | URL bắt đầu để crawl |
| OUTPUT | ✅ | Tên file output để lưu kết quả |
| PREFIX | ❌ | Prefix để lọc links (tùy chọn) |
Tính năng
- ✅ Crawl tất cả internal links từ website
- ✅ Lưu trạng thái để có thể tiếp tục nếu bị gián đoạn
- ✅ Hỗ trợ lọc links theo prefix
- ✅ Chỉ crawl links thuộc cùng domain
- ✅ Loại bỏ các link neo (#) và javascript
- ✅ Chuẩn hóa URL và loại bỏ hash
- ✅ User-Agent giả lập browser thật
File output
File output sẽ có cấu trúc:
<index_đã_crawl>
---CRAWLER_STATE---
<danh_sách_các_link>Yêu cầu hệ thống
- Node.js >= 16.0.0
License
ISC
Tác giả
tanmv
