n8n-nodes-scraper
v1.0.4
Published
n8n node for advanced web scraping with multiple extraction modes
Maintainers
Readme
n8n-nodes-scraper
Este paquete contiene un nodo para n8n que permite realizar web scraping avanzado con múltiples modos de extracción.
Smart Scraper
El nodo Smart Scraper permite extraer contenido de páginas web con diferentes estrategias:
Modos de extracción
- rawHtml: Devuelve el HTML completo de la página
- text: Extrae solo el texto de la página
- article: Extrae el contenido principal de un artículo (título, autor, fecha, contenido)
- product: Extrae información de productos (nombre, precio, descripción, imágenes)
- seo: Extrae metadatos SEO (título, descripción, palabras clave, OG/Twitter)
- reviews: Extrae reseñas y valoraciones
Características principales
- Parseo de JSON-LD (Article, Product, Reviews)
- Extracción de metadatos SEO (OG/Twitter)
- Extracción de headings y enlaces
- Fallbacks automáticos cuando la extracción principal falla
- Estrategias de fetch: HTTP directo o Render endpoint para sitios con JavaScript
- Headers personalizables, timeout, retries
- Respeto de robots.txt
- Selector CSS "best-effort"
- Paginación básica
- Retorno binario del HTML
- Usable como herramienta en otros nodos
Instalación
- Ir a Configuración > Comunidad de nodos
- Buscar "scraper"
- Hacer clic en Instalar
Uso
Añade el nodo "Smart Scraper" a tu flujo de trabajo y configura la URL y el modo de extracción deseado.
