content-scraper-cli
v1.0.4
Published
CLI para extraer contenido de URLs y generar JSON listo para IA
Maintainers
Readme
content-scraper-cli
CLI para extraer contenido de URLs y generar un JSON listo para pasarle a tu IA y que cree artículos.
Instalación global
npm install -g content-scraper-cliUso
content-scraperEl CLI te pregunta interactivamente:
- Las URLs separadas por coma
- El nombre del archivo JSON de salida
Ejemplo
📎 Ingresa las URLs separadas por coma:
> https://blog.com/articulo-1, https://otro.com/post-2, https://web.com/guia
💾 Nombre del archivo JSON de salida: mi-investigacion
✅ blog.com/articulo-1 — 12 párrafos, 1240 palabras
✅ otro.com/post-2 — 8 párrafos, 890 palabras
✅ web.com/guia — 20 párrafos, 2100 palabras
──────────────────────────────────────────────────
RESUMEN
──────────────────────────────────────────────────
✅ URLs exitosas: 3
📄 Archivo JSON: /tu-proyecto/mi-investigacion.json
──────────────────────────────────────────────────Qué extrae
De cada URL extrae:
titulo— Título de la páginadescripcion— Meta descripciónautor— Autor si está disponiblefecha— Fecha de publicaciónidioma— Idioma del sitiokeywords— Keywords metaestructura.h1— Todos los H1estructura.h2— Todos los H2estructura.h3— Todos los H3parrafos— Todos los párrafos con más de 40 caractereslistas— Listas ul/ol del contenidototal_parrafos— Cantidad de párrafostotal_palabras— Total de palabras
JSON de salida
{
"generado_en": "2024-01-15T10:30:00.000Z",
"total_fuentes": 3,
"instrucciones_para_ia": [
"Usa este JSON como base para crear un artículo original.",
"..."
],
"fuentes": [
{
"url": "https://...",
"titulo": "...",
"descripcion": "...",
"estructura": {
"h1": ["..."],
"h2": ["...", "..."],
"h3": ["..."]
},
"parrafos": ["...", "..."],
"listas": [["item1", "item2"]]
}
]
}Notas importantes
- Funciona mejor con blogs, sitios de noticias y artículos normales
- Algunos sitios con protección anti-bot pueden bloquear la petición
- No extrae imágenes intencionalmente
- No usa ninguna API de pago, todo gratis
Publicar en npm
Created by Omar Fuentes https://omarfuentes.com
Licencia open source
MIT
