bytecrawl
v1.0.2
Published
Recursieve webcrawler die subdomeinen, pagina's en afbeeldingen vindt en crawlt.
Maintainers
Readme
Een krachtige en efficiënte Node.js webcrawler, ontwikkeld door Bytevision. Deze package is ontworpen om recursief websites te crawlen, inclusief alle subdomeinen en pagina's, om content, afbeeldingen en links te extraheren.
Gemaakt om ontwikkelaars te helpen snel en eenvoudig data van het web te verzamelen voor analyse, AI-training of archivering.
Kenmerken
Recursief Crawlen: Vindt en verwerkt automatisch alle pagina's op een domein en de bijbehorende subdomeinen.
Content Extractie: Extraheert paginatitels, metabeschrijvingen, koppen en platte tekst.
Afbeeldingen & Links: Verzamelt alle afbeeldingen en interne links per pagina.
Flexibele Opties: Stel limieten in voor het maximale aantal te crawlen pagina's en karakters.
Ingebouwde Beleefdheid: Bevat een instelbare vertraging tussen verzoeken om servers niet te overbelasten.
TypeScript Ondersteuning: Volledig getypeerd voor een geweldige ontwikkelervaring.
Installatie Installeer de package eenvoudig via npm:
bash npm install bytecrawl Gebruik Importeer de crawlWebsite functie en start met crawlen. De functie is async en retourneert een Promise met het resultaat.
javascript import { crawlWebsite } from 'bytecrawl';
async function startCrawling() { try { console.log('Starten met crawlen...');
const result = await crawlWebsite('https://jouw-website.nl', {
maxPages: 50, // Optioneel: max aantal te crawlen pagina's (standaard: 50)
maxChars: 500000, // Optioneel: max totaal aantal karakters (standaard: 500000)
delay: 500 // Optioneel: vertraging in ms tussen verzoeken (standaard: 1000)
});
if (result.success) {
console.log('Crawl succesvol afgerond!');
console.log('Statistieken:', result.data.statistics);
// Voorbeeld: Toon de titel van de eerste gecrawlde pagina
if (result.data.pages.length > 0) {
console.log('Titel eerste pagina:', result.data.pages[0].title);
}
// De volledige geformatteerde tekst
// console.log(result.data.formattedContent);
} else {
console.error('Crawl mislukt:', result.error);
}} catch (error) { console.error('Er is een onverwachte fout opgetreden:', error); } }
startCrawling(); Over Bytevision Bytevision specialiseert zich in het ontwikkelen van kant-en-klare AI-modules om bedrijfsprocessen te automatiseren en te verbeteren. Van slimme chatbots tot data-analyse, wij maken AI toegankelijk.
Bezoek onze website www.bytevision-ai.nl voor meer informatie over onze AI-oplossingen.
Licentie Dit project is beschikbaar onder de MIT-licentie.
