StormCrawler

StormCrawler är en öppen källkods SDK för att bygga distribuerade webcrawlers med Apache Storm.Projektet är under Apache-licens v2 och består av en samling återanvändbara resurser och komponenter, mestadels skriven i Java.StormCrawlers mål är att hjälpa till att bygga webbsökare som är: skalbar elastisk låg latens som är lätt att utöka artig men ändå effektiv StormCrawler är ett bibliotek och en samling resurser som utvecklare kan utnyttja för att bygga sina egna crawlers.Den goda nyheten är att det kan vara ganska enkelt.Ofta är allt du behöver göra att förklara stormcrawler som Mavenberoende, skriva din egen Topology-klass (tips: du kan utöka ConfigurableTopology), återanvända komponenterna som tillhandahålls av projektet och kanske skriva ett par anpassadeför din egen hemliga sås.Lite anpassa till konfigurationen och off you go! ... Bortsett från kärnkomponenterna tillhandahåller vi några externa resurser som du kan återanvända i ditt projekt, till exempel vår pip och bultar för ElasticSearch eller en ParserBolt som använder Apache Tikaför att analysera olika dokumentformat.StormCrawler är perfekt lämpad att använda fall där URL: en för att hämta och analysera kommer som strömmar men är också en lämplig lösning för rekursiva genomsökningar i stor skala, särskilt där låg latens krävs.Projektet används i produktion av flera företag och utvecklas och underhålls aktivt.

Hemsida:

http://stormcrawler.net

kategorier

Alternativ till StormCrawler för alla plattformar med någon licens

StormCrawler

Hemsida:

kategorier

Alternativ till StormCrawler för alla plattformar med någon licens

Heritrix

Mixnode

Apache Nutch

Scrapy

ACHE Crawler

ProxyCrawl