Apache Nutch

Apache Nutch

Apache Nutch är ett mycket extensibelt och skalbart program för webbcrawler för öppen källkod.Nutch kodas helt på Java-programmeringsspråket, men data skrivs i språkoberoende format.Den har en mycket modulär arkitektur som gör det möjligt för utvecklare att skapa plug-ins för parsning av mediatyp, datainsamling, fråga och klustering.Fettern ("robot" eller "webcrawler") har skrivits från grunden specifikt för detta projekt.
apache-nutch

kategorier

Alternativ till Apache Nutch för BSD med kommersiell licens