Apache Nutch är ett mycket extensibelt och skalbart program för webbcrawler för öppen källkod.Nutch kodas helt på Java-programmeringsspråket, men data skrivs i språkoberoende format.Den har en mycket modulär arkitektur som gör det möjligt för utvecklare att skapa plug-ins för parsning av mediatyp, datainsamling, fråga och klustering.Fettern ("robot" eller "webcrawler") har skrivits från grunden specifikt för detta projekt.
apache-nutch