5
DiffBot
* Hämta data från webbsidor automatiskt: Diffbots API: er för datorsyn förvandlar webben till din databas.* AUTOMATISKA API: er: Extrahera automatisktGet strukturerat innehåll från artiklar, produkter och andra kända sidtyper.
- Betald
- Web
Varför Diffbot?Vi fokuserar uteslutande på att få bättre webbdata.Några av anledningarna till att hundratals kunder ringer (hundratals) miljoner samtal varje månad: # Webbens bästa innehållsextraktor: Diffbot fungerar automatiskt - utan regler eller utbildning.Det finns inget bättre sätt att extrahera data från webbsidor.Se hur Diffbot staplar upp till andra metoder för utvinning av innehåll: Funktionsjämförelse Text-extrahering Kvalitet Shootout # Identifiera sidor automatiskt: Använd Analys API för att automatiskt hitta och extrahera alla produkter, artiklar, diskussioner eller bilder medan du genomsöker en webbplats.Analysera API #Detaljerad produktdata: Produkt-API: n returnerar automatiskt fullständig produktinformation, inklusive alla prissättningsdata, produkt-ID, varumärkes- och fullständiga specifikationstabeller.Produkt API # Clean text och html: Artiklar, diskussionstrådar, produktbeskrivningar och bildtexter returneras i ren text och desinficerad HTML.Börja testa idag #Strukturerad sökning: Sök i strukturerat innehåll från alla genomsökning on-the-fly med vårt Sök API och returnerar bara matchande resultat.Plus ... ¤ Alla API: er kör Javascript så innehållet analyseras som en vanlig webbläsare.¤ Fungerar på de flesta sidor som inte är engelska tack vare visuell bearbetning.¤ Datum normalisering: Datamärken normaliseras och presenteras i RFC 1123 (HTTP / 1.1) standardformat.¤ Flersidiga artiklar sammanfogas automatiskt i ett enda API-svar.¤ Utvinning av enheter: automatisk taggning identifierar viktiga ämnen och enheter inom artikeltexten.¤ Fixa eventuella problem i realtid med API Toolkit.¤ Bulk API tillåter extraktion av hundratals till hundratusentals sidor.¤ Få åtkomst till Crawlbot och Bulk jobbdata i hela JSON- eller CSV-format.¤ Genomsök eventuellt med hjälp av en mängd olika IP-adresser.