mercoledì 20 aprile 2016

crawler web

crawler web

un crawler  detto anche spider o robot  è un software che analizza i contenuti di rete  in modo automatizzate in genere per conto  di un motore di ricerca
un crawler  è un tipo  di bot  i crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice
un uso
si basa su una lista di url da visitare fornita dal motore di ricerca il quale si basa su indirizzi suggeriti dagli utenti o su una lista preparata dai programmatori  stessi
durante l'analisi  di un url identifica gli hyperlink presenti nel documenti e li aggiunge ad una lista di url  da visitare
inoltre i crawler attivi su internet hanno la facoltà di essere indirizzai da quando indicato nel file robots.txt  posto nella root del sito 
all'interno di questo file è possibile indicare quali pagine non dovrebbero essere analizzate per il crwler questo è un consiglio non un obbligo

ecco un elenco di architetture pubbliche di carattere generico

Bucean  il primo  crawler pubblico 
E' basato su due programmi il primo spider mantiene la richiesta in un database  relazionale il secondo mite  è un browser che scarica le pagine wrb

webcrawler  è stato usato per costruire il primo indice testuale di pubblicità di un ramo del web

tenn spider  era usato per costruire un semplice indice di titoli di documento e url

Google crawler  fu integrato  col processo di indicizzazione

vnz0wna usato come schedulatore centrale e serie di collettori distributivi

mercator  è modulare  distribuito in java  e sorge dall'uso di modelli di protocollo

Nessun commento:

Posta un commento