Come controllare i Web Robots

Un Web Robot é un software che esplora automaticamente i contenuti del web al fine di estrarne informazioni. I motori di ricerca Web come Google, usano robot (chiamati anche search engine crawlers) per indicizzare i contenuti, mentre altri soggetti potrebbero usarli per copiare dei contenuti (per esempio cataloghi dati, indirizzi …

Un Web Robot é un software che esplora automaticamente i contenuti del web al fine di estrarne informazioni. I motori di ricerca Web come Google, usano robot (chiamati anche search engine crawlers) per indicizzare i contenuti, mentre altri soggetti potrebbero usarli per copiare dei contenuti (per esempio cataloghi dati, indirizzi, etc…) e testare vulnerabilità.

E’ possibile controllare alcune attività dei robot, predisponendo delle istruzioni nel file di testo robots.txt registrato nella directory radice di un sito.

Le istruzioni sono scritte secondo la specifica The Robots Exclusion Protocol ed hanno lo scopo di consentire o negare l’accesso ai contenuti del sito.

Il file robots.txt di questo sito include le seguenti istruzioni:

User-agent: *
Disallow: /it/
Disallow: /en/it/
Disallow: /en/en/
Allow: /
Sitemap: http://www.ipertesti.com/sitemap.xml
Sitemap: http://www.ipertesti.com/en/sitemap.xml

In questo modo, ho specificato che tutti i Web Robots “dovrebbero” evitare di indicizzare le sotto-cartelle “/it/, /en/it/ ed /en/en/” del mio sito perché contengono alcune bozze di articoli.

E’ possibile verificare la correttezza del file robots.txt con il Robots Testing Tool di Google.

L’utilità del file robots.txt é modesta, perché i robots tendono semplicemente ad ignorarlo. Oppure, Google ribadisce che il proprio crawler eviterà di accedere direttamente alle pagine escluse secondo le istruzioni di robots.txt, ma potrà comunque mostrare, nei risultati delle ricerche, i contenuti esclusi se questi sono linkati da un’altra pagina che risulta invece indicizzabile.

A mio parere, occorre predisporre il file robots.txt solo perché viene “richiesto” e la sua presenza evita di registrare una riga d’errore con codice 404, nel file di log del server.

Un metodo più efficace per prevenire l’indicizzazione dei contenuti, consiste nell’usare il tag meta inserito nella sezione head del codice HTML.

Per esempio, questa pagina include il seguente codice:

<meta name="robots" content="index, follow">

Invece, per le pagine web che sono ancora nello stato di bozza, uso il meta tag:

<meta name="robots" content="noindex, follow">

Il terzo metodo per controllare i Web Robots, consiste nel specificare l’attributo X-Robots-Tag nell’header HTTP.

N.B. devo aggiornare questo articolo ed includere note sull’uso di “Sitemap:” in robots.txt e la configurazione di Apache per “X-Robots-Tag”.

Riferimenti

Libri suggeriti

Guide gratuite:

Condividi questo articolo

Se ti è piaciuto questo articolo e pensi possa essere utile anche ad altri, condividilo con i tuoi amici e conoscenti, facendo click sui pulsanti dei tuoi social network preferiti.

P.S. Grazie!

Commenti

Cosa pensi di questo articolo? Hai dei suggerimenti da darmi o vuoi segnalare la tua esperienza in questa pagina? Registrati con Disqus ed inserisci il tuo commento qui sotto!

Inoltre, se lo desideri puoi anche scrivermi una e-mail.