Creazione ed invio file Robots.txt

Informazioni sui file robots.txt

Il file robots.txt è un protocollo abbastanza semplice che permette di dialogare con i motori di ricerca segnalando determinate informazioni.

Data la sua estrema semplicità, il file robots è in formato testo (.txt) ed indica quali pagine o directory da sottoporre o NON sottoporre a scansione dai crawler dei motori di ricerca (o spider) ma sopratutto viene indicato anche quali agenti accettare (agente è un ulteriore termine per intendere crawler, spider o webbot dei motori di ricerca).

Di seguito l’esempio di una struttura tipica di un file robots:

User-agent: *

Disallow: /nome-directory-da-bloccare/

Disallow: /nome-pagina-da-bloccare.html

User-agent: l’asterisco lascia intendere che tutti gli spider dei motori di ricerca hanno accesso alla consultazione ed eventuale scansione delle pagine del sito web. E’ possibile escludere determinati agenti.

Es.:

User-agent: libwww

Disallow: /

Disallow: attraverso questa direttiva viene specificato che la directory o pagina web non deve essere inclusa negli indici dei motori.

In assenza di particolari esigenze il file robots.txt può essere presentato nel seguente modo:

User-agent: *

Allow:

in questo caso attraverso la direttiva Allow tutte le pagine verranno sottoposte a scansione.

Ulteriori direttive:

User-agent: *

Disallow: /nome-directory-da-bloccare/ # Blocca la directory /nome-directory-da-bloccare/

Caricare successivamente tramite FTP il file robots.txt all’interno della root principale del sito. Ad esempio per il sito della WRA il file robots.txt è stato caricato nel percorso principale ed è raggiungibile dal seguente percorso: https://www.wra.it/robots.txt

Maggiori informazioni sul file robots: http://www.robotstxt.org/

Lista dei Robots più noti: http://www.robotstxt.org/db.html (attenzione fonte frequentemente aggiornabile)

Guida Google

Was this article helpful?

Related Articles

Leave A Comment?

You must be logged in to post a comment.