File Robots.txt cosa sono? A Cosa servono? HTML

File Robots.txt cosa sono? A Cosa servono? HTML

file-robots-txt-cosa-sono-a-cosa-servono-html-pordenone-sacile-cordenons-pn-friuli-venezia-giulia-azzano-decimo-porcia-san-vito-al-tagliamento-spilimbergo-maniago-blog1-advstudio

File Robots.txt cosa sono? A Cosa servono?

Può capitare che alcune pagine del tuo sito contengano informazioni riservate o che si trovino ancora in costruzione o in fase di test.

Il file robots.txt è un semplicissimo file di testo che, nella sua forma ideale, bisognerebbe caricare all’interno della document root del sito, ovvero la directory in cui corrispondono i file del nostro sito e che fornisce indicazioni agli spider sui contenuti da scansionare, al fine di indicizzarli all’interno dei propri indici.

Il campo user-agent serve a definire quale robot dovrà essere escluso, il campo disallow invece definisce da quale zona del sito escluderlo. Tipicamente i due campi sono composti in questo modo e separati da un invio:

User-Agent: Googlebot-Image
Disallow: /

In questo esempio il file robots.txt escluderà dalla visita dell’intero sito, il “/” identifica la radice del sito e dunque la sua interezza, lo user-agent Googlebot-Image, quindi lo spider di Google che indicizza le immagini.

Il file robots.txt accetta anche il parametro di commento identificato dal simbolo #, tutto ciò che seguirà il cancelletto sarà interpretato dallo user-agent come un commento e dunque ignorato.

# Escludo dall'intero sito advautomobili, aggiunto il 25/12/2011
User-agent: googlebot
Disallow: /automobili.html
Disallow: /berlina/

Questo record dice a googlebot, il nome dello spider di Google, che non gli è permesso prelevare il file automobilili.html ne accedere alla directory berlina e ai suoi contenuti sottodirectory comprese. Notate come il nome del file è preceduto da un carattere / che indica la directory principale del sito e come il nome della directory fa uso di un carattere / anche in coda.

I due campi sono preceduti da un commento in cui potete inserire, ad esempio, la data di scrittura dell’esclusione per utilizzarla a fini statistici.

Il file robots.txt andrà poi inserito nella radice del sito, nella stessa posizione in cui compare la index dell’homepage, e dovrà dunque essere visibile digitando http://www.nomesito.it/robots.txt.

Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le indicazioni del file robots.txt, la maggior parte dei motori di ricerca sebbene non tutti, ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno.

Il campo User-agent può contenere un asterisco “*”, sinonimo di qualunque spider, per cui l’esempio seguente dice a tutti gli spider di non prelevare il file automobili.html:

User-agent: *
Disallow: /automobili.html

Quest’altro esempio invece dice che non ci sono file di cui si vuole impedire il prelievo e che quindi sono tutti accessibili:

User-agent: *
Disallow:
2017-02-05T11:50:54+01:00