Il file robots.txt è un importante strumento che consente ai crawler, i bot dei motori di ricerca, di ricevere le corrette informazioni su quali pagine debbano scansionare e quali invece debbano trascurare. In questo modo possiamo scegliere quali risorse il bot dovrà scansionare senza dispersione e, di conseguenza, ottimizzare il lavoro dei motori di ricerca. Per tale motivo è importantissimo conoscere la corretta sintassi e quando inserire il robots.txt. In questo articolo facciamo un breve vademecum sull’utilizzo e la sua importanza.
Creare un sito, in apparenza, sembra una cosa molto semplice, ma se vuoi che sia un sito effettivamente funzionale ed efficace devi porre l’attenzione su diversi aspetti. Uno di quelli tra i più tecnici è quello dell’inserimento e dell’utilizzo del file robots.txt, un elemento che non è di certo trascurabile. Qui vediamo di cosa si tratta e come, un bravo consulente SEO, può sfruttarlo.
Che cosa è il robots.txt?
In parole molto semplici, il robots.txt è un file di testo che contiene delle direttive per i motori di ricerca e che indica a questi quali parti del nostro sito possono essere scansionate e quali no. Va inserito nella cartella root, ovvero radice, del sito web e per i motori di ricerca è, appunto, un’informazione utilissima.
Inserendo il robots.txt, darai le giuste direttive ai motori di ricerca che così potranno limitare le attività di scansione dei crawler (i bot che scansionano le pagine). Non è necessario che tutti i crawler debbano seguire tali indicazioni e in ogni circostanza. Infatti, tali comandi, devono essere visti più come delle linee guida per accedere ai siti e non è detto che tutti i crawler, a parte Googlebot e altri crawler affidabili, le seguano.
A cosa serve inserire i robots.txt
Anche se non è indispensabile inserire il file robots.txt, questo ha un ruolo importante nell’ottimizzazione SEO, di conseguenza, anche nelle attività di link building. Abbiamo detto che indica ai crawler come poter eseguire la scansione di un sito, ma più nello specifico diciamo che possiamo indicare ai bot, o ad alcuni di essi, a quali parti del nostro sito accedere.
Facciamo un esempio pratico. Mettiamo di avere necessità di limitare l’accesso a una determinata risorsa ai crawler, come per esempio una cartella con dei file che non devono essere pubblici e che quindi vuoi escludere dalla scansione perché vuoi riservarli a chi compie una determinata azione, come per esempio a chi si iscrive alla newsletter.
In questo caso dovrai impostare il robots.txt in modo tale che quella sezione del tuo sito non venga “visitata” dai bot.
Come si utilizza il robots.txt
Per creare un file robots.txt occorre seguire una determinata sintassi per creare i comandi necessari. Per cominciare si apre un file .txt vuoto e si scrivono i comandi che vogliamo siano presi in considerazione dai crawler. Se per esempio vogliamo che nessun motore di ricerca esegua la scansione di una determinata risorsa, basterà scrivere:
User-agent: *
Disallow: /risorsa da escludere/
User agent è il bot preso in considerazione, se metti l’asterisco stai escludendo tutti i crawler da quella determinata risorsa. Disallow si utilizza, infatti, proprio per segnalare che l’accesso non è consentito. Per ogni risorsa che vogliamo escludere dalla scansione dobbiamo inserire la dicitura appena illustrata.
Se invece scriviamo:
User-agent: googlebot
Disallow: /
stiamo escludendo dalla scansione solamente i bot di Google. Ci sono dei tool che consentono di generare robots.txt, ma il consiglio, anche se non si tratta di un’operazione particolarmente complessa, è quella di rivolgersi a un bravo consulente SEO o web master.
Come utilizzare il robots.txt per il proprio sito
Prima di vedere come ottimizzare il file robots.txt, dobbiamo avere chiaro che commettere un errore sulla sua configurazione potrebbe avere un impatto negativo su tutto il lavoro SEO fatto a monte.
Non inserire, laddove necessario, questo file, infatti, comporta che i crawler che scansionano il sito assumano che questo sia tutto scansionabile, quindi che tutte le pagine vadano scansionate e indicizzate.
Se tutta la sintassi non è scritta correttamente, il bot darà una sua interpretazione. Di contro, inibire ai crawler tutte le pagine, significherebbe non fare esistere il sito agli occhi del motore di ricerca, e non è certo questo il tuo obiettivo.
Detto questo, per capire quanto utile possa essere, immagina di avere un sito molto grande, senza l’inserimento delle indicazioni mediante file robots.txt, i crawler avranno un’ingente mole di lavoro e la cosa potrebbe avere un impatto negativo nelle prestazioni del sito.
Magari verranno scansionate pagine poco rilevanti, a scapito di quelle che davvero contano, dato che il processo di scansione per ogni sito ha dei limiti di consumo di risorse.
In sunto, il consiglio è quello di programmare prima l’eventuale utilizzo dei file robots.txt e di verificarne correttezza ed efficacia mediante appositi tool al fine di rendere ancora più efficace l’ottimizzazione del tuo sito.