L’importanza di un file robots.txt

TheMummichogblog è un partecipante al Amazon Services LLC Associates programma, un programma di affiliazione pubblicitario progettato per fornire un mezzo per siti per guadagnare tariffe pubblicitarie con la pubblicità e il link al amazon.com. Amazon, il logo di Amazon, AmazonSupply, e il logo AmazonSupply sono marchi di Amazon.com, Inc. o delle sue affiliate.

L’importanza di un file robots.txt

È un file robots.txt impedisce il vostro sito dalla scansione correttamente? Scopri come funzionano e come fare uno voi stessi in modo che il vostro sito appare nei risultati di ricerca.

Potreste essere sorpresi di apprendere che un file di testo di piccole dimensioni, noto come robots.txt, potrebbe essere la rovina del tuo sito web.

Se lo si utilizza in modo non corretto si potrebbe finire dicendo robot dei motori di ricerca non di scansione del tuo intero sito web, il che significa che non verrà visualizzato nei risultati di ricerca. Pertanto, è importante capire la funzione di un file robots.txt, come controllare e come implementare in modo corretto.

robots.txt
Andiamo digitale, digitale!
Che cosa è robots.txt?
Un file robots.txt dice robot web, noto anche come crawler, le pagine o file il proprietario del dominio non li vuole ‘crawl’. Motori di ricerca visitano il tuo sito web e l’indice poi (Salva) tue pagine web e file prima di messa in vendita nelle pagine dei risultati dei motori di ricerca.

Se non si desidera che alcune pagine o file per essere incluso da Google e altri motori di ricerca, è necessario bloccarli utilizzando il file robots.txt.

È possibile controllare se il vostro sito ha un file robots.txt aggiungendo /robots.txt immediatamente dopo il nome del dominio nella barra degli indirizzi in alto:

22-05-2014 13-30-20
L’URL inserito deve avere il formato di una [domain.com/robots.txt] o [subdomain.domain.com/robots.txt] per i sottodomini.

Come funziona?
Prima di un motore di ricerca scansione del tuo sito web, guarda il tuo file robots.txt per le istruzioni su quali pagine sono autorizzati a scansione e l’indicizzazione nei motori di ricerca.

file robots.txt sono utili se si desidera che i motori di ricerca di non indicizzare:

pagine duplicate o rotti sul tuo sito web
risultati di ricerca interno pagine
Alcune aree del tuo sito web o un intero dominio
Alcuni file sul vostro sito web, ad esempio immagini e PDF
pagine di login
Messa in scena siti web per gli sviluppatori
Il tuo sitemap XML
Utilizzo di file robots.txt consente di eliminare le pagine che non aggiungono valore, quindi i motori di ricerca si concentrano solo sugli strisciare il maggior numero di pagine importanti, invece. I motori di ricerca hanno un “budget crawl” limitato e può strisciare solo una certa quantità di pagine al giorno, così si vuole dare loro le migliori possibilità di trovare le pagine velocemente bloccando tutti gli URL irrilevanti.

È anche possibile implementare un ritardo crawl, che racconta i robot ad attendere qualche secondo prima di strisciare alcune pagine, in modo da non sovraccaricare il server. Attenzione che Googlebot non riconosce questo comando, così invece di ottimizzare il budget crawl, invece, per una soluzione più robusta ea prova di futuro.

Come creare un file robots.txt
Se al momento non si dispone di un file robots.txt, è consigliabile creare un più breve tempo possibile. Per fare ciò, è necessario:

Creare un nuovo file di testo e il nome “robots.txt” – Utilizzare un editor di testo come il programma blocco note su PC Windows o TextEdit per Mac e poi “Salva con nome”, un file di testo delimitato, assicurando che l’estensione del file è chiamato “.txt”
Caricarlo nella directory principale del tuo sito web – Questo è di solito una cartella di livello principale denominata “htdocs” o “www” che rende direttamente dopo il nome del dominio
Creare un file robots.txt per ogni sotto-dominio – Solo se si utilizzano sottodomini
Test – Controllare il file robots.txt inserendo yourdomain.com/robots.txt nella barra degli indirizzi del browser
Che cosa includere nel file robots.txt
Ci sono spesso disaccordi su ciò che dovrebbe e non dovrebbe essere messo in file robots.txt.
Crawlers
Robots.txt non ha lo scopo di nascondere le pagine sicure per il vostro sito web, quindi la posizione di qualsiasi amministratore o pagine private sul vostro sito non deve essere incluso nel file robots.txt in quanto, di fatto, mette in evidenza la loro posizione ad altri. Se si desidera impedire in modo sicuro i robot di accedere a qualsiasi contenuto privato sul vostro sito web, allora avete bisogno di proteggere con password l’area in cui sono memorizzati.

Promemoria: Il file robots.txt è progettato per agire solo come guida per i robot web e non tutti li rispettare le vostre istruzioni.

Esempi di robots.txt
Diamo un’occhiata a diversi esempi di come si può decidere di utilizzare il file robots.txt. Si noti che è possibile aggiungere commenti al file procedendo una linea con un hashtag (#).

Lasciare tutto e inviare la mappa del sito – Questa è l’opzione migliore per la maggior parte dei siti web, perché consente a tutti i motori di ricerca a pieno scansione del sito e indicizzare tutti i suoi dati. Essa mostra anche i motori di ricerca in cui la sitemap XML è situato in modo che possano trovare nuove pagine molto velocemente in quanto controlla la mappa del sito per le modifiche regolarmente:

User-agent: *

Permettere: /
#Sitemap Riferimento
Mappa del sito: http: //www.example.com/sitemap.xml

Lasciare tutto tranne una sotto-directory – A volte si può avere uno spazio sul tuo sito web che non si desidera motori di ricerca per mostrare nei risultati dei motori di ricerca. Questo potrebbe essere una zona di checkout, file di immagini sensibili, una parte irrilevante di un forum o una sezione per adulti di un sito web, ad esempio, come illustrato di seguito. Qualsiasi URL compreso il percorso non consentito sarà escluso dai motori di ricerca:

User-agent: *
Permettere: /

# non consentito sottodirectory
Non consentire: / checkout /
Disallow: / secret-sito-images /
Disallow: / forum / off-topic-random-Chat /
Disallow: / per soli adulti chat /

Lasciare tutto tranne alcuni file – A volte può essere utile per mostrare i media sul tuo sito web o fornire documenti, ma non si desidera vengano visualizzati nei risultati di ricerca di immagini, anteprime di social network o elenchi dei motori di ricerca del documento. I file si potrebbe desiderare di blocco potrebbero essere eventuali GIF animate, manuali di istruzioni in formato PDF o qualsiasi file PHP ad esempio riportati di seguito:

Amazon e il logo di Amazon sono marchi di Amazon.com, Inc., o delle sue affiliate.