Categories
Uncategorized

L’importanza di un file robots.txt

TheMummichogblog è un partecipante al Amazon Services LLC Associates programma, un programma di affiliazione pubblicitario progettato per fornire un mezzo per siti per guadagnare tariffe pubblicitarie con la pubblicità e il link al amazon.com. Amazon, il logo di Amazon, AmazonSupply, e il logo AmazonSupply sono marchi di Amazon.com, Inc. o delle sue affiliate.

--------------------------------------------------------------------------------------------------
Booking.com
In conclusione, fratelli, tutto quello che è vero, nobile, giusto, puro, amabile, onorato, quello che è virtù e merita lode, tutto questo sia oggetto dei vostri pensieri.
----------------------------------------------------------------------------------------------

L’importanza di un file robots.txt

È un file robots.txt impedisce il vostro sito dalla scansione correttamente? Scopri come funzionano e come fare uno voi stessi in modo che il vostro sito appare nei risultati di ricerca.

Potreste essere sorpresi di apprendere che un file di testo di piccole dimensioni, noto come robots.txt, potrebbe essere la rovina del tuo sito web.

Se lo si utilizza in modo non corretto si potrebbe finire dicendo robot dei motori di ricerca non di scansione del tuo intero sito web, il che significa che non verrà visualizzato nei risultati di ricerca. Pertanto, è importante capire la funzione di un file robots.txt, come controllare e come implementare in modo corretto.

robots.txt
Andiamo digitale, digitale!
Che cosa è robots.txt?
Un file robots.txt dice robot web, noto anche come crawler, le pagine o file il proprietario del dominio non li vuole ‘crawl’. Motori di ricerca visitano il tuo sito web e l’indice poi (Salva) tue pagine web e file prima di messa in vendita nelle pagine dei risultati dei motori di ricerca.

Se non si desidera che alcune pagine o file per essere incluso da Google e altri motori di ricerca, è necessario bloccarli utilizzando il file robots.txt.

È possibile controllare se il vostro sito ha un file robots.txt aggiungendo /robots.txt immediatamente dopo il nome del dominio nella barra degli indirizzi in alto:

22-05-2014 13-30-20
L’URL inserito deve avere il formato di una [domain.com/robots.txt] o [subdomain.domain.com/robots.txt] per i sottodomini.

Come funziona?
Prima di un motore di ricerca scansione del tuo sito web, guarda il tuo file robots.txt per le istruzioni su quali pagine sono autorizzati a scansione e l’indicizzazione nei motori di ricerca.

file robots.txt sono utili se si desidera che i motori di ricerca di non indicizzare:

pagine duplicate o rotti sul tuo sito web
risultati di ricerca interno pagine
Alcune aree del tuo sito web o un intero dominio
Alcuni file sul vostro sito web, ad esempio immagini e PDF
pagine di login
Messa in scena siti web per gli sviluppatori
Il tuo sitemap XML
Utilizzo di file robots.txt consente di eliminare le pagine che non aggiungono valore, quindi i motori di ricerca si concentrano solo sugli strisciare il maggior numero di pagine importanti, invece. I motori di ricerca hanno un “budget crawl” limitato e può strisciare solo una certa quantità di pagine al giorno, così si vuole dare loro le migliori possibilità di trovare le pagine velocemente bloccando tutti gli URL irrilevanti.

È anche possibile implementare un ritardo crawl, che racconta i robot ad attendere qualche secondo prima di strisciare alcune pagine, in modo da non sovraccaricare il server. Attenzione che Googlebot non riconosce questo comando, così invece di ottimizzare il budget crawl, invece, per una soluzione più robusta ea prova di futuro.

Come creare un file robots.txt
Se al momento non si dispone di un file robots.txt, è consigliabile creare un più breve tempo possibile. Per fare ciò, è necessario:

Creare un nuovo file di testo e il nome “robots.txt” – Utilizzare un editor di testo come il programma blocco note su PC Windows o TextEdit per Mac e poi “Salva con nome”, un file di testo delimitato, assicurando che l’estensione del file è chiamato “.txt”
Caricarlo nella directory principale del tuo sito web – Questo è di solito una cartella di livello principale denominata “htdocs” o “www” che rende direttamente dopo il nome del dominio
Creare un file robots.txt per ogni sotto-dominio – Solo se si utilizzano sottodomini
Test – Controllare il file robots.txt inserendo yourdomain.com/robots.txt nella barra degli indirizzi del browser
Che cosa includere nel file robots.txt
Ci sono spesso disaccordi su ciò che dovrebbe e non dovrebbe essere messo in file robots.txt.
Crawlers
Robots.txt non ha lo scopo di nascondere le pagine sicure per il vostro sito web, quindi la posizione di qualsiasi amministratore o pagine private sul vostro sito non deve essere incluso nel file robots.txt in quanto, di fatto, mette in evidenza la loro posizione ad altri. Se si desidera impedire in modo sicuro i robot di accedere a qualsiasi contenuto privato sul vostro sito web, allora avete bisogno di proteggere con password l’area in cui sono memorizzati.

Promemoria: Il file robots.txt è progettato per agire solo come guida per i robot web e non tutti li rispettare le vostre istruzioni.

Esempi di robots.txt
Diamo un’occhiata a diversi esempi di come si può decidere di utilizzare il file robots.txt. Si noti che è possibile aggiungere commenti al file procedendo una linea con un hashtag (#).

Lasciare tutto e inviare la mappa del sito – Questa è l’opzione migliore per la maggior parte dei siti web, perché consente a tutti i motori di ricerca a pieno scansione del sito e indicizzare tutti i suoi dati. Essa mostra anche i motori di ricerca in cui la sitemap XML è situato in modo che possano trovare nuove pagine molto velocemente in quanto controlla la mappa del sito per le modifiche regolarmente:

User-agent: *

Permettere: /
#Sitemap Riferimento
Mappa del sito: http: //www.example.com/sitemap.xml

Lasciare tutto tranne una sotto-directory – A volte si può avere uno spazio sul tuo sito web che non si desidera motori di ricerca per mostrare nei risultati dei motori di ricerca. Questo potrebbe essere una zona di checkout, file di immagini sensibili, una parte irrilevante di un forum o una sezione per adulti di un sito web, ad esempio, come illustrato di seguito. Qualsiasi URL compreso il percorso non consentito sarà escluso dai motori di ricerca:

User-agent: *
Permettere: /

# non consentito sottodirectory
Non consentire: / checkout /
Disallow: / secret-sito-images /
Disallow: / forum / off-topic-random-Chat /
Disallow: / per soli adulti chat /

Lasciare tutto tranne alcuni file – A volte può essere utile per mostrare i media sul tuo sito web o fornire documenti, ma non si desidera vengano visualizzati nei risultati di ricerca di immagini, anteprime di social network o elenchi dei motori di ricerca del documento. I file si potrebbe desiderare di blocco potrebbero essere eventuali GIF animate, manuali di istruzioni in formato PDF o qualsiasi file PHP ad esempio riportati di seguito:

User-agent: *
Permettere: /

# Tipi di file non consentiti
Disallow: /*.gif$
Disallow: /*.pdf$
Disallow: /*.PDF$
Disallow: /*.php$

Lasciare tutto tranne alcune pagine web – Alcune pagine web del tuo sito web potrebbero non essere adatti a mostrare nei risultati dei motori di ricerca e si può bloccare questi singole pagine, nonché utilizzando il file robots.txt. Le pagine web che si potrebbe desiderare di blocco potrebbero essere i termini e le condizioni di pagina, ogni pagina che si desidera rimuovere rapidamente per motivi legali, o di una pagina con le informazioni sensibili che non si vuole essere ricercabile. Ricorda che le persone possono ancora leggere le pagine a cui è negato per file robot.txt, anche se non si sta dirigendo loro ci dai motori di ricerca. Inoltre, le pagine saranno ancora visti da alcuni bot crawler scrupolose:

User-agent: *
Permettere: /

# Pagine Web non consentito
Disallow: /hidden-evil-contract-terms.html
Disallow: / blog / how-to-blow-up-the-moon
Disallow: /secret-list-of-bounty-hunters.php

Lasciare tutto tranne alcuni modelli di URL – Infine, si può avere un modello di imbarazzante di URL che si potrebbe desiderare di non consentire che possono duplicare il contenuto o essere di alcuna utilità all’interno di qualsiasi elenchi dei motori di ricerca. Esempi di modelli di URL si potrebbe desiderare di blocco potrebbero essere pagine interne dei risultati di ricerca, avanzi di pagine di prova dallo sviluppo o successive pagine dopo la prima pagina di una pagina di categoria eCommerce (vedere più in canonica):

User-agent: *
Permettere: /

# Patterns Non consentito URL
Disallow: / * search =
Disallow: /*_test.php$
Non consentire: / * * = pageNumber

Mettere tutto insieme
Chiaramente, si potrebbe desiderare di utilizzare una combinazione di questi metodi per bloccare diverse aree del tuo sito web. Le cose principali da ricordare sono:

Se si disabilitano una sottodirectory poi saranno consentiti qualsiasi file, sub-directory o pagina web all’interno di quel modello URL
Il simbolo asterisco (*) sostituisce qualsiasi carattere o il numero di caratteri
Il simbolo del dollaro ($) significa la fine dell’URL, senza l’utilizzo di questo per bloccare le estensioni dei file è possibile bloccare un numero enorme di URL per caso
Gli URL sono case sensitive abbinato in modo da avere a mettere in entrambi i tappi e le versioni non-cap per catturare tutta
Si può prendere i motori di ricerca diversi giorni per un paio di settimane per notare un URL non consentito e rimuoverlo dal loro indice
L’impostazione “User-agent” consente di bloccare determinati bot cingolati o trattarli in modo diverso, se necessario, un elenco completo di bot user agent può essere trovato qui per sostituire il catch-all simbolo asterisco (*).
Se siete ancora perplesso o preoccupati per la creazione del file robot.txt allora Google ha uno strumento di test a portata di mano all’interno di Search Console. È sufficiente accedere a Search Console (una volta messa a punto) e semplicemente selezionare il sito dall’elenco e Google restituirà le note per voi e per evidenziare eventuali errori.

Metti alla prova il tuo file robots.txt utilizzando Google robots.txt
Google ha messo insieme un ‘pesce’ cercando panoramica di ciò che è bloccata e ciò che non è bloccato sulla loro pagina di file robots.txt di approfondimento:

22-05-2014 15-15-25

Quello di non includere nel file robots.txt (solo se necessario)
Di tanto in tanto, un sito web ha un file robots.txt che include il seguente comando:

User-agent: *
Disallow: /

Questo sta dicendo tutti i bot di ignorare il dominio TUTTO, ciò significa che nessun pagine web o file sarebbero essere incluso affatto dai motori di ricerca!

Le suddette esempio evidenzia l’importanza di attuare correttamente un file robots.txt, in modo da essere sicuri di controllare il vostro da assicurarsi che non stai inconsapevolmente limitando le possibilità di essere indicizzato dai motori di ricerca.

Nota: Mentre lo sviluppo di siti web potrebbe essere necessario bloccare l’intera area di sviluppo utilizzando questa tecnica. Basta essere sicuri di non copiare il file robots.txt disallow su quando tutto va in diretta!

Testare il file robots.txt
È possibile verificare il file robots.txt per assicurarsi che funziona come ci si aspetta che – è una buona idea per fare questo anche se si pensa che è tutto corretto.

Inserisci Google Search Console (una volta messa a punto) e passare al rapporto di copertura sul mano-lato di sinistra che vi mostrerà avvertimenti attuali, gli errori e altre informazioni sulle pagine bloccate sul sito web nella scheda “Esclusi”:

Cosa succede se non avete file robots.txt?
Senza un file robots.txt motori di ricerca avranno una corsa libera a scansione e l’indicizzazione tutto ciò che trovano sul sito. Questo va bene per la maggior parte dei siti web, ma anche allora è buona norma almeno punto dove si trova la tua sitemap XML in modo motori di ricerca possono trovare rapidamente nuovi contenuti sul tuo sito web, ottimizzando il loro budget crawl – per saperne di più su questo argomento.

Bonus Fact
Il protocollo robots.txt è stato originariamente proposto dal leggendario Martijn Koster che ha creato il primo motore di ricerca al mondo, ALIWEB:

Copyright – Web Design Museum

The importance of a robots.txt file

Amazon e il logo di Amazon sono marchi di Amazon.com, Inc., o delle sue affiliate.