Come configurare smartphone e PC. Portale informativo

File txt del robot corretto. Robot Yandex

Ogni blog dà la sua risposta a questo. Pertanto, i nuovi arrivati ​​​​alla promozione della ricerca sono spesso confusi, in questo modo:

Che tipo di robot ti ex ti?

File robots.txt o file di indice- un documento di testo semplice con codifica UTF-8, valido per i protocolli http, https e FTP. Il file fornisce consigli sui robot di ricerca: quali pagine/file devono essere sottoposti a scansione. Se il file contiene caratteri non in UTF-8, ma con una codifica diversa, i robot di ricerca potrebbero non elaborarli correttamente. Le regole elencate nel file robots.txt sono valide solo per l'host, il protocollo e il numero di porta in cui si trova il file.

Il file deve trovarsi nella directory principale come documento di testo normale ed essere disponibile all'indirizzo: https://site.com.ua/robots.txt.

In altri file, è consuetudine contrassegnare BOM (Byte Order Mark). Questo è un carattere Unicode utilizzato per determinare la sequenza in byte durante la lettura delle informazioni. Il suo codice simbolo è U+FEFF. All'inizio del file robots.txt, il contrassegno della sequenza di byte viene ignorato.

Google ha fissato un limite alla dimensione del file robots.txt: non dovrebbe pesare più di 500 KB.

Ok, se sei interessato ai dettagli tecnici, il file robots.txt è una descrizione del modulo Backus-Naur (BNF). Questo utilizza le regole della RFC 822 .

Durante l'elaborazione delle regole nel file robots.txt, i robot di ricerca ricevono una delle tre istruzioni seguenti:

  • accesso parziale: è disponibile la scansione dei singoli elementi del sito;
  • accesso completo: puoi scansionare tutto;
  • divieto completo: il robot non può scansionare nulla.

Durante la scansione del file robots.txt, i robot ricevono le seguenti risposte:

  • 2xx- la scansione è riuscita;
  • 3xx- il crawler segue il reindirizzamento finché non riceve un'altra risposta. Molto spesso ci sono cinque tentativi per il robot di ottenere una risposta diversa dalla risposta 3xx, quindi viene registrato un errore 404;
  • 4xx- il robot di ricerca ritiene che sia possibile eseguire la scansione di tutto il contenuto del sito;
  • 5xx- vengono valutati come errori temporanei del server, la scansione è completamente disabilitata. Il robot accederà al file fino a quando non riceverà un'altra risposta. Il robot di ricerca di Google può determinare se è configurato correttamente o in modo errato per restituire risposte alle pagine mancanti del sito, ovvero se invece di un errore 404 la pagina restituisce una risposta 5xx , in questo caso la pagina verrà elaborata con codice di risposta 404.

Non è ancora noto come venga elaborato il file robots.txt, che non è disponibile a causa di problemi del server con l'accesso a Internet.

Perché hai bisogno di un file robots.txt

Ad esempio, a volte i robot non dovrebbero visitare:

  • pagine con informazioni personali degli utenti del sito;
  • pagine con varie forme di invio di informazioni;
  • siti mirror;
  • pagine dei risultati di ricerca.

Importante: anche se la pagina è nel file robots.txt, c'è la possibilità che appaia nei risultati della ricerca se è stato trovato un collegamento ad essa all'interno del sito o da qualche parte su una risorsa esterna.

Ecco come i robot dei motori di ricerca vedono un sito con e senza un file robots.txt:

Senza robots.txt, le informazioni che dovrebbero essere nascoste da occhi indiscreti possono entrare nei risultati di ricerca e sia tu che il sito ne soffrirai.

Ecco come il robot del motore di ricerca vede il file robots.txt:

Google ha trovato il file robots.txt sul sito e ha trovato le regole in base alle quali eseguire la scansione delle pagine del sito

Come creare un file robots.txt

Con Blocco note, Blocco note, Sublime o qualsiasi altro editor di testo.

User-agent - biglietto da visita per robot

User-agent: una regola su quali robot devono vedere le istruzioni descritte nel file robots.txt. Al momento sono noti 302 robot di ricerca

Dice che specifichiamo le regole in robots.txt per tutti i robot di ricerca.

Per Google, il robot principale è Googlebot. Se vogliamo tener conto solo di esso, la voce nel file sarà così:

In questo caso, tutti gli altri robot eseguiranno la scansione del contenuto in base alle loro direttive per elaborare un file robots.txt vuoto.

Per Yandex, il robot principale è... Yandex:

Altri robot speciali:

  • Novità su Googlebot- per cercare notizie;
  • Mediapartner-Google- per il servizio AdSense;
  • AdsBot-Google— per verificare la qualità della landing page;
  • Yandex Immagini— Yandex.Pictures indicizzatore;
  • Immagine di Googlebot- per le immagini;
  • Yandex Metrika— Robot Yandex.Metrica;
  • Yandex Media- un robot che indicizza i dati multimediali;
  • YaDirectFetcher— Robot Yandex.Direct;
  • Video di Googlebot- per video;
  • Googlebot mobile- per versione mobile;
  • YandexDirectDyn— robot di generazione banner dinamico;
  • YandexBlog- un robot di ricerca blog che indicizza post e commenti;
  • Mercato Yandex— Robot Yandex.Market;
  • Yandex News— Robot Yandex.News;
  • Yandex Direct— scarica le informazioni sui contenuti dei siti partner della rete pubblicitaria al fine di chiarirne l'oggetto per la selezione della pubblicità pertinente;
  • YandexPagechecker— validatore di microdati;
  • Calendario Yandex— Robot Yandex.Calendar.

Disallow: posizioniamo "mattoni"

Dovrebbe essere utilizzato se il sito è in fase di miglioramento e non si desidera che appaia nei risultati di ricerca nel suo stato attuale.

È importante rimuovere questa regola non appena il sito è pronto per essere visualizzato dagli utenti. Sfortunatamente, questo viene dimenticato da molti webmaster.

Esempio. Come scrivere una regola Disallow per consigliare ai robot di non visualizzare il contenuto di una cartella /cartella/:

Questa riga impedisce l'indicizzazione di tutti i file con estensione .gif

Consenti - robot diretti

Consenti consente di scansionare qualsiasi file/direttiva/pagina. Diciamo che è necessario che i robot possano visualizzare solo le pagine che iniziano con /catalog e chiudere tutti gli altri contenuti. In questo caso, è prescritta la seguente combinazione:

Le regole Consenti e Non consentire vengono ordinate in base alla lunghezza del prefisso URL (dal più basso al più lungo) e applicate in sequenza. Se più di una regola corrisponde a una pagina, il robot seleziona l'ultima regola nell'elenco ordinato.

Host: scegli un mirror del sito

L'host è una delle regole obbligatorie per robots.txt; indica al robot Yandex quale dei mirror del sito deve essere preso in considerazione per l'indicizzazione.

Mirror del sito: una copia esatta o quasi esatta del sito, disponibile a diversi indirizzi.

Il robot non si confonderà quando troverà i mirror del sito e capirà che il mirror principale è specificato nel file robots.txt. L'indirizzo del sito viene specificato senza il prefisso "http://", ma se il sito funziona su HTTPS, è necessario specificare il prefisso "https://".

Come scrivere questa regola:

Un esempio di file robots.txt se il sito funziona sul protocollo HTTPS:

Mappa del sito - mappa del sito medico

Sitemap indica ai robot che tutti gli URL dei siti necessari per l'indicizzazione si trovano in http://site.ua/sitemap.xml. Ad ogni scansione, il robot esaminerà le modifiche apportate a questo file e aggiornerà rapidamente le informazioni sul sito nei database dei motori di ricerca.

Crawl-delay: cronometro per server deboli

Crawl-delay - un parametro con il quale è possibile impostare il periodo dopo il quale verranno caricate le pagine del sito. Questa regola è rilevante se hai un server debole. In questo caso, sono possibili grandi ritardi quando i robot di ricerca accedono alle pagine del sito. Questo parametro è misurato in secondi.

Clean-param: cacciatore di contenuti duplicati

Clean-param aiuta a gestire i parametri get per evitare contenuti duplicati che potrebbero essere disponibili in URL dinamici diversi (con punti interrogativi). Tali indirizzi vengono visualizzati se il sito ha ordinamenti, ID di sessione e così via diversi.

Diciamo che la pagina è disponibile agli indirizzi:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

In questo caso, il file robots.txt sarà simile al seguente:

Qui rif indica da dove proviene il collegamento, quindi è scritto all'inizio e solo dopo viene indicato il resto dell'indirizzo.

Ma prima di passare al file di riferimento, ci sono alcuni altri segni che devi conoscere quando scrivi un file robots.txt.

Simboli in robots.txt

I caratteri principali del file sono "/, *, $, #".

attraverso barra "/" mostriamo cosa vogliamo nascondere al rilevamento dei robot. Ad esempio, se è presente una barra nella regola Disallow, vietiamo la scansione dell'intero sito. Con l'aiuto di due barre, puoi disabilitare la scansione di qualsiasi directory particolare, ad esempio: /catalog/.

Tale voce dice che vietiamo la scansione dell'intero contenuto della cartella del catalogo, ma se scriviamo /catalog, vietiamo tutti i collegamenti sul sito che iniziano con /catalog.

Asterisco "*" indica qualsiasi sequenza di caratteri in un file. Viene posizionato dopo ogni regola.

Questa voce dice che tutti i robot non devono indicizzare alcun file .gif nella cartella /catalog/

simbolo del dollaro «$» limita la portata del segno di asterisco. Se si desidera impedire l'intero contenuto della cartella del catalogo, ma non è possibile disattivare gli URL che contengono /catalog, la voce nel file di indice sarebbe:

Cancella "#" utilizzato per i commenti che il webmaster lascia per sé o per altri webmaster. Il robot non li terrà in considerazione durante la scansione del sito.

Per esempio:

Che aspetto ha il file robots.txt ideale?

Il file apre il contenuto del sito per l'indicizzazione, l'host viene registrato e viene specificata la mappa del sito, che consentirà ai motori di ricerca di vedere sempre gli indirizzi da indicizzare. Le regole per Yandex sono scritte separatamente, poiché non tutti i robot comprendono l'istruzione Host.

Ma non affrettarti a copiare il contenuto del file su te stesso: è necessario scrivere regole univoche per ogni sito, che dipende dal tipo di sito e CMS. pertanto, vale la pena ricordare tutte le regole durante la compilazione del file robots.txt.

Come controllare il file robots.txt

Se vuoi sapere se hai compilato correttamente il file robots.txt, controllalo negli strumenti per i webmaster Google e Yandex. Basta inserire il codice sorgente del file robots.txt nel form al link e specificare il sito da controllare.

Come non compilare il file robots.txt

Spesso vengono commessi errori fastidiosi durante la compilazione del file di indice e sono associati alla normale disattenzione o fretta. Un po' più in basso c'è un grafico degli errori che ho incontrato nella pratica.

2. Scrivere più cartelle/directory in un'unica istruzione Disallow:

Una voce del genere può confondere i robot di ricerca, potrebbero non capire cosa esattamente non dovrebbero indicizzare: la prima cartella o l'ultima, quindi è necessario scrivere ciascuna regola separatamente.

3. È necessario richiamare il file stesso solo robots.txt, non Robots.txt, ROBOTS.TXT o altro.

4. Non è possibile lasciare vuota la regola User-agent: è necessario indicare quale robot deve tenere conto delle regole specificate nel file.

5. Caratteri aggiuntivi nel file (barre, asterischi).

6. Aggiunta di pagine al file che non dovrebbero essere nell'indice.

Uso non standard di robots.txt

Oltre alle funzioni dirette, un file di indice può diventare una piattaforma per la creatività e un modo per trovare nuovi dipendenti.

Ecco un sito in cui lo stesso robots.txt è un piccolo sito con elementi di lavoro e persino un'unità pubblicitaria.

Come piattaforma per la ricerca di specialisti, il file viene utilizzato principalmente dalle agenzie SEO. E chi altro può sapere della sua esistenza? :)

E Google ha un file speciale umani.txt, in modo da non permettere il pensiero di discriminazioni nei confronti di specialisti della pelle e della carne.

risultati

Con l'aiuto di Robots.txt, puoi impostare istruzioni per i robot di ricerca, pubblicizzare te stesso, il tuo marchio, cercare specialisti. Questo è un ottimo campo di sperimentazione. La cosa principale è ricordare il corretto riempimento del file e gli errori tipici.

Regole, sono direttive, sono anche istruzioni del file robots.txt:

  1. User-agent: una regola su quali robot devono visualizzare le istruzioni descritte in robots.txt.
  2. Disallow fornisce una raccomandazione sul tipo di informazioni da non scansionare.
  3. Sitemap informa i robot che tutti gli URL dei siti necessari per l'indicizzazione si trovano in http://site.ua/sitemap.xml.
  4. L'host dice al robot Yandex quale dei mirror del sito dovrebbe essere preso in considerazione per l'indicizzazione.
  5. Consenti consente di scansionare qualsiasi file/direttiva/pagina.

Segni durante la compilazione di robots.txt:

  1. Il simbolo del dollaro "$" limita l'ambito del segno di asterisco.
  2. Con l'aiuto di una barra "/" indichiamo che vogliamo nasconderci dal rilevamento da parte dei robot.
  3. L'asterisco "*" indica qualsiasi sequenza di caratteri nel file. Viene posizionato dopo ogni regola.
  4. Il segno cancelletto "#" viene utilizzato per indicare i commenti che il webmaster scrive per sé o per altri webmaster.

Usa saggiamente il file indice e il sito sarà sempre nei risultati di ricerca.

Generatore di vendite

Se commetti un errore durante la creazione del file robots.txt, potrebbe essere inutile per i robot di ricerca. Ci sarà il rischio di una trasmissione errata dei comandi necessari ai robot di ricerca, che comporterà una diminuzione della valutazione, un cambiamento negli indicatori utente del sito virtuale. Anche se il sito funziona bene ed è completo, controllare robots.txt non lo danneggerà, ma lo farà solo funzionare meglio.

Da questo articolo imparerai:

Perché controllare robots.txt

A volte il sistema include pagine non necessarie della tua risorsa Internet nei risultati della ricerca, il che non è necessario. Può sembrare che non ci sia nulla di sbagliato in un gran numero di pagine nell'indice dei motori di ricerca, ma non è così:

  • Nelle pagine extra, l'utente non troverà alcuna informazione utile per se stesso. Con un maggior grado di probabilità, non visiterà affatto queste pagine o non vi rimarrà a lungo;
  • I risultati del motore di ricerca contengono le stesse pagine, i cui indirizzi sono diversi (cioè il contenuto è duplicato);
  • I robot di ricerca devono dedicare molto tempo all'indicizzazione di pagine completamente non necessarie. Invece di indicizzare contenuti utili, vagano inutilmente per il sito. Poiché il robot non è in grado di indicizzare l'intera risorsa e lo fa pagina per pagina (dato che ci sono molti siti), le informazioni necessarie che vorresti ricevere dopo aver eseguito la query potrebbero non essere trovate molto rapidamente;
  • Il server è sotto carico pesante.

A tal proposito, si consiglia di chiudere l'accesso ai robot di ricerca ad alcune pagine delle risorse web.

Quali file e cartelle possono essere vietati dall'indicizzazione:

  1. pagine di ricerca. Questo è un punto controverso. A volte è necessario utilizzare una ricerca interna su un sito per generare pagine pertinenti. Ma questo non è sempre fatto. Spesso il risultato della ricerca è la comparsa di un gran numero di pagine duplicate. Pertanto, si consiglia di chiudere le pagine di ricerca per l'indicizzazione.
  2. Carrello e pagina dove viene effettuato/confermato l'ordine. La loro chiusura è consigliata per i siti di trading online e altre risorse commerciali che utilizzano il modulo d'ordine. Inserire queste pagine nell'indice dei motori di ricerca è altamente indesiderabile.
  3. pagine di impaginazione. Di norma, sono caratterizzati dalla prescrizione automatica degli stessi meta tag. Inoltre, vengono utilizzati per posizionare contenuti dinamici, in modo che i duplicati vengano visualizzati nei risultati della ricerca. A questo proposito, l'impaginazione dovrebbe essere chiusa per l'indicizzazione.
  4. Filtri e confronto dei prodotti. Devono essere chiusi da negozi online e siti di cataloghi.
  5. Pagine di registrazione e autorizzazione. Devono essere chiusi a causa della riservatezza dei dati inseriti dagli utenti in fase di registrazione o autorizzazione. L'indisponibilità di queste pagine per l'indicizzazione sarà valutata da Google.
  6. Directory e file di sistema. Ogni risorsa su Internet è costituita da molti dati (script, tabelle CSS, parte amministrativa) che non dovrebbero essere visualizzati dai robot.

Il file robots.txt aiuterà a chiudere file e pagine per l'indicizzazione.

robots.txt è un file di testo normale contenente le istruzioni per i robot di ricerca. Quando il robot di ricerca è sul sito, cerca prima il file robots.txt. Se è mancante (o vuoto), il robot andrà a tutte le pagine e directory della risorsa (comprese quelle di sistema) che sono di pubblico dominio e proverà a indicizzarle. Allo stesso tempo, non vi è alcuna garanzia che la pagina di cui hai bisogno venga indicizzata, poiché potrebbe non raggiungerla.

robots.txt ti permette di indirizzare i robot di ricerca alle pagine necessarie e di non farli entrare in quelle che non dovrebbero essere indicizzate. Il file può istruire entrambi i robot contemporaneamente e ciascuno individualmente. Se la pagina del sito viene chiusa dall'indicizzazione, non apparirà mai nei risultati del motore di ricerca. La creazione di un file robots.txt è essenziale.

La posizione del file robots.txt dovrebbe essere il server, la radice della tua risorsa. Il file robots.txt di qualsiasi sito è disponibile per la visualizzazione sul Web. Per vederlo, devi aggiungere /robots.txt dopo l'indirizzo della risorsa.

Di norma, i file robots.txt di diverse risorse differiscono l'uno dall'altro. Se copi senza pensare il file del sito di qualcun altro, i robot di ricerca avranno problemi a indicizzare il tuo. Pertanto, è così importante sapere a cosa serve il file robots.txt e le istruzioni (direttive) utilizzate per crearlo.


Invia la tua candidatura

Come Yandex controlla robots.txt

  • Un servizio speciale di Yandex.Webmaster "Analysis of robots.txt" ti aiuterà a controllare il file. Puoi trovarlo al link: http://webmaster.yandex.ru/robots.xml
  • Nel modulo proposto, devi inserire il contenuto del file robots.txt, di cui devi verificare la presenza di errori. Ci sono due modi per inserire i dati:
    1. Entra nel sito usando il link http://your-site.ru/robots.txt , copia il contenuto nel campo vuoto del servizio (se non c'è il file robots.txt, devi assolutamente crearlo!);
    2. Inserisci un link al file da controllare nel campo "Nome host", fai clic su "Scarica robots.txt dal sito" o Invio.
  • Il controllo viene avviato premendo il comando "Verifica".
  • Dopo aver avviato il test, è possibile analizzare i risultati.

Dopo l'inizio del controllo, l'analizzatore analizza ogni riga del contenuto del campo "Text robots.txt" e analizza le direttive in esso contenute. Inoltre, saprai se il robot eseguirà la scansione delle pagine dal campo "Elenco di URL".

Puoi creare un file robots.txt adatto alla tua risorsa modificando le regole. Tieni presente che il file di risorse stesso rimane invariato. Affinché le modifiche abbiano effetto, sarà necessario caricare autonomamente la nuova versione del file sul sito.

Quando si controllano le direttive delle sezioni destinate al robot Yandex (User-agent: Yandex o User-agent:*), l'analizzatore è guidato dalle regole per l'utilizzo di robots.txt. Le restanti sezioni sono verificate secondo i requisiti della norma. Quando l'analizzatore analizza il file, visualizza un messaggio sugli errori trovati, avverte se ci sono imprecisioni nella scrittura delle regole, elenca quali parti del file sono destinate al robot Yandex.

Il parser può inviare due tipi di messaggi: errori e avvisi.

Viene visualizzato un messaggio di errore se una qualsiasi riga, sezione o l'intero file non può essere elaborato dal parser a causa della presenza di gravi errori di sintassi commessi durante la compilazione delle direttive.

Di norma, un avviso informa di una deviazione dalle regole che non può essere corretta dall'analizzatore o della presenza di un potenziale problema (potrebbe non esserlo), la cui causa è un errore di battitura accidentale o regole composte in modo impreciso.

Il messaggio di errore "Questo URL non appartiene al tuo dominio" indica che l'elenco di URL contiene l'indirizzo di uno dei mirror della tua risorsa, ad esempio http://example.com invece di http://www.example. com (formalmente, questi URL sono diversi). Gli URL da controllare devono essere correlati al sito il cui file robots.txt viene analizzato.

Come controlla Google robots.txt

Lo strumento Google Search Console ti consente di verificare se il file robots.txt contiene un divieto per Googlebot di eseguire la scansione di determinati URL sulla tua proprietà. Ad esempio, hai un'immagine che non desideri venga visualizzata nei risultati di ricerca di immagini di Google. Lo strumento ti dirà se Googlebot-Image ha accesso a quell'immagine.

Per fare ciò, specifica l'URL di interesse. Successivamente, il file robots.txt viene elaborato dallo strumento di ispezione, in modo simile all'ispezione di Googlebot. Ciò consente di determinare se l'indirizzo è raggiungibile.

Procedura di controllo:

  • Dopo aver selezionato la tua proprietà in Google Search Console, vai allo strumento di verifica, che ti fornirà il contenuto del file robots.txt. Il testo evidenziato è sintassi o errori logici. Il loro numero è indicato sotto la finestra di modifica.
  • Nella parte inferiore della pagina dell'interfaccia, vedrai una finestra speciale in cui devi inserire l'URL.
  • Apparirà un menu sulla destra, da cui è necessario selezionare un robot.
  • Fare clic sul pulsante "Verifica".
  • Se il controllo genera un messaggio con il testo "disponibile", significa che i Googlebot sono autorizzati a visitare la pagina specificata. Lo stato "non disponibile" indica che l'accesso ai robot è chiuso.
  • Se necessario, è possibile modificare il menu ed eseguire un nuovo controllo. Attenzione! Non ci saranno modifiche automatiche al file robots.txt sulla tua risorsa.
  • Copia le modifiche e apportale al file robots.txt sul tuo server web.

A cosa devi prestare attenzione:

  1. Le modifiche apportate nell'editor non vengono salvate sul server web. Dovrai copiare il codice risultante e incollarlo nel file robots.txt.
  2. Solo i programmi utente di Google e i robot correlati a Google (ad esempio Googlebot) possono ricevere i risultati del controllo del file robots.txt da parte dello strumento. Allo stesso tempo, non vi è alcuna garanzia che l'interpretazione del contenuto del tuo file da parte dei robot di altri motori di ricerca sarà simile.

15 errori durante il controllo del file robots.txt

Errore 1. Istruzioni confuse

L'errore più comune nel file robots.txt sono le istruzioni incasinate. Per esempio:

  • agente utente: /
  • Non consentire: Yandex

L'opzione corretta è questa:

  • Agente utente: Yandex
  • non consentire: /

Errore 2: specificare più directory in una singola istruzione Disallow

Spesso i proprietari di risorse Internet cercano di elencare tutte le directory che desiderano disabilitare l'indicizzazione in un'unica istruzione Disallow.

Non consentire: /css/ /cgi-bin/ /immagini/

Tale record non soddisfa i requisiti della norma; è impossibile prevedere come verrà elaborato da diversi robot. Alcuni di loro potrebbero ignorare gli spazi. La loro interpretazione della voce sarebbe "Disallow: /css/cgi-bin/images/". Altri possono utilizzare solo la prima o l'ultima cartella. Altri ancora possono anche scartare l'istruzione senza capirla.

C'è la possibilità che l'elaborazione di questa costruzione sia esattamente come contava il mago, ma è comunque meglio scriverla correttamente:

  • Non consentire: /css/
  • Non consentire: /cgi-bin/
  • Non consentire: /immagini/

Errore 3. Il nome del file contiene lettere maiuscole

Il nome file corretto è robots.txt, non Robots.txt o ROBOTS.TXT.

Errore 4: scrivere il nome del file come robot.txt invece di robots.txt

Ricorda di nominare correttamente il file robots.txt.

Errore 5. Lasciare vuota una stringa in User-agent

Opzione sbagliata:

  • agente utente:
  • Non consentire:
  • User-agent: *
  • Non consentire:

Errore 6. Scrivere l'URL nella direttiva host

L'URL deve essere specificato senza utilizzare l'abbreviazione Hypertext Transfer Protocol (http://) e la barra finale (/).

Inserimento non valido:

Opzione corretta:

L'uso corretto della direttiva host è solo per il robot Yandex.

Errore 7: utilizzo di caratteri jolly in una dichiarazione di non autorizzazione

A volte, per elencare tutti i file file1.html, file2.html, file3.html, ecc., il webmaster potrebbe scrivere:

  • User-agent: *
  • Non consentire: file*.html

Ma questo non può essere fatto, perché alcuni robot non supportano i caratteri jolly.

Errore 8. Usare una riga per scrivere commenti e istruzioni

Lo standard consente voci come questa:

Disallow: /cgi-bin/ #prohibit robot dall'indicizzazione di cgi-bin

In precedenza, l'elaborazione di tali stringhe da parte di alcuni robot era impossibile. Forse nessun motore di ricerca avrà problemi con questo al momento, ma vale la pena rischiare? È meglio inserire i commenti su una riga separata.

Errore 9. Reindirizzamento a una pagina 404

Spesso, se il sito non ha un file robots.txt, quando viene richiesto, il motore di ricerca reindirizza a un'altra pagina. A volte questo non restituisce uno stato 404 Non trovato. Il robot deve capire cosa ha ottenuto: robots.txt o un normale file html. Questo non è un problema, ma è meglio se un file robots.txt vuoto viene inserito nella radice del sito.

Errore 10. Usare lettere maiuscole è segno di cattivo stile

USER-AGENT: GOOGLEBOT

Sebbene lo standard non regoli la distinzione tra maiuscole e minuscole di robots.txt, è spesso il caso dei nomi di file e directory. Inoltre, se il file robots.txt è scritto interamente in maiuscolo, questo è considerato un cattivo stile.

Agente utente: googlebot

Errore 11. Elenco di tutti i file

Non sarebbe corretto elencare ogni file in una directory individualmente:

  • User-agent: *
  • Non consentire: /AL/Alabama.html
  • Non consentire: /AL/AR.html
  • Non consentire: /Az/AZ.html
  • Non consentire: /Az/bali.html
  • Non consentire: /Az/bed-breakfast.html

Sarà corretto chiudere l'intera directory dall'indicizzazione:

  • User-agent: *
  • Non consentire: /AL/
  • Non consentire: /az/

Errore 12. Utilizzo di ulteriori direttive nella sezione *

Alcuni robot potrebbero reagire in modo errato all'uso di direttive aggiuntive. Pertanto, il loro utilizzo nella sezione "*" è indesiderabile.

Se la direttiva non è standard (come "Host" per esempio), è meglio creare una sezione speciale per essa.

Opzione non valida:

Sarebbe corretto scrivere:

Errore 13. Manca un'istruzione di non consentire

Anche se si desidera utilizzare una direttiva aggiuntiva e non impostare alcun divieto, si consiglia di specificare un Disallow vuoto. Lo standard afferma che l'istruzione Disallow è obbligatoria; se è assente, il robot potrebbe "fraintenderti".

Non giusto:

Correttamente:

Errore 14. Non si usano le barre quando si specifica una directory

Quali saranno le azioni del robot in questo caso?

  • Agente utente: Yandex
  • Non consentire: Giovanni

Secondo lo standard, né il file né la directory denominata "john" verranno indicizzati. Per specificare solo una directory, è necessario scrivere:

  • Agente utente: Yandex
  • Non consentire: /giovanni/

Errore 15: ortografia errata dell'intestazione HTTP

Il server dovrebbe restituire "Tipo di contenuto: testo/normale" nell'intestazione HTTP per robots.txt e, ad esempio, non "Tipo di contenuto: testo/html". Se l'intestazione è scritta in modo errato, alcuni robot non saranno in grado di elaborare il file.

Come comporre il file correttamente in modo che il controllo robots.txt non riveli errori

Quale dovrebbe essere il file robots.txt corretto per una risorsa Internet? Considera la sua struttura:

1.User-agent

Questa direttiva è la principale, determina per quali robot vengono scritte le regole.

Se per qualsiasi robot, scriviamo:

Se per un bot specifico:

User agent: GoogleBot

Vale la pena notare che il carattere maiuscolo non ha importanza in robots.txt. Ad esempio, un programma utente per Google può essere scritto in questo modo:

agente utente: googlebot

Ecco una tabella dei principali user agent dei vari motori di ricerca.

Il principale robot di indicizzazione di Google

Google News

Google Immagini

Mediapartner-Google

Google Adsense, Google Mobile Adsense

controllo della qualità della pagina di destinazione

AdsBot-Google-App per dispositivi mobili

Google Robot per le app

Il principale robot di indicizzazione di Yandex

Yandex.Images

Yandex.Video

dati multimediali

robot di ricerca blog

robot che accede alla pagina quando viene aggiunta tramite il modulo "Aggiungi URL".

robot che indicizza le icone del sito (favicon)

Yandex.Direct

Yandex.Metrica

Yandex.Catalogo

Yandex.Notizie

Yandex ImageResizer

robot per servizi mobili

il principale robot di indicizzazione Bing

principale robot di indicizzazione Yahoo!

robot di indicizzazione principale Mail.Ru

2. Non consentire e consentire

Disallow consente di disabilitare l'indicizzazione di pagine e sezioni della risorsa Internet.

Consenti viene utilizzato per forzarne l'apertura per l'indicizzazione.

Ma usarli è abbastanza difficile.

Innanzitutto, è necessario familiarizzare con gli operatori aggiuntivi e le regole per il loro utilizzo. Questi includono: *, $ e #.

  • * - qualsiasi numero di caratteri, anche la loro assenza. Non è necessario mettere questo operatore alla fine della riga, si presume che sia presente di default;
  • $ - indica che il carattere prima di esso deve essere l'ultimo;
  • # - questo operatore viene utilizzato per designare un commento, qualsiasi informazione successiva non viene presa in considerazione dal robot.

Come utilizzare questi operatori:

  • Non consentire: *?s=
  • Non consentire: /categoria/$

In secondo luogo, devi capire come vengono eseguite le regole nidificate nel file robots.txt.

Non importa in quale ordine sono scritte le direttive. La determinazione dell'ereditarietà delle regole (cosa aprire o chiudere dall'indicizzazione) viene eseguita in base alle directory specificate. Facciamo un esempio.

Consenti: *.css

Non consentire: /modello/

Se è necessario aprire tutti i file .css per l'indicizzazione, sarà necessario specificarlo in aggiunta per ciascuna cartella il cui accesso è chiuso. Nel nostro caso:

  • Consenti: *.css
  • Consenti: /template/*.css
  • Non consentire: /modello/

Ricordiamoci ancora: non importa in quale ordine siano scritte le direttive.

3. Mappa del sito

Questa direttiva specifica il percorso del file XML Sitemap. L'URL ha la stessa forma della barra degli indirizzi.

La direttiva Sitemap può essere specificata ovunque nel file robots.txt e non è necessario che sia collegata a uno specifico user-agent. Sono consentite più regole della mappa del sito.

Questa direttiva specifica il mirror principale della risorsa (di solito con www o senza www). Ricorda: quando specifichi il mirror principale, non scrivere http://, ma https://. Se necessario, viene specificata anche la porta.

Questa direttiva può essere supportata solo dai bot Yandex e Mail.Ru. Altri robot, incluso GoogleBot, non tengono conto di questo comando. Puoi registrare host solo una volta!

5. Ritardo di scansione

Consente di impostare il periodo di tempo dopo il quale il robot deve scaricare le pagine delle risorse. La direttiva è supportata dai robot di Yandex, Mail.Ru, Bing, Yahoo. Quando si imposta l'intervallo, è possibile utilizzare sia valori interi che frazionari, utilizzando un punto come separatore. L'unità di misura è secondi.

Ritardo scansione: 0,5

Se il carico sul sito è ridotto, non è necessario impostare questa regola. Ma se il risultato dell'indicizzazione delle pagine da parte del robot è il superamento dei limiti o un grave aumento del carico, causando interruzioni del server, l'utilizzo di questa direttiva è ragionevole: consente di ridurre il carico.

Maggiore è l'intervallo impostato, minore sarà il numero di download durante una sessione. Il valore ottimale per ciascuna risorsa è diverso. Inizialmente, si consiglia di impostare valori piccoli (0,1, 0,2, 0,5), quindi aumentarli gradualmente. Per i robot dei motori di ricerca che non sono particolarmente importanti per i risultati delle promozioni (ad esempio, Mail.Ru, Bing e Yahoo), puoi impostare immediatamente valori maggiori rispetto ai robot Yandex.

6.Pulizia param

Questa direttiva è necessaria per informare il crawler (robot di ricerca) dell'inutilità dell'indicizzazione degli URL con i parametri specificati. Alla regola vengono forniti due argomenti: un parametro e un URL di sezione. Yandex sostiene la direttiva.

http://site.ru/articles/?author_id=267539 - non verrà indicizzato

http://site.ru/articles/?author_id=267539&sid=0995823627 - non verrà indicizzato

Clean-Param: utm_source utm_medium utm_campaign

7. Altre opzioni

La specifica estesa robots.txt contiene anche i seguenti parametri: Request-rate e Visit-time. Ma attualmente non c'è supporto per i loro principali motori di ricerca.

Le direttive sono necessarie per quanto segue:

  • Tasso di richiesta: 1/5 - consente di caricare non più di 1 pagina in 5 secondi
  • tempo di visita: 0600-0845 - Consente il caricamento della pagina solo dalle 6:00 alle 8:45 GMT

Per configurare correttamente il file robots.txt, consigliamo di utilizzare il seguente algoritmo:

2) Chiudere l'accesso per i robot alle proprie pagine di account personale, autorizzazione e registrazione;

4) Chiudere gli script ajax, json dall'indicizzazione;

6) Proibire l'indicizzazione di plugin, temi, js, css per i robot di tutti i motori di ricerca eccetto Yandex e Google;

7) Chiudere l'accesso ai robot alla funzionalità di ricerca;

8) Vietare l'indicizzazione delle sezioni del servizio che non hanno valore per la risorsa nella ricerca (errore 404, elenco autori);

9) Chiudere dall'indicizzazione i duplicati tecnici di pagine e pagine il cui contenuto duplica in qualche misura il contenuto di altre pagine (calendari, archivi, RSS);

12) Usa il parametro “site:” per verificare cosa hanno indicizzato Yandex e Google. Per fare ciò, inserisci "site:site.ru" nella barra di ricerca. Se ci sono pagine nella SERP che non necessitano di essere indicizzate, aggiungile a robots.txt;

13) Annotare la Sitemap e le regole dell'Host;

14) Se necessario, specificare Crawl-Delay e Clean-Param;

15) Verifica la correttezza del file robots.txt utilizzando gli strumenti di Google e Yandex;

16) Dopo 14 giorni, ricontrolla per assicurarti che non ci siano pagine nei risultati del motore di ricerca che non devono essere indicizzate. Se ce ne sono, ripeti tutti i punti precedenti.

Controllare il file robots.txt ha senso solo se il tuo sito va bene. Un audit del sito condotto da specialisti qualificati aiuterà a determinarlo.

Ci auguriamo che il nostro articolo sulle idee imprenditoriali ti sia utile. E se hai già deciso la direzione della tua attività e sei attivamente impegnato nello sviluppo di e, ti consigliamo di sottoporti a un audit del sito per presentare un quadro reale delle capacità della tua risorsa.


La prima cosa che fa un bot di ricerca quando si tratta del tuo sito è cercare e leggere il file robots.txt. Cos'è questo file? è un insieme di istruzioni per un motore di ricerca.

È un file di testo con estensione txt, che si trova nella directory principale del sito. Questo insieme di istruzioni indica al robot di ricerca quali pagine e file del sito indicizzare e quali no. Indica anche il mirror principale del sito e dove cercare la mappa del sito.

A cosa serve il file robots.txt? Per una corretta indicizzazione del tuo sito. In modo che non ci siano pagine duplicate nella ricerca, varie pagine di servizio e documenti. Una volta impostate correttamente le direttive nei robot, salverai il tuo sito da molti problemi con l'indicizzazione e il mirroring del sito.

Come comporre il file robots.txt corretto

La compilazione di robots.txt è abbastanza semplice, creiamo un documento di testo in un blocco note standard di Windows. Scriviamo le direttive per i motori di ricerca in questo file. Quindi, salva questo file con il nome "robot" e l'estensione di testo "txt". Tutto può ora essere caricato sull'hosting, nella cartella principale del sito. Tieni presente che è possibile creare un solo documento robots per sito. Se questo file manca sul sito, il bot "decide" automaticamente che tutto può essere indicizzato.

Poiché è uno, contiene istruzioni per tutti i motori di ricerca. Inoltre, puoi annotare sia le istruzioni separate per ogni PS, sia quella generale immediatamente per tutto. La separazione delle istruzioni per i diversi robot di ricerca avviene tramite la direttiva User-agent. Ne parleremo di più di seguito.

direttive robots.txt

Il file "robot" può contenere le seguenti direttive di indicizzazione: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Diamo un'occhiata a ciascuna istruzione in modo più dettagliato.

Direttiva sull'agente utente

Direttiva sull'agente utente- indica per quale motore di ricerca ci saranno le istruzioni (più precisamente, per quale particolare bot). Se è "*", le istruzioni sono per tutti i robot. Se è elencato un bot specifico, come Googlebot, le istruzioni sono solo per il bot di indicizzazione Google principale. Inoltre, se ci sono istruzioni separate per Googlebot e per tutti gli altri PS, Google leggerà solo le proprie istruzioni e ignorerà quella generale. Il bot Yandex farà lo stesso. Diamo un'occhiata a un esempio di una voce di direttiva.

User-agent: YandexBot - istruzioni solo per il principale bot di indicizzazione Yandex
User-agent: Yandex - istruzioni per tutti i robot Yandex
User-agent: * - istruzioni per tutti i bot

Direttive Vieta e Consenti

Direttive Vieta e Consenti- dai comandi cosa indicizzare e cosa no. Disallow dà il comando di non indicizzare una pagina o un'intera sezione del sito. E Consenti, al contrario, indica cosa deve essere indicizzato.

Disallow: / - proibisce l'indicizzazione dell'intero sito
Disallow: /papka/ - proibisce l'indicizzazione dell'intero contenuto della cartella
Disallow: /files.php - proibisce l'indicizzazione del file files.php

Consenti: /cgi-bin - consente l'indicizzazione delle pagine cgi-bin

È possibile e spesso necessario utilizzare caratteri speciali nelle direttive Disallow e Allow. Sono necessari per definire le espressioni regolari.

Carattere speciale * - sostituisce qualsiasi sequenza di caratteri. Per impostazione predefinita, viene aggiunto alla fine di ogni regola. Anche se non l'hai registrato, il PS lo inserirà da solo. Esempio di utilizzo:

Disallow: /cgi-bin/*.aspx - vieta l'indicizzazione di tutti i file con estensione .aspx
Disallow: /*foto - vieta l'indicizzazione di file e cartelle contenenti la parola foto

Il carattere speciale $ - annulla l'effetto del carattere speciale "*" alla fine della regola. Per esempio:

Disallow: /example$ - proibisce l'indicizzazione '/example', ma non proibisce '/example.html'

E se scrivi senza il carattere speciale $, l'istruzione funzionerà in modo diverso:

Disallow: /example - disabilita sia '/example' che '/example.html'

Direttiva sulla mappa del sito

Direttiva sulla mappa del sito- è pensato per indicare al robot del motore di ricerca dove si trova la mappa del sito sull'hosting. Il formato della mappa del sito dovrebbe essere sitemaps.xml. È necessaria una mappa del sito per un'indicizzazione del sito più rapida e completa. Inoltre, una mappa del sito non è necessariamente un file, potrebbero essercene diversi. Formato di immissione della direttiva:

Mappa del sito: http://site/sitemaps1.xml
Mappa del sito: http://site/sitemaps2.xml

Direttiva ospite

Direttiva ospite- indica al robot il mirror principale del sito. Qualunque cosa sia presente nell'indice mirror del sito, devi sempre specificare questa direttiva. Se non viene specificato, il robot Yandex indicizzerà almeno due versioni del sito con e senza www. Fino a quando il robot specchio non li incolla insieme. Esempio di registrazione:

Host: www.sito
ospite: sito web

Nel primo caso il robot indicizzerà la versione con www, nel secondo senza. È consentita una sola direttiva Host nel file robots.txt. Se ne scrivi diversi, il bot elaborerà e prenderà in considerazione solo il primo.

Una direttiva host valida dovrebbe avere i seguenti dati:
— indicare il protocollo di connessione (HTTP o HTTPS);
- un nome a dominio scritto correttamente (non è possibile scrivere un indirizzo IP);
- numero di porta, se necessario (ad esempio, Host: site.com:8080).

Le direttive formulate in modo errato verranno semplicemente ignorate.

Direttiva sul ritardo di scansione

Direttiva sul ritardo di scansione consente di ridurre il carico sul server. È necessario nel caso in cui il tuo sito inizi a cadere sotto l'assalto di vari bot. La direttiva Crawl-delay dice al bot di ricerca di attendere tra la fine del download di una pagina e l'inizio del download di un'altra pagina del sito. La direttiva deve venire immediatamente dopo le voci della direttiva "Disallow" e/o "Allow". Il robot di ricerca Yandex può leggere valori frazionari. Ad esempio: 1,5 (un secondo e mezzo).

Direttiva Clean-param

Direttiva Clean-param necessario ai siti le cui pagine contengono parametri dinamici. Stiamo parlando di quelli che non influiscono sul contenuto delle pagine. Si tratta di varie informazioni sul servizio: identificatori di sessione, utenti, referrer, ecc. Quindi, per evitare duplicati di queste pagine, viene utilizzata questa direttiva. Dirà al PS di non ricaricare le informazioni di re-pendolarismo. Anche il carico sul server e il tempo impiegato dal robot per eseguire la scansione del sito diminuiranno.

Clean-param: s /forum/showthread.php

Questa voce dice al PS che il parametro s sarà considerato insignificante per tutti gli URL che iniziano con /forum/showthread.php. La lunghezza massima del record è di 500 caratteri.

Abbiamo capito le direttive, passiamo all'allestimento dei nostri robot.

Impostazione robots.txt

Procediamo direttamente alla configurazione del file robots.txt. Deve contenere almeno due voci:

agente utente:- indica per quale motore di ricerca saranno le istruzioni di seguito.
Non consentire:- Specifica quale parte del sito non deve essere indicizzata. Può chiudere dall'indicizzazione sia di una pagina separata del sito che di intere sezioni.

Inoltre, puoi specificare che queste direttive sono destinate a tutti i motori di ricerca, o ad uno specifico. Questo è specificato nella direttiva User-agent. Se vuoi che tutti i robot leggano le istruzioni, metti un asterisco

Se vuoi scrivere istruzioni per un robot specifico, ma devi specificarne il nome.

Agente utente: YandexBot

Un esempio semplificato di un file robot composto correttamente sarebbe:

User-agent: *
Non consentire: /files.php
Non consentire: /sezione/
ospite: sito web

In cui si, * dice che le istruzioni sono destinate a tutti i PS;
Non consentire: /files.php- vieta l'indicizzazione del file file.php;
Non consentire: /foto/- vieta l'indicizzazione dell'intera sezione "foto" con tutti i file allegati;
ospite: sito web- dice ai robot quale mirror indicizzare.

Se il tuo sito non ha pagine che devono essere chiuse dall'indicizzazione, il tuo file robots.txt dovrebbe essere così:

User-agent: *
Non consentire:
ospite: sito web

Robots.txt per Yandex (Yandex)

Per indicare che queste istruzioni sono destinate al motore di ricerca Yandex, è necessario specificare nella direttiva User-agent: Yandex. Inoltre, se scriviamo "Yandex", il sito verrà indicizzato da tutti i robot Yandex e se specifichiamo "YandexBot", questo sarà un comando solo per il robot di indicizzazione principale.

È inoltre necessario registrare la direttiva "Host", dove specificare il mirror principale del sito. Come ho scritto sopra, questo viene fatto per evitare pagine duplicate. Il tuo robots.txt corretto per Yandex sarà così:

Agente utente: Yandex
Non consentire: /cgi-bin
Non consentire: /adminka
ospite: sito web

Fino ad ora, si sentono spesso domande su cosa è meglio specificare nella direttiva host, un sito con o senza www. E dopotutto, non c'è differenza. È proprio come ti piace, come sarebbe il sito nelle SERP. La cosa principale è non dimenticare di specificarlo affatto, in modo da non creare duplicati.

Robots.txt per Google

Il motore di ricerca di Google supporta tutti i comuni formati di immissione di file robots.txt. Vero, non tiene conto della direttiva Host. Pertanto, in realtà non ci saranno differenze rispetto a Yandex. Robots.txt per Google sarà simile a questo:

Agente utente: Googlebot
Non consentire: /cgi-bin
Non consentire: /adminka
Mappa del sito: http://site/sitemaps.xml

Spero che i dati che ho presentato siano sufficienti per compilare un file di alta qualità e, soprattutto, corretto. robots.txt Se utilizzi uno dei popolari CMS, nel prossimo articolo ho preparato per te una selezione di robot: robots.txt per le popolari classificazioni CMS 1, media: 5,00 su 5)

/ vista: 21952

Ciao cari amici! Controllare robots.txt è importante tanto quanto scriverlo correttamente.

Controllo del file robots.txt nei pannelli Yandex e Google Webmasters.

Verificando robots.txt, perché è importante controllare?

Prima o poi, ogni autore del sito che si rispetti si ricorda del file robots. A proposito di questo file, posto nella root del sito, è scritto in abbondanza su Internet. Quasi ogni webmaster ha un sito sulla pertinenza e correttezza della sua compilazione. In questo articolo, ricorderò ai blogger inesperti come verificarlo utilizzando gli strumenti nel pannello del webmaster fornito da Yandex e Google.

Innanzitutto, un po' di lui. Il file Robots.txt (a volte erroneamente chiamato robot.txt, al singolare, è richiesta l'attenzione alla lettera inglese s alla fine) viene creato dai webmaster per contrassegnare o vietare determinati file e cartelle di un sito Web, per gli spider di ricerca (come così come altri tipi di robot). Cioè, quei file a cui il robot del motore di ricerca non dovrebbe avere accesso.

Il controllo di robots.txt è un attributo obbligatorio per l'autore del sito durante la creazione di un blog su WordPress e la sua ulteriore promozione. Molti webmaster sono anche sicuri di visualizzare le pagine del progetto. L'analisi indica ai robot la sintassi corretta per assicurarsi che sia in un formato valido. Il fatto è che esiste uno standard stabilito per le eccezioni per i robot. Non sarà superfluo scoprire il parere degli stessi motori di ricerca, leggere la documentazione, in cui i motori di ricerca espongono in dettaglio la loro visione su questo file.

Tutto ciò non sarà superfluo per continuare a proteggere il tuo sito da errori durante l'indicizzazione. Conosco esempi in cui, a causa di un file compilato in modo errato, è stato dato un segnale per vietarne la visibilità in rete. Con un'ulteriore correzione, puoi aspettare molto tempo per un cambiamento nella situazione intorno al sito.

Non mi soffermerò sulla corretta compilazione del file stesso in questo articolo. Ci sono molti esempi in rete, puoi andare sul blog di qualsiasi blogger popolare e aggiungere /robots.txt alla fine del suo dominio per la verifica. Il browser mostrerà la sua versione, che puoi usare come base. Tuttavia, ognuno ha le proprie eccezioni, quindi è necessario verificare la conformità specifica per il tuo sito. Inoltre, una descrizione e un esempio del testo corretto per un blog WordPress sono disponibili all'indirizzo:

Mappa del sito: http://tuo sito/sitemap.xml

User agent: Googlebot Image

#Google Adsense

User-agent: Mediapartners-Google*

User agent: duggmirror

Non consentire: /cgi-bin/

Non consentire: /wp-admin/

Non consentire: /wp-include/

Non consentire: /wp-content/plugins/

Non consentire: /wp-content/cache/

Non consentire: /wp-content/themes/

Non consentire: /trackback/

Non consentire: /feed/

Non consentire: /commenti/

Non consentire: /categoria/*/*

Non consentire: */trackback/

Non consentire: */feed/

Non consentire: */commenti/

Consenti: /wp-content/caricamenti/

Ci sono alcune differenze nella compilazione e nell'ulteriore verifica del file robots.txt per i principali motori di ricerca di Runet. Di seguito fornirò esempi su come controllare i pannelli Yandex Webmaster e Google.

Dopo aver compilato il file e averlo caricato nella radice del tuo sito tramite FTP, devi verificarne la conformità, ad esempio, con il motore di ricerca Yandex. Pertanto, scopriremo se non abbiamo chiuso accidentalmente quelle pagine, grazie alle quali i visitatori verranno da te.

Controllo robots.txt nel pannello Yandex Webmaster

Devi avere un account nel pannello Yandex Webmaster. Entrando negli strumenti e specificando il tuo sito, sulla destra ci sarà un elenco delle funzionalità disponibili. Vai alla scheda "Controlla robots.txt"

Specifica il tuo dominio e fai clic su "Scarica robots.txt dal sito". Se hai compilato un file che indica separatamente per ciascun motore di ricerca, devi selezionare le righe per Yandex e copiarle nel campo sottostante. Vi ricordo che la direttiva Host: è rilevante per Jand., quindi non dimenticate di inserirla nel campo per la verifica. Resta da controllare robots.txt. pulsante a destra.

Vedrai letteralmente immediatamente un'analisi di Yandex per la conformità con il tuo robots.txt. Di seguito ci saranno le linee che Yand. accettato a titolo oneroso. E guarda i risultati del test. Le direttive sono indicate a sinistra dell'URL. Sulla destra c'è il risultato stesso. Come puoi vedere nello screenshot, sarà corretto vedere l'iscrizione in rosso - proibito dalla regola e la regola stessa è indicata. Se hai specificato una direttiva per l'indicizzazione, vedremo il verde: è consentito.

Dopo aver controllato robots.txt, sarai in grado di correggere il tuo file. Consiglio anche di controllare le pagine del sito. Incolla l'indirizzo URL di una singola voce nel campo /Elenco URL/. E all'output otteniamo il risultato - consentito. Quindi possiamo controllare separatamente i divieti su archivi, categorie e così via.

Non dimenticare di iscriverti, nel prossimo articolo ho intenzione di mostrare come registrarti gratuitamente nel catalogo Mail.ru. Non perdere, .

Come controllare i webmaster Yandex.

Controlla robots.txt nel pannello Webmaster di Google

Entriamo nel tuo account e guardiamo a sinistra /Stato/ - /URL bloccati/

Qui vedremo la sua presenza e la possibilità di modificarlo. Se è necessario controllare la conformità dell'intero sito, specificare l'indirizzo della pagina principale nel campo sottostante. È possibile verificare come diversi robot di Google vedono il tuo sito, tenendo conto del controllo del file robots.txt

Oltre al bot principale di Google, scegliamo anche un robot specializzato in diversi tipi di contenuti (2). Schermata qui sotto.

  1. Googlebot
  2. Immagine di Googlebot
  3. Googlebot mobile
  4. Mediapartners-Google - Metriche per AdSense
  5. AdsBot-Google - Controllo della qualità della pagina di destinazione

Non ho trovato indicatori per altri robot di Google:

  • Video di Googlebot
  • Novità su Googlebot

Per analogia con il controllo del file robots.txt nel pannello Yandex, c'è anche la possibilità di analizzare una pagina separata del sito. Dopo aver controllato, vedrai il risultato separatamente per ogni bot di ricerca.

A condizione che i risultati del controllo non ti soddisfino, devi solo continuare a modificare. E ulteriore verifica.

Analizza robots.txt online

Oltre a queste funzionalità, puoi anche analizzare il file robots.txt utilizzando i servizi online. Quelli che ho trovato sono per lo più di lingua inglese. Mi è piaciuto questo servizio. Dopo l'analisi, verranno fornite raccomandazioni per la sua correzione.

tool.motorcerca.info/robots-checker.phtml

È tutto. Spero che il controllo del file robots.txt attraverso gli occhi di Yandex e Google non ti abbia sconvolto? Se vedi una non conformità con i tuoi desideri, puoi sempre modificare e quindi rianalizzare. Grazie per il tuo tweet su Twitter e per il like su Facebook!

Il file robots.txt è uno dei più importanti durante l'ottimizzazione di qualsiasi sito web. La sua assenza può comportare un carico elevato sul sito da parte dei robot di ricerca e rallentare l'indicizzazione e la reindicizzazione, e un'impostazione errata può portare il sito a scomparire completamente dalla ricerca o semplicemente a non essere indicizzato. Pertanto, non verrà cercato in Yandex, Google e altri motori di ricerca. Diamo un'occhiata a tutte le sfumature della corretta configurazione di robots.txt.

Innanzitutto, un breve video che ti darà un'idea generale di cosa sia un file robots.txt.

In che modo robots.txt influisce sull'indicizzazione del sito

I robot di ricerca indicizzeranno il tuo sito indipendentemente dalla presenza di un file robots.txt. Se esiste un tale file, i robot possono essere guidati dalle regole scritte in questo file. Allo stesso tempo, alcuni robot potrebbero ignorare determinate regole o alcune regole potrebbero essere specifiche solo per alcuni robot. In particolare, GoogleBot non utilizza le direttive Host e Crawl-Delay, YandexNews ha recentemente iniziato a ignorare la direttiva Crawl-Delay e YandexDirect e YandexVideoParser ignorano le direttive robot più generali (ma sono guidate da quelle specificate per loro).

Maggiori informazioni sulle eccezioni:
Yandex eccezioni
Standard di eccezione robot (Wikipedia)

Il carico massimo sul sito è creato dai robot che scaricano i contenuti dal tuo sito. Pertanto, specificando cosa indicizzare e cosa ignorare, nonché a quali intervalli di tempo scaricare, è possibile, da un lato, ridurre notevolmente il carico sul sito da parte dei robot, e dall'altro, velocizzare il download processo vietando di ignorare le pagine non necessarie.

Tali pagine non necessarie includono ajax, script json responsabili di moduli pop-up, banner, output captcha, ecc., moduli d'ordine e un carrello della spesa con tutti i passaggi per effettuare un acquisto, funzionalità di ricerca, account personale, pannello di amministrazione.

Per la maggior parte dei robot, è anche desiderabile disabilitare l'indicizzazione di tutti i JS e CSS. Ma per GoogleBot e Yandex, tali file devono essere lasciati per l'indicizzazione, poiché vengono utilizzati dai motori di ricerca per analizzare la comodità del sito e il suo posizionamento (prova di Google, prova di Yandex).

direttive robots.txt

Le direttive sono regole per i robot. Esiste una specifica W3C dal 30 gennaio 1994 e uno standard esteso dal 1996. Tuttavia, non tutti i motori di ricerca e i robot supportano determinate direttive. A questo proposito ci sarà più utile conoscere non lo standard, ma come i robot principali sono guidati da determinate direttive.

Diamo un'occhiata in ordine.

agente utente

Questa è la direttiva più importante che determina per quali robot seguono le regole.

Per tutti i robot:
User-agent: *

Per un bot specifico:
User agent: GoogleBot

Tieni presente che robots.txt non fa distinzione tra maiuscole e minuscole. Quelli. L'agente utente per Google può anche essere scritto in questo modo:
agente utente: googlebot

Di seguito una tabella dei principali user agent dei vari motori di ricerca.

Bot Funzione
Google
Googlebot Il principale robot di indicizzazione di Google
Novità su Googlebot Google News
Immagine di Googlebot Google Immagini
Video di Googlebot video
Mediapartner-Google
partner mediatici Google Adsense, Google Mobile Adsense
AdsBot-Google controllo della qualità della pagina di destinazione
AdsBot-Google-App per dispositivi mobili Google Robot per le app
Yandex
YandexBot Il principale robot di indicizzazione di Yandex
Yandex Immagini Yandex.Images
Yandex Video Yandex.Video
Yandex Media dati multimediali
YandexBlog robot di ricerca blog
Yandex Addurl robot che accede alla pagina quando viene aggiunta tramite il modulo "Aggiungi URL".
Yandex Favicon robot che indicizza le icone del sito (favicon)
Yandex Direct Yandex.Direct
Yandex Metrika Yandex.Metrica
Catalogo Yandex Yandex.Catalogo
Yandex News Yandex.Notizie
Yandex ImageResizer robot per servizi mobili
Bing
bingo il principale robot di indicizzazione Bing
Yahoo!
Sorso principale robot di indicizzazione Yahoo!
Mail.Ru
Mail.Ru robot di indicizzazione principale Mail.Ru
Rambler
StackRambler Precedentemente il principale robot di indicizzazione Rambler. Tuttavia, a partire dal 23 giugno 2011, Rambler cessa di supportare il proprio motore di ricerca e ora utilizza la tecnologia Yandex sui suoi servizi. Non più rilevante.

Non consentire e consentire

Disallow chiude le pagine e le sezioni del sito dall'indicizzazione.
Consenti apre forzatamente pagine e sezioni del sito per l'indicizzazione.

Ma qui non è tutto così semplice.

Innanzitutto, devi conoscere operatori aggiuntivi e capire come vengono utilizzati: questi sono *, $ e #.

* è un numero qualsiasi di caratteri, inclusa la loro assenza. Allo stesso tempo, non puoi mettere un asterisco alla fine della riga, resta inteso che è lì per impostazione predefinita.
$ - indica che il carattere prima di esso deve essere l'ultimo.
# - commento, tutto ciò che segue questo carattere nella riga non viene preso in considerazione dal robot.

Esempi di utilizzo:

Non consentire: *?s=
Non consentire: /categoria/$

In secondo luogo, è necessario comprendere come vengono eseguite le regole nidificate.
Ricorda che l'ordine in cui sono scritte le direttive non è importante. L'ereditarietà della regola di cosa aprire o chiudere dall'indicizzazione è determinata dalle directory specificate. Facciamo un esempio.

Consenti: *.css
Non consentire: /modello/

http://site.ru/template/ - chiuso dall'indicizzazione
http://site.ru/template/style.css - chiuso dall'indicizzazione
http://site.ru/style.css - aperto per l'indicizzazione
http://site.ru/theme/style.css - aperto per l'indicizzazione

Se desideri che tutti i file .css siano aperti per l'indicizzazione, dovrai registrarlo in aggiunta per ciascuna delle cartelle chiuse. Nel nostro caso:

Consenti: *.css
Consenti: /template/*.css
Non consentire: /modello/

Anche in questo caso, l'ordine delle direttive non è importante.

Mappa del sito

Direttiva per specificare il percorso del file XML Sitemap. L'URL viene scritto allo stesso modo della barra degli indirizzi.

Per esempio,

Mappa del sito: http://site.ru/sitemap.xml

La direttiva Sitemap è specificata ovunque nel file robots.txt senza essere legata a uno specifico user-agent. Puoi specificare più regole della mappa del sito.

Ospite

Direttiva per specificare il mirror principale del sito (nella maggior parte dei casi: con www o senza www). Si noti che il mirror principale è indicato SENZA http://, ma CON https://. Inoltre, se necessario, viene specificata la porta.
La direttiva è supportata solo dai bot Yandex e Mail.Ru. Altri robot, in particolare GoogleBot, non terranno conto del comando. L'host è registrato una sola volta!

Esempio 1:
Host: site.ru

Esempio 2:
Host: https://site.ru

Ritardo di scansione

Direttiva per impostare l'intervallo di tempo tra i download delle pagine del sito da parte del robot. Supportato dai robot Yandex, Mail.Ru, Bing, Yahoo. Il valore può essere impostato in unità intere o frazionarie (separatore - punto), tempo in secondi.

Esempio 1:
Ritardo di scansione: 3

Esempio 2:
Ritardo scansione: 0,5

Se il sito ha un piccolo carico, non è necessario impostare tale regola. Tuttavia, se l'indicizzazione delle pagine da parte di un robot porta al fatto che il sito supera i limiti o subisce carichi significativi, fino a interruzioni del server, allora questa direttiva aiuterà a ridurre il carico.

Maggiore è il valore, meno pagine il robot scaricherà in una sessione. Il valore ottimale è determinato individualmente per ogni sito. È meglio iniziare con valori non molto grandi - 0,1, 0,2, 0,5 - e aumentarli gradualmente. Per i robot dei motori di ricerca meno importanti per i risultati delle promozioni, come Mail.Ru, Bing e Yahoo, puoi inizialmente impostare valori più alti rispetto ai robot Yandex.

Pulisci param

Questa regola indica al crawler che gli URL con i parametri specificati non devono essere indicizzati. Alla regola vengono forniti due argomenti: un parametro e un URL di sezione. La direttiva è supportata da Yandex.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Altre opzioni

Nella specifica estesa robots.txt, puoi anche trovare i parametri Request-rate e Visit-time. Tuttavia, attualmente non sono supportati dai principali motori di ricerca.

Significato delle direttive:
Tasso di richiesta: 1/5 - carica non più di una pagina in cinque secondi
Orario di visita: 0600-0845 - Carica le pagine solo tra le 6:00 e le 8:45 GMT.

Chiusura di robots.txt

Se devi configurare il tuo sito in modo che NON venga indicizzato dai robot di ricerca, devi scrivere le seguenti direttive:

User-agent: *
non consentire: /

Assicurati che queste direttive siano scritte sui siti di test del tuo sito.

Impostazione corretta di robots.txt

Per la Russia e i paesi della CSI, dove la quota di Yandex è tangibile, le direttive dovrebbero essere scritte per tutti i robot e separatamente per Yandex e Google.

Per configurare correttamente robots.txt, utilizza il seguente algoritmo:

  1. Chiudi il pannello di amministrazione del sito dall'indicizzazione
  2. Chiusura account personale, autorizzazione, registrazione da indicizzazione
  3. Chiudi carrello, moduli d'ordine, spedizione e dati dell'ordine dall'indicizzazione
  4. Chiudi da indicizzazione ajax, script json
  5. Chiudi la cartella cgi dall'indicizzazione
  6. Chiudi plugin, temi, js, css dall'indicizzazione per tutti i robot tranne Yandex e Google
  7. Chiudi la funzionalità di ricerca dall'indicizzazione
  8. Chiudere dall'indicizzazione le sezioni di servizio che non portano alcun valore per il sito in ricerca (errore 404, elenco autori)
  9. Chiudere i duplicati tecnici delle pagine dall'indicizzazione, nonché le pagine in cui tutto il contenuto è duplicato in una forma o nell'altra da altre pagine (calendari, archivi, RSS)
  10. Chiudi dalle pagine di indicizzazione con filtri, ordina, confronta opzioni
  11. Interrompi l'indicizzazione delle pagine con tag UTM e parametri di sessione
  12. Controlla cosa è indicizzato da Yandex e Google utilizzando il parametro "site:" (digita "site:site.ru" nella barra di ricerca). Se ci sono pagine nella ricerca che devono anche essere chiuse dall'indicizzazione, aggiungile a robots.txt
  13. Specifica la mappa del sito e l'host
  14. Se necessario, scrivi Crawl-Delay e Clean-Param
  15. Verifica la correttezza di robots.txt utilizzando gli strumenti di Google e Yandex (descritti di seguito)
  16. Dopo 2 settimane, controlla di nuovo se ci sono nuove pagine nella SERP che non devono essere indicizzate. Se necessario, ripetere i passaggi precedenti.

esempio robots.txt

# Un esempio di file robots.txt per la creazione di un sito ipotetico https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow : */?s = Non consentire: *sort= Non consentire: *view= Non consentire: *utm= Consenti: /plugins/*.css Consenti: /plugins/*.js Consenti: /plugins/*.png Consenti: /plugins/ *.jpg Consenti: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Consenti: /plugins/*.css Consenti: /plugins/*.js Consenti: /plugins/*.png Consenti: /plugins/*.jpg Consenti: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl- Ritardo: 0.5 Mappa del sito: https://site.ru/sitemap.xml Host: https://site.ru

Come aggiungere e dove si trova robots.txt

Dopo aver creato il file robots.txt, deve essere inserito nel tuo sito all'indirizzo site.ru/robots.txt, ad es. nella directory principale. Il crawler accede sempre al file all'URL /robots.txt

Come controllare robots.txt

Il controllo di robots.txt viene effettuato ai seguenti link:

  • In Yandex.Webmaster: nella scheda Analisi Strumenti>Robots.txt
  • A Console di ricerca di Google- nella scheda Scansione > strumento di ispezione del file robots.txt

Errori comuni in robots.txt

Alla fine dell'articolo, fornirò alcuni errori tipici del file robots.txt.

  • robots.txt è mancante
  • in robots.txt il sito è chiuso dall'indicizzazione (Disallow: /)
  • il file contiene solo le direttive più elementari, non c'è uno studio dettagliato del file
  • le pagine con tag UTM e ID di sessione non vengono bloccate dall'indicizzazione nel file
  • il file contiene solo direttive
    Consenti: *.css
    Consenti: *.js
    Consenti: *.png
    Consenti: *.jpg
    Consenti: *.gif
    mentre i file css, js, png, jpg, gif sono chiusi da altre direttive in un certo numero di directory
  • La direttiva host viene scritta più volte
  • L'host non specifica il protocollo https
  • il percorso della Sitemap non è corretto oppure è stato specificato il protocollo o il mirror del sito errato

PS

PS2

Video utile di Yandex (Attenzione! Alcuni consigli sono adatti solo per Yandex).

Articoli correlati in alto