Come configurare smartphone e PC. Portale informativo
  • casa
  • Ferro
  • Robot txt non vieta l'indicizzazione. E ora con i chiarimenti

Robot txt non vieta l'indicizzazione. E ora con i chiarimenti

Robots.txt è un file di servizio che serve come raccomandazione per limitare l'accesso al contenuto dei documenti Web per i motori di ricerca. In questo articolo analizzeremo la configurazione di Robots.txt, la descrizione delle direttive e la sua compilazione per i CMS più diffusi.

Questo file Robot si trova nella directory principale del tuo sito e viene aperto/modificato semplice blocco note, consiglio Blocco note ++. Per coloro a cui non piace leggere - c'è un VIDEO, vedere la fine dell'articolo 😉

Perché robots.txt è necessario

Come ho detto sopra, utilizzando il file robots.txt, possiamo limitare l'accesso dei bot di ricerca ai documenti, ad es. influenziamo direttamente l'indicizzazione del sito. Molto spesso sono chiusi dall'indicizzazione:

  • File di servizio e cartelle CMS
  • duplicati
  • Documenti non utili all'utente
  • Pagine non uniche

Vediamo un esempio specifico:

Negozio online che vende scarpe e implementato su uno dei popolari CMS, e non nel migliore dei modi. Posso dire subito cosa ci sarà nella pagina dei risultati di ricerca, nell'impaginazione, nel carrello, in alcuni file del motore, ecc. Tutti questi saranno duplicati e file di servizio inutili per l'utente. Pertanto, dovrebbero essere chiusi dall'indicizzazione e se c'è ancora una sezione "Notizie" in cui diverse copie e incollate articoli interessanti dai siti dei concorrenti - allora non c'è bisogno di pensare, lo chiudiamo subito.

Pertanto, assicurati di ottenerlo con un file robots.txt in modo che la spazzatura non entri nei risultati. Non dimenticare che il file deve essere aperto su http://site.ru/robots.txt.

Direttive Robots.txt e regole di personalizzazione

Agente utente. Questo è un appello a uno specifico robot del motore di ricerca oa tutti i robot. Se prescritto nome specifico robot, ad esempio "YandexMedia", le direttive generali user-agent non vengono utilizzate per questo. Un esempio di scrittura:

Agente utente: YandexBot Disallow: / cart # verrà utilizzato solo dal robot di indicizzazione Yandex principale

Non consentire/Consentire. Questo è il divieto/permesso di indicizzare un documento o una sezione specifica. L'ordine di scrittura non ha importanza, ma con 2 direttive e lo stesso prefisso viene data priorità a "Consenti". Il robot di ricerca li legge in base alla lunghezza del prefisso, dal più piccolo al più grande. Se è necessario non consentire l'indicizzazione della pagina, è sufficiente inserire il relativo percorso (Disallow: / blog / post-1).

Agente utente: Yandex Disallow: / Consenti: / articoli # Proibisci l'indicizzazione del sito, ad eccezione degli articoli di 1 sezione

Espressioni regolari con * e $. Un asterisco indica qualsiasi sequenza di caratteri (compresi quelli vuoti). Il simbolo del dollaro significa interruzione. Esempi di utilizzo:

Disallow: / page * # proibisce tutte le pagine, costruzioni http://site.ru/page Disallow: / arcticles $ # proibisce solo la pagina http://site.ru/articles, consentendo pagine http://site.ru/ articoli / novità

Direttiva sulla mappa del sito. Se lo usi, in robots.txt dovrebbe essere indicato in questo modo:

Mappa del sito: http://site.ru/sitemap.xml

Direttiva dell'ospite. Come sai, i siti hanno dei mirror (leggi,). questa regola punta il bot di ricerca al mirror principale della tua risorsa. Si riferisce a Yandex. Se hai un mirror senza WWW, scrivi:

Host: site.ru

Crawl-ritardo. Specifica il ritardo (in secondi) tra i download bot dei tuoi documenti. Viene registrato dopo le direttive Disallow / Allow.

Ritardo scansione: 5 # timeout in 5 secondi

Pulisci-param. Indica al bot di ricerca che non è necessario scaricare ulteriori informazioni duplicate (identificatori di sessioni, referrer, utenti). Clean-param dovrebbe essere prescritto per le pagine dinamiche:

Clean-param: ref / category / books # indichiamo che la nostra pagina è principale e http://site.ru/category/books?ref=yandex.ru&id=1 è la stessa pagina, ma con parametri

La regola principale: robots.txt deve essere scritto in minuscolo e giacciono alla radice del sito. Esempio di struttura del file:

Agente utente: Yandex Disallow: / cart Allow: / cart / images Mappa del sito: http://site.ru/sitemap.xml Host: site.ru Crawl-delay: 2

Il meta tag robot e come è scritto

Questa opzione di blocco delle pagine è meglio presa in considerazione dal motore di ricerca Sistema Google... Yandex tiene conto ugualmente bene di entrambe le opzioni.

Ha 2 direttive: segui / nofollow e indice / noindex... Si tratta di permesso/divieto di seguire link e permesso/divieto di indicizzare il documento. Le direttive possono essere scritte insieme, vedere l'esempio seguente.

Per ogni pagina separata puoi scrivere nel tag a seguire:

File robots.txt corretti per i CMS più diffusi

Esempio Robots.txt per WordPress

Di seguito puoi vedere la mia versione da questo blog Seo.

Agente utente: Yandex Disallow: /wp-content / uploads / Allow: /wp-content / uploads / * / * / Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / theme Disallow: / wp-trackback Disallow: / wp-feed Disallow: / wp-comments Disallow: * / trackback Disallow: * / feed Disallow: * / commenti Disallow: / tag Disallow: / archive Disallow: * / trackback / Disallow: * / feed / Disallow: * / commenti / Disallow: /? Feed = Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / temi Disallow: / wp-trackback Disallow: / wp-feed Disallow: / wp-comments Disallow: * / trackback Disallow: * / feed Disallow: * / commenti Disallow: / tag Disallow: / archive Disallow: * / trackback / Disallo w: * / feed / Disallow: * / commenti / Disallow: /? feed = Disallow: /?.xml

Vieto i trackback perché duplica un pezzo dell'articolo nei commenti. E se ci sono molti trackback, riceverai un sacco di commenti identici.

Cerco di chiudere le cartelle di servizio e i file di qualsiasi CMS, perché Non voglio che vengano inclusi nell'indice (sebbene i motori di ricerca non lo prendano comunque, non peggiorerà).

I feed dovrebbero essere chiusi perché queste sono pagine duplicate parziali o complete.

Chiudiamo i tag se non li usiamo o siamo troppo pigri per ottimizzarli.

Esempi per altri CMS

Scaricare robot corretti per il CMS richiesto basta cliccare sul link corrispondente.

Come chiudere un sito, link, pagina dall'indicizzazione?

Non è sempre necessario che i motori di ricerca indicizzino tutte le informazioni sul sito.


A volte, i webmaster devono persino chiudere completamente il sito dall'indicizzazione, ma i principianti non sanno come farlo. Se lo desideri, puoi nascondere qualsiasi contenuto, risorsa o le sue singole pagine dai motori di ricerca.

Come chiudere un sito, link, pagina dall'indicizzazione? Ce ne sono diversi funzioni semplici che puoi utilizzare per chiudere qualsiasi informazione da Yandex e Google. In questo articolo, ti mostreremo come impedire l'indicizzazione di un sito tramite robot e mostra quale codice deve essere aggiunto a questo file.

Chiusura dei motori di ricerca dall'indicizzazione

Prima di parlare del metodo che utilizza robots.txt, ti mostreremo come impedire l'indicizzazione di un sito su WordPress tramite il pannello di amministrazione. Nelle impostazioni (lettura della sezione), c'è una comoda funzione:

Puoi rimuovere la visibilità del sito, ma fai attenzione al suggerimento. Dice che i motori di ricerca possono ancora indicizzare una risorsa, quindi è meglio usare un metodo collaudato e aggiungere codice richiesto in robots.txt.

Il file di testo del robot è dentro e, se non c'è, crealo tramite il blocco note.

Il codice seguente aiuterà a chiudere il sito dall'indicizzazione:

Basta aggiungerlo alla prima riga (sostituire le righe esistenti). Se devi chiudere il sito solo da Yandex, specifica Yandex al posto dell'asterisco; se chiudi la risorsa da Google, inserisci Googlebot.

Se non puoi utilizzare questo metodo, aggiungi semplicemente la riga al codice del sito .

Quando completi questi passaggi, il sito non sarà più indicizzato, questo è il massimo Il modo migliore chiudere la risorsa da robot di ricerca.

Come chiudere una pagina dall'indicizzazione?

Se vuoi nascondere solo una pagina, dovrai registrare un codice diverso nel file robots:

Non consentire: / categoria / kak-nachat-zarabatyvat

Nella seconda riga, è necessario specificare l'indirizzo della pagina, ma senza il nome del dominio. In alternativa, puoi chiudere la pagina dall'indicizzazione se scrivi nel suo codice:

È finita opzione difficile, ma se non vuoi aggiungere righe a robots.txt, questa è un'ottima soluzione. Se sei arrivato a questa pagina alla ricerca di un modo per bloccare i duplicati dall'indicizzazione, il modo più semplice è aggiungere tutti i collegamenti ai robot.

Come chiudere un collegamento o un testo dall'indicizzazione?

Non c'è niente di complicato neanche qui, devi solo aggiungere tag speciali nel codice del collegamento o racchiudilo con essi:

Ancora

Usando lo stesso tag noindex puoi nasconderti dai motori di ricerca testo diverso... Per fare ciò, è necessario registrare questo tag nell'editor dell'articolo.

Sfortunatamente, Google non ha un tag del genere, quindi non puoi nascondere parte del testo da esso. Il modo più semplice per farlo è aggiungere un'immagine con del testo.

Una delle fasi dell'ottimizzazione del sito Web per i motori di ricerca è la compilazione di un file robots.txt. attraverso di questo file puoi impedire ad alcuni o tutti i robot di ricerca di indicizzare il tuo sito o alcune parti di esso che non sono destinate all'indicizzazione. In particolare, è possibile impedire l'indicizzazione di contenuti duplicati come le versioni stampate delle pagine.

Prima di iniziare l'indicizzazione, i robot di ricerca fanno sempre riferimento al file robots.txt nella directory principale del tuo sito, ad esempio http://site.ru/robots.txt, per sapere in quali sezioni del sito il robot è vietato dall'indicizzazione. Ma anche se non hai intenzione di proibire nulla, si consiglia comunque di creare questo file.

Come puoi vedere dall'estensione robots.txt, questo è file di testo... Per creare o modificare questo file, è meglio usare il più semplice editor di testo come Blocco note. robots.txt deve trovarsi nella directory principale del sito e ha formato proprietario che vedremo di seguito.

Il formato file robots.txt

Il file robots.txt deve contenere almeno due voci obbligatorie. La prima è la direttiva User-agent che indica quale crawler deve seguire le istruzioni che seguono. Il valore può essere il nome del robot (googlebot, Yandex, StackRambler) o il simbolo * se ti stai rivolgendo a tutti i robot contemporaneamente. Ad esempio:

Agente utente: googlebot

Il nome del robot può essere trovato sul sito web del motore di ricerca corrispondente. Dovrebbero seguire una o più direttive Disallow. Queste direttive indicano al robot quali file e cartelle non possono essere indicizzati. Ad esempio, seguenti righe impedire ai robot di indicizzare il file feedback.php e la directory cgi-bin:

Disallow: /feedback.php Disallow: / cgi-bin /

È inoltre possibile utilizzare solo i caratteri iniziali di file o cartelle. La riga Disallow: / forum vieta l'indicizzazione di tutti i file e le cartelle nella radice del sito il cui nome inizia con forum, ad esempio il file http://site.ru/forum.php e la cartella http://site. ru/forum/ con tutto il contenuto. Se Disallow è vuoto, significa che il robot può indicizzare tutte le pagine. Se il valore Disallow è il simbolo /, significa che l'intero sito non può essere indicizzato.

Ogni campo User-agent deve avere almeno un campo Disallow. Cioè, se non hai intenzione di vietare nulla per l'indicizzazione, il file robots.txt dovrebbe contenere le seguenti voci:

Agente utente: * Non consentire:

Direttive aggiuntive

inoltre espressioni regolari Yandex e Google consentono l'utilizzo della direttiva Allow, che è l'opposto di Disallow, cioè specifica quali pagine possono essere indicizzate. V seguente esempio A Yandex è vietato indicizzare tutto tranne gli indirizzi delle pagine che iniziano con / articoli:

Agente utente: Yandex Consenti: / articoli Disallow: /

V questo esempio la direttiva Allow deve essere scritta prima di Disallow, altrimenti Yandex lo interpreterà come un divieto completo di indicizzazione del sito. Anche una direttiva Allow vuota impedisce completamente l'indicizzazione del sito:

Agente utente: Yandex Consenti:

equivale a

Agente utente: Yandex Disallow: /

Le direttive non standard dovrebbero essere specificate solo per quei motori di ricerca che le supportano. Altrimenti, il robot non capisce questa voce potrebbe non gestirlo correttamente o l'intero file robots.txt. Per ulteriori informazioni sulle direttive aggiuntive e, in generale, sulla comprensione dei comandi del file robots.txt da parte di un singolo robot, consultare il sito Web del motore di ricerca corrispondente.

Espressioni regolari in robots.txt

La maggior parte dei motori di ricerca considera solo esplicitamente nomi specificati file e cartelle, ma esistono anche motori di ricerca più avanzati. Google Robot e Yandex Robot supportano l'uso di semplici espressioni regolari in robots.txt, che riduce significativamente la quantità di lavoro per i webmaster. Ad esempio, i seguenti comandi disallow al robot di google indicizza tutti i file con estensione .pdf:

Agente utente: googlebot Disallow: * .pdf $

In questo esempio, il carattere * è una qualsiasi sequenza di caratteri e $ indica la fine del collegamento.

Agente utente: Yandex Consenti: /articles/*.html$ Disallow: /

Le direttive di cui sopra consentono a Yandex di indicizzare solo i file con l'estensione ".html" che si trova nella cartella /articoli/. Tutto il resto è vietato per l'indicizzazione.

mappa del sito

Puoi specificare la posizione della tua sitemap XML nel file robots.txt:

Agente utente: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Se hai molto un gran numero di pagine del sito e dovevi dividere la mappa del sito in parti, quindi devi specificare tutte le parti della mappa nel file robots.txt:

Agente utente: Yandex Disallow: Sitemap: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml

Mirror del sito

Come sai, di solito è possibile accedere allo stesso sito a due indirizzi: sia con www che senza. Per un robot di ricerca, site.ru e www.site.ru sono siti diversi, ma con lo stesso contenuto. Si chiamano specchi.

A causa del fatto che le pagine del sito hanno collegamenti sia con www che senza, il peso delle pagine può essere diviso tra www.site.ru e site.ru. Per evitare che ciò accada, il motore di ricerca deve specificare il mirror principale del sito. Come risultato dell'"incollaggio" tutto il peso apparterrà ad uno specchio principale e il sito potrà assumere una posizione più alta in risultati di ricerca.

Puoi specificare il mirror principale per Yandex direttamente nel file robots.txt utilizzando la direttiva Host:

Agente utente: Yandex Disallow: /feedback.php Disallow: / cgi-bin / Host: www.site.ru

Dopo l'incollaggio, il mirror www.site.ru avrà tutto il peso e occuperà una posizione più alta nei risultati di ricerca. E il motore di ricerca non indicizzerà affatto site.ru.

Per altri motori di ricerca, la scelta del mirror principale è un reindirizzamento permanente lato server (codice 301) dai mirror aggiuntivi a quello principale. Questo viene fatto usando il file .htaccess e il modulo mod_rewrite. Per fare ciò, metti il ​​file .htaccess nella radice del sito e scrivi quanto segue:

RewriteEngine On Opzioni + FollowSymlinks RewriteBase / RewriteCond% (HTTP_HOST) ^ site.ru $ RewriteRule ^ (. *) $ Http://www.site.ru/$1

Di conseguenza, tutte le richieste da site.ru andranno a www.site.ru, ovvero site.ru/page1.php verranno reindirizzate a www.site.ru/page1.php.

Il metodo di reindirizzamento funzionerà per tutti i motori di ricerca e browser, ma si consiglia comunque di aggiungere la direttiva Host per Yandex al file robots.txt.

Robots.txt Commenti

Puoi anche aggiungere commenti al tuo file robots.txt: iniziano con un # e terminano con un feed di riga. È consigliabile scrivere commenti su una riga separata ed è meglio non usarli affatto.

Un esempio di utilizzo dei commenti:

Agente utente: StackRambler Disallow: / garbage / # non c'è nulla di utile in questa cartella Disallow: /doc.xhtml # e anche su questa pagina # e anche tutti i commenti in questo file sono inutili

File robots.txt di esempio

1. Consentiamo a tutti i robot di indicizzare tutti i documenti del sito:

Agente utente: * Non consentire:
Agente utente: * Non consentire: /

3. Proibiamo il robot motore di ricerca google indicizza il file feedback.php e il contenuto della directory cgi-bin:

Agente utente: googlebot Disallow: / cgi-bin / Disallow: /feedback.php

4. Consentiamo a tutti i robot di indicizzare l'intero sito e vietiamo al robot del motore di ricerca Yandex di indicizzare il file feedback.php e il contenuto della directory cgi-bin:

Agente utente: Yandex Disallow: / cgi-bin / Disallow: /feedback.php Host: www.site.ru Agente utente: * Disallow:

5. Consentiamo a tutti i robot di indicizzare l'intero sito e consentiamo al robot Yandex di indicizzare solo la parte del sito prevista:

Agente utente: Yandex Consenti: / yandex Disallow: / Host: www.site.ru Agente utente: * Disallow:

Le righe vuote separano le restrizioni per i diversi robot. Ciascun blocco di restrizioni deve iniziare con una riga con un campo User-Agent che indica il robot a cui si applicano queste regole di indicizzazione del sito.

Errori comuni

Va tenuto presente che riga vuota nel file robots.txt è un separatore tra due record per diversi robot. Inoltre, non è possibile specificare più direttive su una riga. Quando si vieta l'indicizzazione di un file, i webmaster spesso saltano / prima del nome del file.

Non è necessario registrarsi in robots.txt per vietare l'indicizzazione del sito per vari programmi, che sono destinati al download completo del sito, ad esempio TeleportPro. Né i "programmi rocking" né i browser esaminano mai questo file e non seguono le istruzioni scritte lì. È destinato esclusivamente ai motori di ricerca. Inoltre, non dovresti bloccare il pannello di amministrazione del tuo sito in robots.txt, perché se non c'è alcun collegamento ad esso, non verrà indicizzato. Rivelerai solo la posizione dell'area di amministrazione a persone che non dovrebbero conoscerla. Vale anche la pena ricordare che robots.txt troppo grande può essere ignorato dal motore di ricerca. Se hai troppe pagine che non sono destinate all'indicizzazione, è meglio eliminarle semplicemente dal sito o spostarle in una directory separata e vietare l'indicizzazione di questa directory.

Controllo della presenza di errori nel file robots.txt

Assicurati di controllare come i motori di ricerca interpretano il tuo file robots. Per controllare Google, puoi usare Strumenti di Google per i webmaster. Se vuoi sapere come Yandex interpreta il tuo file robots.txt, puoi utilizzare il servizio Yandex.Webmaster. Questo ti permetterà di correggere gli errori commessi in tempo. Anche sulle pagine di questi servizi puoi trovare consigli per la compilazione di un file robots.txt e tante altre informazioni utili.

È vietata la copia dell'articolo.

Gli aspetti tecnici del sito creato non giocano da meno ruolo importante per la promozione del sito nei motori di ricerca rispetto al suo contenuto. Uno dei più importanti aspetti tecniciè l'indicizzazione del sito, ovvero la definizione di aree del sito (file e directory) che possono essere o meno indicizzate dai robot dei motori di ricerca. Per questi scopi, viene utilizzato robots.txt - questo è file speciale che contiene comandi per i robot dei motori di ricerca. File corretto robots.txt per Yandex e Google aiuterà ad evitare molte spiacevoli conseguenze associate all'indicizzazione del sito.

2. Il concetto del file robots.txt e i requisiti per esso

Il file /robots.txt ha lo scopo di istruire tutti gli spider a indicizzare server di informazioni come definito in questo file, ad es. solo quelle directory e file del server che non sono descritti in /robots.txt. Questo file deve contenere 0 o più record associati a uno o un altro robot (determinato dal valore del campo agent_id) e indicare per ciascun robot o per tutti in una volta cosa esattamente non devono essere indicizzati.

La sintassi del file consente di impostare aree di indicizzazione vietate, sia per tutti che per determinati robot.

Esistono requisiti speciali per il file robots.txt, la cui mancata osservanza può comportare una lettura errata da parte del robot del motore di ricerca o addirittura l'inoperabilità di questo file.

Requisiti primari:

  • tutte le lettere nel nome del file devono essere maiuscole, ovvero devono essere minuscole:
  • robots.txt - corretto,
  • Robots.txt o ROBOTS.TXT è sbagliato;
  • il file robots.txt deve essere generato in formato di testo Unix. Quando si copia questo file sul sito, il client ftp deve essere configurato per modalità testo condivisione di file;
  • il file robots.txt deve trovarsi nella directory principale del sito.

3. Contenuto del file robots.txt

Il file robots.txt include due voci: "User-agent" e "Disallow". I nomi di questi record non fanno distinzione tra maiuscole e minuscole.

Alcuni motori di ricerca supportano anche voci aggiuntive... Ad esempio, il motore di ricerca Yandex utilizza il record Host per determinare il mirror principale del sito (il mirror principale del sito è il sito che si trova nell'indice dei motori di ricerca).

Ogni voce ha un proprio scopo e può essere incontrata più volte, a seconda del numero di pagine e/o directory da chiudere dall'indicizzazione e del numero di robot a cui si sta accedendo.

Ipotetico seguente formato righe del file robots.txt:

nome_voce[opzionale

spazi] : [opzionale

spazi] senso[spazi facoltativi]

Affinché un file robots.txt sia considerato valido, deve essere presente almeno una direttiva "Disallow" dopo ogni voce "User-agent".

Completamente file vuoto robots.txt equivale a no robots.txt, il che implica il permesso di indicizzare l'intero sito.

Inserimento user-agent

Il record "User-agent" deve contenere il nome del robot di ricerca. In questa voce, puoi dire a ciascun robot specifico quali pagine del sito indicizzare e quali no.

Un esempio di record "User-agent", in cui la chiamata si verifica a tutti motori di ricerca nessuna eccezione e viene utilizzato il simbolo "*":

Un esempio di record "User-agent", in cui la chiamata viene effettuata solo al robot del motore di ricerca Rambler:

Agente utente: StackRambler

Il robot di ogni motore di ricerca ha il proprio nome. Ci sono due modi principali per riconoscerlo (nome):

sui siti di molti motori di ricerca è presente una sezione specializzata "aiuto al webmaster", in cui spesso viene indicato il nome del robot di ricerca;

Quando si guardano i log di un server web, in particolare quando si guardano i riferimenti al file § robots.txt, è possibile vedere molti nomi che contengono i nomi dei motori di ricerca o parte di essi. Pertanto, devi solo scegliere il nome desiderato e inserirlo nel file robots.txt.

Non consentire la registrazione

Il record "Disallow" deve contenere istruzioni che indichino al robot di ricerca dal record "User-agent" quali file e/o directory è vietata l'indicizzazione.

Tenere conto vari esempi Non consentire record.

Un esempio di voce robots.txt (consenti tutto per l'indicizzazione):

Non consentire:

Esempio (il sito è completamente vietato. Per questo, utilizzare il simbolo "/"): Disallow: /

Esempio (il file "page.htm" che si trova nella directory principale e il file "page2.htm" che si trova nella directory "dir" sono vietati per l'indicizzazione):

Non consentire: /page.htm

Non consentire: /dir/page2.htm

Esempio (le directory "cgi-bin" e "forum" e, quindi, l'intero contenuto di questa directory sono vietati per l'indicizzazione):

Non consentire: / cgi-bin /

Non consentire: / forum /

È possibile interrompere l'indicizzazione di un numero di documenti e (o) directory che iniziano con gli stessi caratteri utilizzando una sola voce "Disallow". Per fare ciò, è necessario scrivere i caratteri identici iniziali senza una barra di chiusura.

Esempio (la directory "dir" è vietata per l'indicizzazione, così come tutti i file e le directory che iniziano con le lettere "dir", cioè file: "dir.htm", "direct.htm", directory: "dir", "directory1 "," Directory2 ", ecc.):

Consenti ingresso

L'opzione "Consenti" viene utilizzata per indicare esclusioni da directory e pagine non indicizzate specificate dalla voce "Disallow".

Ad esempio, c'è una voce simile a questa:

Non consentire: / forum /

Ma allo stesso tempo, page1 deve essere indicizzata nella directory / forum /. Quindi hai bisogno delle seguenti righe nel tuo file robots.txt:

Non consentire: / forum /

Consenti: / forum / pagina1

Registrazione della mappa del sito

Questa voce punta alla posizione della mappa del sito in formato xml che viene utilizzato dai robot di ricerca. Questa voce indica il percorso di questo file.

Mappa del sito: http://site.ru/sitemap.xml

record dell'ospite

La voce "host" viene utilizzata dal motore di ricerca Yandex. È necessario determinare il mirror principale del sito, cioè se il sito ha dei mirror (un mirror è un mirror parziale o copia completa luogo. La presenza di risorse duplicate è talvolta necessaria per i proprietari di siti molto visitati per aumentare l'affidabilità e la disponibilità del proprio servizio), quindi tramite la direttiva "Host" è possibile selezionare il nome con cui si desidera essere indicizzati. Altrimenti, Yandex sceglierà da solo il mirror principale e il resto dei nomi non potrà essere indicizzato.

Per compatibilità con i crawler che non accettano la direttiva Host durante l'elaborazione di un file robots.txt, aggiungi la voce "Host" subito dopo le voci Disallow.

Esempio: www.site.ru - mirror principale:

Ospite: www.site.ru

Entrata in ritardo di scansione

Questa voce è percepita da Yandex. È un comando per il robot per creare intervalli di tempo specificato (in secondi) tra le pagine di indicizzazione. A volte è necessario proteggere il sito da sovraccarichi.

Quindi, la seguente voce significa che il robot Yandex deve passare da una pagina all'altra non prima di 3 secondi dopo:

Commenti (1)

Qualsiasi riga in robots.txt che inizia con un carattere "#" è considerata un commento. È consentito utilizzare commenti alla fine delle righe con direttive, ma alcuni robot potrebbero non riconoscere correttamente questa riga.

Esempio (il commento è sulla stessa riga insieme alla direttiva):

Non consentire: / cgi-bin / # commento

Si consiglia di inserire il commento su una riga separata. Lo spazio bianco all'inizio di una riga è consentito ma non consigliato.

4. Esempi di file robots.txt

Esempio (il commento è su una riga separata):
Non consentire: / cgi-bin / # commento

Un esempio di file robots.txt che consente a tutti i robot di indicizzare l'intero sito:

Ospite: www.site.ru

Un esempio di file robots.txt che vieta a tutti i robot di indicizzare un sito:

Ospite: www.site.ru

Un esempio di file robots.txt che vieta a tutti i robot di indicizzare la directory "abc", nonché tutte le directory e i file che iniziano con i caratteri "abc".

Ospite: www.site.ru

Un esempio di file robots.txt che vieta l'indicizzazione della pagina "page.htm" situata nella directory principale del sito da parte del robot di ricerca "googlebot":

Agente utente: googlebot

Non consentire: /page.htm

Ospite: www.site.ru

Un esempio di file robots.txt che non consente l'indicizzazione:

- per il robot "googlebot" - la pagina "page1.htm" situata nella directory "directory";

- per il robot Yandex - tutte le directory e le pagine che iniziano con i simboli "dir" (/ dir /, / direct /, dir.htm, direction.htm, ecc.) e si trovano nella directory principale del sito.

Agente utente: googlebot

Non consentire: /directory/page1.htm

Agente utente: Yandex

5. Errori relativi al file robots.txt

Uno degli errori più comuni è la sintassi invertita.

Non proprio:

Non consentire: Yandex

Destra:

Agente utente: Yandex

Non proprio:

Non consentire: / dir / / cgi-bin / / forum /

Destra:

Non consentire: / cgi-bin /

Non consentire: / forum /

Se, durante l'elaborazione di un errore 404 (documento non trovato), il server Web emette una pagina speciale e il file robots.txt è mancante, è possibile una situazione in cui il robot di ricerca quando richiede un file robots.txt riceve lo stesso pagina speciale che non è in alcun modo un file di controllo dell'indicizzazione.

Errore relativo al caso Robots.txt. Ad esempio, se è necessario chiudere la directory "cgi-bin", nella voce "Disallow" non è possibile scrivere il nome della directory in "cgi-bin" maiuscolo.

Non proprio:

Non consentire: / CGI-BIN /

Destra:

Non consentire: / cgi-bin /

Un errore relativo all'assenza di una barra di apertura quando si chiude una directory dall'indicizzazione.

Non proprio:

Non consentire: page.HTML

Destra:

Non consentire: /page.html

Per evitare gli errori più comuni, puoi controllare il file robots.txt utilizzando gli strumenti Yandex.Webmaster o Strumenti per webmaster di Google... Il controllo viene effettuato dopo aver scaricato il file.

6. Conclusione

Pertanto, la presenza di un file robots.txt, così come la sua compilazione, possono influenzare la promozione di un sito nei motori di ricerca. Senza conoscere la sintassi del file robots.txt, puoi vietare l'indicizzazione di eventuali pagine promosse, nonché dell'intero sito. E, al contrario, la compilazione competente di questo file può essere di grande aiuto nella promozione della risorsa, ad esempio è possibile chiudere i documenti dall'indicizzazione che interferiscono con la promozione delle pagine desiderate.

Dall'autore: Hai pagine del tuo sito che non vorresti mostrare ai motori di ricerca? In questo articolo imparerai in dettaglio come impedire l'indicizzazione di una pagina in robots.txt, se è corretta e come bloccare correttamente l'accesso alle pagine in generale.

Quindi, è necessario impedire l'indicizzazione di alcuni certe pagine... Il modo più semplice per farlo sarà nel file robots.txt stesso, aggiungendovi le righe necessarie. Voglio notare che abbiamo registrato gli indirizzi delle cartelle relativi agli indirizzi url pagine specifiche specifica allo stesso modo, ma puoi scrivere percorso assoluto.

Diciamo che il mio blog ha un paio di pagine: contatti, su di me e sui miei servizi. Non vorrei che fossero indicizzati. Di conseguenza, scriviamo:

Agente utente: * Disallow: / kontakty / Disallow: / about / Disallow: / uslugi /

Un'altra variante

Ottimo, ma non lo è l'unico modo chiudere l'accesso del robot a determinate pagine. Il secondo è inserire uno speciale meta tag nel codice html. Naturalmente, inserire solo in quei record che devono essere chiusi. Sembra così:

< meta name = "robots" content = "noindex,nofollow" >

Il tag deve essere posizionato nel contenitore head nel documento html per lavoro corretto... Come puoi vedere, ha due parametri. Il nome viene specificato come crawler e specifica che queste indicazioni sono per i crawler.

Il parametro content deve avere due valori separati da virgole. Il primo è il divieto o il permesso per l'indicizzazione informazioni di testo sulla pagina, il secondo è un'indicazione se indicizzare i collegamenti nella pagina.

Pertanto, se si desidera che la pagina non venga affatto indicizzata, specificare i valori noindex, nofollow, ovvero non indicizzare il testo e vietare i collegamenti seguenti, se presenti. C'è una regola che se non c'è testo sulla pagina, allora non verrà indicizzato. Cioè, se tutto il testo è chiuso in noindex, non c'è nulla da indicizzare, quindi nulla entrerà nell'indice.

Inoltre, ci sono tali valori:

noindex, follow - divieto di indicizzazione del testo, ma permesso di seguire i collegamenti;

index, nofollow - può essere utilizzato quando il contenuto deve essere inserito nell'indice, ma tutti i collegamenti in esso contenuti devono essere chiusi.

index, follow - valore predefinito. Tutto è permesso.

Principali articoli correlati