Robot txt nu interzice indexarea. Și acum cu clarificări

05.04.2019 Fier

Robots.txt este un fișier de serviciu care servește drept recomandare pentru a restricționa accesul la conținutul documentelor web pentru motoarele de căutare. În acest articol, vom analiza configurația Robots.txt, descrierea directivelor și compilarea acesteia pentru CMS popular.

Acest fișier Robot se află în directorul rădăcină al site-ului dvs. și este deschis/editat blocnotes simplu, recomand Notepad ++. Pentru cei cărora nu le place să citească - există un VIDEO, vezi finalul articolului 😉

De ce este nevoie de robots.txt

După cum am spus mai sus, folosind fișierul robots.txt, putem restricționa accesul roboților de căutare la documente, de exemplu. influentam direct indexarea site-ului. Cel mai adesea sunt închise de la indexare:

Fișiere de serviciu și foldere CMS
Duplicate
Documente care nu sunt utile utilizatorului
Pagini care nu sunt unice

Să ne uităm la un exemplu concret:

Magazin online de vânzare pantofi și implementat pe unul dintre CMS-urile populare, și nu în cel mai bun mod. Pot spune imediat ce va fi în pagina cu rezultatele căutării, paginare, coș de cumpărături, câteva fișiere de motor etc. Toate acestea vor fi duplicate și fișiere de serviciu care sunt inutile pentru utilizator. Prin urmare, acestea ar trebui să fie închise de la indexare, iar dacă există încă o secțiune „Știri” în care diferite copii și lipite articole interesante de pe site-urile concurenților - atunci nu trebuie să te gândești, îl închidem imediat.

Prin urmare, asigurați-vă că îl obțineți cu un fișier robots.txt, astfel încât gunoiul să nu intre în rezultate. Nu uitați că fișierul trebuie deschis la http://site.ru/robots.txt.

Directive Robots.txt și reguli de personalizare

Agent utilizator. Acesta este un apel la un anumit robot de motor de căutare sau la toți roboții. Dacă este prescris nume specific robot, de exemplu „YandexMedia”, atunci directivele generale user-agent nu sunt folosite pentru acesta. Un exemplu de scriere:

Agent utilizator: YandexBot Disallow: / coșul # va fi folosit numai de robotul principal de indexare Yandex

Dezactivați / Permiteți. Aceasta este interdicția/permisiunea de a indexa un anumit document sau secțiune. Ordinea scrierii nu contează, dar cu 2 directive și același prefix se dă prioritate „Permite”. Robotul de căutare le citește în funcție de lungimea prefixului, de la cel mai mic la cel mai mare. Dacă trebuie să interziceți indexarea paginii, introduceți doar calea relativă către aceasta (Disallow: / blog / post-1).

User-agent: Yandex Disallow: / Allow: / articles # Interziceți indexarea site-ului, cu excepția articolelor dintr-o secțiune

Expresii regulate cu * și $. Un asterisc înseamnă orice succesiune de caractere (inclusiv cele goale). Semnul dolarului înseamnă întrerupere. Exemple de utilizare:

Disallow: / page * # interzice toate paginile, construcții http://site.ru/page Disallow: / arcticles $ # interzice numai pagina http://site.ru/articles, permițând paginile http://site.ru/ articole / noi

Directiva Sitemap. Dacă îl utilizați, atunci în robots.txt ar trebui să fie indicat astfel:

Harta site-ului: http://site.ru/sitemap.xml

Directiva gazdă. După cum știți, site-urile au oglinzi (citiți,). Această regulă indică botul de căutare către oglinda principală a resursei dvs. Se referă la Yandex. Dacă aveți o oglindă fără WWW, atunci scrieți:

Gazdă: site.ru

Întârzierea târârii. Specifică întârzierea (în secunde) dintre descărcările robot ale documentelor dvs. Este înregistrat după directivele Disallow/Allow.

Întârziere accesare cu crawlere: 5 # timeout în 5 secunde

Clean-param. Indică botului de căutare că nu este nevoie să descărcați informații suplimentare duplicate (identificatori de sesiuni, referreri, utilizatori). Clean-param ar trebui prescris pentru paginile dinamice:

Clean-param: ref / categorie / cărți # indicăm că pagina noastră este pagina principală, iar http://site.ru/category/books?ref=yandex.ru&id=1 este aceeași pagină, dar cu parametri

Regula principală: robots.txt trebuie să fie scris în literă micăși se află la rădăcina site-ului. Exemplu de structură de fișiere:

User-agent: Yandex Disallow: / cart Allow: / cart / images Sitemap: http://site.ru/sitemap.xml Gazdă: site.ru Crawl-delay: 2

Metaeticheta roboților și cum este scrisă

Această opțiune de blocare a paginilor este mai bine luată în considerare de motorul de căutare sistemul Google... Yandex ia în considerare ambele opțiuni la fel de bine.

Are 2 directive: follow / nofollowși index / noindex... Acestea sunt permisiunea/interdicția de a urmări link-uri și permisiunea/interdicția de indexare a documentului. Directivele pot fi scrise împreună, vezi exemplul de mai jos.

Pentru orice pagină separată poți scrie în etichetă ca urmare a:

Fișierele robots.txt corecte pentru CMS populare

Exemplu Robots.txt pentru WordPress

Mai jos puteți vedea versiunea mea de pe acest blog Seo.

Agent utilizator: Yandex Disallow: / wp-content / uploads / Allow: / wp-content / uploads / * / * / Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / wp-trackback Disallow: / wp-feed Disallow: / wp-comments Disallow: * / trackback Disallow: * / feed Disallow: * / comentarii Disallow: / tag Disallow: / archive Disallow: * / trackback / Disallow: * / feed / Nepermis: * / comentarii / Nepermis: /? Feed = Nepermis: /?.php Nepermis: /wp-register.php Nepermis: /xmlrpc.php Nepermis: /template.html Nepermis: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / wp-trackback Disallow: / wp-feed Disallow: / wp-comments Disallow: * / trackback Disallow: * / feed Disallow: * / comments Disallow: / tag Disallow: / archive Disallow: * / trackback / Disallo w: * / feed / Disallow: * / comments / Disallow: /? feed = Disallow: /?.xml

Interzic trackback-urile pentru că dublează o bucată din articol în comentarii. Și dacă există multe trackback-uri, veți primi o grămadă de comentarii identice.

Încerc să închid folderele de serviciu și fișierele oricărui CMS, deoarece Nu vreau să fie incluse în index (deși motoarele de căutare oricum nu o iau, nu se va înrăutăți).

Furajele ar trebui să fie închise deoarece acestea sunt pagini duplicate parțiale sau complete.

Închidem etichetele dacă nu le folosim sau ne este prea lene să le optimizăm.

Exemple pentru alte CMS

A descărca roboți corecti pentru CMS-ul necesar, faceți clic pe linkul corespunzător.

Cum se închide un site, un link, o pagină de la indexare?

Nu este întotdeauna necesar ca motoarele de căutare să indexeze toate informațiile de pe site.

Uneori, webmasterii chiar trebuie să închidă complet site-ul de la indexare, dar începătorii nu știu cum să facă acest lucru. Dacă doriți, puteți ascunde orice conținut, resursă sau paginile sale individuale de motoarele de căutare.

Cum se închide un site, un link, o pagină de la indexare? Sunt câteva funcții simple pe care îl puteți folosi pentru a închide orice informații de la Yandex și Google. În acest articol, vă vom arăta cum să blochezi un site de la indexarea prin roboți, și vă arată ce cod trebuie adăugat la acest fișier.

Închiderea motoarelor de căutare de la indexare

Înainte de a vorbi despre metoda folosind robots.txt, vă vom arăta cum să blocați indexarea unui site pe WordPress prin panoul de administrare. În setări (citirea secțiunii), există o funcție convenabilă:

Puteți elimina vizibilitatea site-ului, dar acordați atenție indicii. Se spune că motoarele de căutare pot indexa în continuare o resursă, așa că este mai bine să folosești o metodă dovedită și să adaugi codul necesarîn robots.txt.

Fișierul text al roboților este în, iar dacă nu este acolo, creați-l prin notepad.

Următorul cod va ajuta la închiderea site-ului de la indexare:

Doar adăugați-l la prima linie (înlocuiți liniile existente). Dacă trebuie să închideți site-ul numai din Yandex, specificați Yandex în loc de asterisc; dacă închideți resursa de la Google, introduceți Googlebot.

Dacă nu puteți utiliza această metodă, trebuie doar să adăugați linia la codul site-ului .

Când parcurgeți acești pași, site-ul nu va mai fi indexat, acesta este cel mai mult Cel mai bun mod pentru a închide resursa din roboți de căutare.

Cum se închide o pagină de la indexare?

Dacă doriți să ascundeți o singură pagină, va trebui să înregistrați un alt cod în fișierul robots:

Nu permiteți: / categorie / kak-nachat-zarabatyvat

În a doua linie, trebuie să specificați adresa paginii, dar fără numele domeniului. Alternativ, puteți închide pagina de la indexare dacă scrieți în codul acesteia:

S-a terminat varianta dificila, dar dacă nu doriți să adăugați linii la robots.txt, atunci aceasta este o soluție excelentă. Dacă ați ajuns pe această pagină în căutarea unei modalități de a bloca indexarea duplicatelor, atunci cel mai simplu mod este să adăugați toate linkurile către roboți.

Cum să închideți un link sau un text de la indexare?

Nici aici nu este nimic complicat, trebuie doar să adaugi etichete specialeîn codul de link sau înconjurați-l cu ele:

Ancoră

Folosind la fel etichete noindex te poți ascunde de motoarele de căutare text diferit... Pentru a face acest lucru, trebuie să înregistrați această etichetă în editorul de articole.

Din păcate, Google nu are o astfel de etichetă, așa că nu puteți ascunde o parte din text de ea. Cel mai simplu mod de a face acest lucru este să adăugați o imagine cu text.

Una dintre etapele optimizării site-ului web pentru motoarele de căutare este compilarea unui fișier robots.txt. Prin intermediul a acestui dosar puteți împiedica unii sau toți roboții de căutare să vă indexeze site-ul sau anumite părți ale acestuia care nu sunt destinate indexării. În special, puteți împiedica indexarea conținutului duplicat, cum ar fi versiunile tipărite ale paginilor.

Înainte de a începe indexarea, roboții de căutare se referă întotdeauna la fișierul robots.txt din directorul rădăcină al site-ului dvs., de exemplu, http://site.ru/robots.txt, pentru a ști în ce secțiuni ale site-ului robotul este interzis. din indexare. Dar chiar dacă nu veți interzice nimic, este totuși recomandat să creați acest fișier.

După cum puteți vedea din extensia robots.txt, aceasta este fisier text... Pentru a crea sau edita acest fișier, este mai bine să utilizați cel mai simplu editori de text ca Notepad. robots.txt trebuie să fie localizat în directorul rădăcină al site-ului și are format proprietar pe care ne vom uita mai jos.

Formatul de fișier robots.txt

Fișierul robots.txt trebuie să conțină cel puțin două intrări obligatorii. Prima este directiva User-agent care indică ce crawler ar trebui să urmeze instrucțiunile care urmează. Valoarea poate fi numele robotului (googlebot, Yandex, StackRambler) sau simbolul * dacă vă adresați tuturor roboților simultan. De exemplu:

Agent utilizator: googlebot

Numele robotului poate fi găsit pe site-ul motorului de căutare corespunzător. Ar trebui să urmeze una sau mai multe directive Disallow. Aceste directive îi spun robotului care fișiere și foldere nu au acces la indexare. De exemplu, următoarele rânduriîmpiedicați roboții să indexeze fișierul feedback.php și directorul cgi-bin:

Disallow: /feedback.php Disallow: / cgi-bin /

De asemenea, puteți utiliza numai caracterele principale ale fișierelor sau folderelor. Linia Disallow: / forum interzice indexarea tuturor fișierelor și folderelor din rădăcina site-ului al cărui nume începe cu forum, de exemplu, fișierul http://site.ru/forum.php și folderul http://site. ru/forum/ cu tot conținutul. Dacă Disallow este gol, înseamnă că robotul poate indexa toate paginile. Dacă valoarea Disallow este simbolul /, înseamnă că întregul site nu poate fi indexat.

Fiecare câmp User-agent trebuie să aibă cel puțin un câmp Nepermis. Adică, dacă nu interziceți nimic pentru indexare, atunci fișierul robots.txt ar trebui să conțină următoarele intrări:

Agent utilizator: * Nu permite:

Directive suplimentare

în afară de expresii obisnuite Yandex și Google permit utilizarea directivei Allow, care este opusul Disallow, adică specifică ce pagini pot fi indexate. V următorul exemplu Yandex nu are voie să indexeze totul, cu excepția adreselor paginilor care încep cu / articole:

Agent utilizator: Yandex Permite: / articole Disallow: /

V acest exemplu directiva Allow trebuie scrisă înainte de Disallow, altfel Yandex va înțelege acest lucru ca o interdicție completă a indexării site-urilor. O directivă Allow goală, de asemenea, interzice complet indexarea site-ului:

Agent utilizator: Yandex Permite:

echivalează cu

Agent utilizator: Yandex Disallow: /

Directivele nestandard ar trebui specificate numai pentru acele motoare de căutare care le acceptă. Altfel, robotul nu înțelege această intrare este posibil să nu o gestioneze corect sau întregul fișier robots.txt. Pentru mai multe informații despre directive suplimentare și, în general, despre înțelegerea comenzilor fișierului robots.txt de către un robot individual, consultați site-ul web al motorului de căutare corespunzător.

Expresii regulate în robots.txt

Majoritatea motoarelor de căutare iau în considerare doar în mod explicit nume specificate fișiere și foldere, dar există și motoare de căutare mai avansate. Google Robot și Yandex Robot acceptă utilizarea expresiilor regulate simple în robots.txt, ceea ce reduce semnificativ volumul de muncă pentru webmasteri. De exemplu, următoarele comenzi nu sunt permise la robotul Google indexați toate fișierele cu extensia .pdf:

Agent de utilizator: googlebot Disallow: * .pdf $

În acest exemplu, caracterul * este orice succesiune de caractere, iar $ indică sfârșitul legăturii.

Agent utilizator: Yandex Allow: /articles/*.html$ Disallow: /

Directivele de mai sus permit lui Yandex să indexeze numai fișierele cu extensia „.html” aflată în folderul / articole /. Orice altceva este interzis pentru indexare.

harta site-ului

Puteți specifica locația sitemap-ului dvs. XML în fișierul robots.txt:

Agent de utilizator: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Dacă ai foarte un numar mare de pagini de pe site și a trebuit să împărțiți harta site-ului în părți, apoi trebuie să specificați toate părțile hărții în fișierul robots.txt:

Agent utilizator: Yandex Disallow: Harta site-ului: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml

Oglinzi de site

După cum știți, de obicei același site poate fi accesat la două adrese: atât cu www, cât și fără acesta. Pentru un robot de căutare, site.ru și www.site.ru sunt site-uri diferite, dar cu același conținut. Se numesc oglinzi.

Datorita faptului ca paginile site-ului au legaturi atat cu www, cat si fara, ponderea paginilor poate fi impartita intre www.site.ru si site.ru. Pentru a preveni acest lucru, motorul de căutare trebuie să specifice oglinda principală a site-ului. Ca urmare a „lipirii” toată greutatea va aparține unei oglinzi principale, iar site-ul va putea lua o poziție mai mare în rezultatele cautarii.

Puteți specifica oglinda principală pentru Yandex direct în fișierul robots.txt folosind directiva Gazdă:

Agent utilizator: Yandex Disallow: /feedback.php Disallow: / cgi-bin / Gazdă: www.site.ru

După lipire, oglinda www.site.ru va deține toată greutatea și va ocupa o poziție superioară în rezultatele căutării. Și motorul de căutare nu va indexa deloc site.ru.

Pentru alte motoare de căutare, alegerea oglinzii principale este o redirecționare permanentă pe partea serverului (cod 301) de la oglinzile suplimentare către cea principală. Acest lucru se face folosind fișierul .htaccess și modulul mod_rewrite. Pentru a face acest lucru, puneți fișierul .htaccess în rădăcina site-ului și scrieți acolo următoarele:

RewriteEngine On Options + FollowSymlinks RewriteBase / RewriteCond% (HTTP_HOST) ^ site.ru $ RewriteRule ^ (. *) $ Http://www.site.ru/$1

Ca urmare, toate cererile de la site.ru vor ajunge la www.site.ru, adică site.ru/page1.php vor fi redirecționate către www.site.ru/page1.php.

Metoda de redirecționare va funcționa pentru toate motoarele de căutare și browserele, dar este totuși recomandat să adăugați directiva Gazdă pentru Yandex în fișierul robots.txt.

Comentarii Robots.txt

De asemenea, puteți adăuga comentarii la fișierul robots.txt - acestea încep cu # și se termină cu un flux de rând. Este recomandabil să scrieți comentarii pe o linie separată și este mai bine să nu le folosiți deloc.

Un exemplu de utilizare a comentariilor:

Agent utilizator: StackRambler Disallow: / garbage / # nu este nimic util în acest folder Disallow: /doc.xhtml # și pe această pagină # și toate comentariile din acest fișier sunt, de asemenea, inutile

Exemple de fișiere robots.txt

1. Permitem tuturor roboților să indexeze toate documentele site-ului:

Agent utilizator: * Nu permite:
Agent utilizator: * Nu permite: /

3. Interzicem robotul motor de căutare google indexați fișierul feedback.php și conținutul directorului cgi-bin:

Agent de utilizator: googlebot Disallow: / cgi-bin / Disallow: /feedback.php

4. Permitem tuturor roboților să indexeze întregul site și interzicem robotului motorului de căutare Yandex să indexeze fișierul feedback.php și conținutul directorului cgi-bin:

Agent utilizator: Yandex Disallow: / cgi-bin / Disallow: /feedback.php Gazdă: www.site.ru Agent utilizator: * Disallow:

5. Permitem tuturor roboților să indexeze întregul site și permitem robotului Yandex să indexeze numai partea din site-ul destinată acestuia:

Agent utilizator: Yandex Allow: / yandex Disallow: / Gazdă: www.site.ru User-agent: * Disallow:

Liniile goale separă restricții pentru diferiți roboți. Fiecare bloc de restricții trebuie să înceapă cu o linie cu un câmp User-Agent care indică robotul căruia i se aplică aceste reguli de indexare a site-ului.

Greșeli comune

Trebuie avut în vedere faptul că linie goalăîn fișierul robots.txt este un separator între două înregistrări pentru roboți diferiți. De asemenea, nu puteți specifica mai multe directive pe o singură linie. Atunci când interzic indexarea unui fișier, webmasterii omit adesea / înainte de numele fișierului.

Nu trebuie să vă înregistrați în robots.txt o interdicție a indexării site-urilor pentru diverse programe, care sunt destinate unei descărcări complete a site-ului, de exemplu, TeleportPro. Nici „programele rock” și nici browserele nu caută vreodată acest fișier și nu urmează instrucțiunile scrise acolo. Este destinat exclusiv motoarelor de căutare. De asemenea, nu ar trebui să blocați panoul de administrare al site-ului dvs. în robots.txt, deoarece dacă nu există niciun link către acesta, atunci acesta nu va fi indexat. Veți dezvălui doar locația zonei de administrare persoanelor care nu ar trebui să știe despre aceasta. De asemenea, merită să ne amintim că robots.txt prea mare poate fi ignorat de motorul de căutare. Dacă aveți prea multe pagini care nu sunt destinate indexării, atunci este mai bine să le ștergeți pur și simplu de pe site sau să le mutați într-un director separat și să interziceți indexarea acestui director.

Verificarea fișierului robots.txt pentru erori

Asigurați-vă că verificați cum înțeleg motoarele de căutare fișierul dvs. roboți. Pentru a verifica Google, puteți utiliza Instrumente Google pentru webmasteri. Dacă doriți să aflați cum înțelege Yandex fișierul dvs. robots.txt, puteți utiliza serviciul Yandex.Webmaster. Acest lucru vă va permite să corectați greșelile făcute la timp. Tot pe paginile acestor servicii puteți găsi recomandări pentru compilarea unui fișier robots.txt și o mulțime de alte informații utile.

Copierea articolului este interzisă.

Aspectele tehnice ale site-ului creat joacă nu mai puțin rol important pentru promovarea site-ului web în motoarele de căutare decât conținutul acestuia. Unul dintre cele mai importante aspecte tehnice este indexarea site-ului, adică definirea zonelor site-ului (fișiere și directoare) care pot fi sau nu indexate de roboții motoarelor de căutare. În aceste scopuri, se utilizează robots.txt - aceasta este dosar special care conține comenzi pentru roboții motoarelor de căutare. Fișier corect robots.txt pentru Yandex și Google va ajuta la evitarea multor consecințe neplăcute asociate cu indexarea site-urilor.

2. Conceptul fișierului robots.txt și cerințele pentru acesta

Fișierul /robots.txt are scopul de a instrui toți păianjenii să indexeze servere de informații așa cum este definit în acest fișier, adică numai acele directoare și fișiere server care nu sunt descrise în /robots.txt. Acest fișier trebuie să conțină 0 sau mai multe înregistrări care sunt asociate cu unul sau altul robot (care este determinat de valoarea câmpului agent_id) și să indice pentru fiecare robot sau pentru toți deodată ce anume nu trebuie indexați.

Sintaxa fișierului vă permite să setați zone de indexare interzise, atât pentru toți, cât și pentru anumiți roboți.

Există cerințe speciale pentru fișierul robots.txt, nerespectarea cărora poate duce la citirea incorectă de către robotul motorului de căutare sau chiar la inoperabilitatea acestui fișier.

Cerințe primare:

toate literele din numele fișierului trebuie să fie majuscule, adică trebuie să fie litere mici:
robots.txt - corect,
Robots.txt sau ROBOTS.TXT este greșit;
fișierul robots.txt trebuie să fie generat în format text Unix. Când copiați acest fișier pe site, clientul ftp trebuie configurat la modul text distribuire a unui fisier;
fișierul robots.txt trebuie să fie localizat în directorul rădăcină al site-ului.

3. Conținutul fișierului robots.txt

Fișierul robots.txt include două intrări: „User-agent” și „Disallow”. Numele acestor înregistrări nu fac distincție între majuscule și minuscule.

Unele motoare de căutare acceptă, de asemenea intrări suplimentare... De exemplu, motorul de căutare Yandex folosește înregistrarea Gazdă pentru a determina oglinda principală a site-ului (oglinda principală a site-ului este site-ul care se află în indexul motoarelor de căutare).

Fiecare intrare are propriul scop și poate fi întâlnită de mai multe ori, în funcție de numărul de pagini și/sau directoare care trebuie închise de la indexare și de numărul de roboți pe care îi accesați.

Presupus următorul format linii de fișier robots.txt:

nume_intrare[opțional

spatii] : [opțional

spatii] sens[spații opționale]

Pentru ca un fișier robots.txt să fie considerat valid, cel puțin o directivă „Disallow” trebuie să fie prezentă după fiecare intrare „User-agent”.

In totalitate dosar gol robots.txt este echivalent cu no robots.txt, ceea ce implică permisiunea de a indexa întregul site.

Intrare utilizator-agent

Înregistrarea „User-agent” trebuie să conțină numele robotului de căutare. În această intrare, puteți spune fiecărui robot specific ce pagini ale site-ului să indexeze și care nu.

Un exemplu de înregistrare „User-agent”, în care apelul are loc tuturor motoare de căutare fără excepții și se folosește simbolul „*”:

Un exemplu de înregistrare „User-agent”, în care apelul este efectuat numai către robotul motorului de căutare Rambler:

Agent utilizator: StackRambler

Robotul fiecărui motor de căutare are propriul nume. Există două moduri principale de a-l recunoaște (nume):

pe site-urile multor motoare de căutare există o secțiune specializată „ajutor pentru webmaster”, în care este indicat adesea numele robotului de căutare;

Când vă uitați la jurnalele unui server web, în special când vă uitați la accesări ale fișierului § robots.txt, puteți vedea multe nume care conțin numele motoarelor de căutare sau o parte a acestora. Prin urmare, trebuie doar să alegeți numele dorit și să îl introduceți în fișierul robots.txt.

Nu permiteți înregistrarea

Înregistrarea „Disallow” trebuie să conțină instrucțiuni care să indice robotului de căutare din înregistrarea „User-agent” care fișiere și/sau directoare sunt interzise de indexare.

Considera diverse exemple Nu permiteți înregistrările.

Un exemplu de intrare robots.txt (permiteți totul pentru indexare):

Nu permiteți:

Exemplu (site-ul este complet interzis. Pentru aceasta, utilizați simbolul „/”): Nu permiteți: /

Exemplu (fișierul „page.htm” aflat în directorul rădăcină și fișierul „page2.htm” situat în directorul „dir” sunt interzise pentru indexare):

Nu permiteți: /page.htm

Nu permiteți: /dir/page2.htm

Exemplu (directoarele „cgi-bin” și „forum” și, prin urmare, întregul conținut al acestui director sunt interzise pentru indexare):

Nu permiteți: / cgi-bin /

Nu permite: / forum /

Este posibil să închideți de la indexarea unui număr de documente și (sau) directoare care încep cu aceleași caractere folosind o singură intrare „Disallow”. Pentru a face acest lucru, trebuie să scrieți caracterele inițiale identice fără o bară oblică de închidere.

Exemplu (directorul „dir” este interzis pentru indexare, precum și toate fișierele și directoarele care încep cu literele „dir”, adică fișierele: „dir.htm”, „direct.htm”, directoare: „dir”, "directory1 "," Directory2 ", etc.):

Permiteți intrarea

Opțiunea „Permite” este utilizată pentru a indica excluderile din directoare și pagini neindexate care sunt specificate de intrarea „Nepermite”.

De exemplu, există o intrare care arată astfel:

Nu permite: / forum /

Dar, în același timp, pagina1 trebuie indexată în directorul / forum /. Apoi aveți nevoie de următoarele rânduri în fișierul robots.txt:

Nu permite: / forum /

Permite: / forum / pagina1

Înregistrare sitemap

Această intrare indică locația hărții site-ului în format xml care este folosit de roboții de căutare. Această intrare indică calea către acest fișier.

Harta site-ului: http://site.ru/sitemap.xml

Înregistrare gazdă

Intrarea „gazdă” este utilizată de motorul de căutare Yandex. Este necesar să se determine oglinda principală a site-ului, adică dacă site-ul are oglinzi (o oglindă este parțială sau copie integrală site-ul. Prezența resurselor duplicate este uneori necesară pentru proprietarii de site-uri foarte vizitate pentru a crește fiabilitatea și disponibilitatea serviciului lor), apoi folosind directiva „Gazdă”, puteți selecta numele sub care doriți să fiți indexat. În caz contrar, Yandex va alege singur oglinda principală, iar restul numelor va fi interzisă de la indexare.

Pentru compatibilitate cu crawlerele care nu acceptă directiva Gazdă atunci când procesează un fișier robots.txt, adăugați intrarea „Gazdă” imediat după intrările Disallow.

Exemplu: www.site.ru - oglinda principală:

Gazdă: www.site.ru

Intrare cu întârziere prin crawl

Această intrare este percepută de Yandex. Este o comandă pentru robot pentru a face intervale de timp specificat (în secunde) între paginile de indexare. Uneori este necesar să protejați site-ul de supraîncărcări.

Deci, următoarea intrare înseamnă că robotul Yandex trebuie să treacă de la o pagină la alta nu mai devreme de 3 secunde mai târziu:

Comentarii (1)

Orice rând din robots.txt care începe cu caracterul „#” este considerat un comentariu. Este permisă utilizarea comentariilor la sfârșitul rândurilor cu directive, dar este posibil ca unii roboți să nu recunoască corect această linie.

Exemplu (comentarul este pe aceeași linie împreună cu directiva):

Nu permiteți: / cgi-bin / # comentariu

Este recomandabil să plasați comentariul pe un rând separat. Spațiul alb la începutul unei linii este permis, dar nu este recomandat.

4. Exemple de fișiere robots.txt

Exemplu (comentariul este pe o linie separată):
Nu permiteți: / cgi-bin / # comentariu

Un exemplu de fișier robots.txt care permite tuturor roboților să indexeze întregul site:

Gazdă: www.site.ru

Un exemplu de fișier robots.txt care interzice tuturor roboților să indexeze un site:

Gazdă: www.site.ru

Un exemplu de fișier robots.txt care interzice tuturor roboților să indexeze directorul „abc”, precum și toate directoarele și fișierele care încep cu caracterele „abc”.

Gazdă: www.site.ru

Un exemplu de fișier robots.txt care interzice indexarea paginii „page.htm” aflată în directorul rădăcină al site-ului de către robotul de căutare „googlebot”:

Agent utilizator: googlebot

Nu permiteți: /page.htm

Gazdă: www.site.ru

Un exemplu de fișier robots.txt care nu permite indexarea:

- pentru robotul „googlebot” - pagina „page1.htm” aflată în directorul „directory”;

- pentru robotul Yandex - toate directoarele și paginile care încep cu simbolurile „dir” (/ dir /, / direct /, dir.htm, direction.htm etc.) și se află în directorul rădăcină al site-ului.

Agent utilizator: googlebot

Nu permiteți: /directory/page1.htm

Agent utilizator: Yandex

5. Erori legate de fișierul robots.txt

Una dintre cele mai frecvente greșeli este sintaxa inversată.

Necorespunzător:

Nu permite: Yandex

Dreapta:

Agent utilizator: Yandex

Necorespunzător:

Disallow: / dir / / cgi-bin / / forum /

Dreapta:

Nu permiteți: / cgi-bin /

Nu permite: / forum /

Dacă, la procesarea unei erori 404 (documentul nu a fost găsit), serverul web emite o pagină specială, iar fișierul robots.txt lipsește, atunci este posibilă o situație când robotului de căutare atunci când solicită un fișier robots.txt i se dă același pagina speciala care nu este în niciun fel un fișier de control al indexării.

Eroare legată de cazul Robots.txt. De exemplu, dacă trebuie să închideți directorul „cgi-bin”, atunci în intrarea „Disallow” nu puteți scrie numele directorului în majuscule „cgi-bin”.

Necorespunzător:

Nu permiteți: / CGI-BIN /

Dreapta:

Nu permiteți: / cgi-bin /

O eroare legată de absența unei bare oblice de deschidere la închiderea unui director de la indexare.

Necorespunzător:

Nu permiteți: page.HTML

Dreapta:

Nu permiteți: /page.html

Pentru a evita cele mai frecvente erori, puteți verifica fișierul robots.txt folosind instrumentele Yandex.Webmaster sau Instrumente pentru webmasteri Google... Verificarea se efectuează după descărcarea fișierului.

6. Concluzie

Astfel, prezența unui fișier robots.txt, precum și compilarea acestuia, pot afecta promovarea unui site în motoarele de căutare. Fără a cunoaște sintaxa fișierului robots.txt, puteți interzice indexarea posibilelor pagini promovate, precum și a întregului site. Și, invers, compilarea competentă a acestui fișier poate ajuta foarte mult la promovarea resursei, de exemplu, puteți închide documentele de la indexare care interferează cu promovarea paginilor dorite.

De la autor: Aveți pagini pe site-ul dvs. pe care nu ați dori să le afișați motoarelor de căutare? În acest articol, veți afla în detaliu cum să împiedicați indexarea unei pagini în robots.txt, dacă este corect și cum să blocați corect accesul la pagini în general.

Deci, trebuie să preveniți indexarea unora anumite pagini... Cel mai simplu mod de a face acest lucru va fi în fișierul robots.txt în sine, adăugându-i liniile necesare. Vreau să observ că am înregistrat adrese de foldere în raport cu adresele URL pagini specifice specificați în același mod, dar puteți scrie cale absolută.

Să presupunem că blogul meu are câteva pagini: contacte, despre mine și serviciile mele. Nu aș vrea să fie indexate. În consecință, scriem:

Agent utilizator: * Nu permite: / kontakty / Nu permite: / despre / Nu permite: / uslugi /

O altă variantă

Grozav, dar nu este singura caleînchideți accesul robotului la anumite pagini. Al doilea este să plasați o etichetă meta specială în codul html. Desigur, plasați numai în acele înregistrări care trebuie închise. Arata cam asa:

< meta name = "robots" content = "noindex,nofollow" >

Eticheta trebuie plasată în containerul de cap în documentul html pentru lucru corect... După cum puteți vedea, are doi parametri. Numele este specificat ca crawler și specifică faptul că aceste indicații sunt pentru crawler.

Parametrul de conținut trebuie să aibă două valori separate prin virgule. Prima este interzicerea sau permisiunea de indexare informații text pe pagină, al doilea indică dacă să indexeze linkurile pe pagină.

Astfel, dacă doriți ca pagina să nu fie indexată deloc, specificați valorile noindex, nofollow, adică nu indexați textul și interziceți clicul pe linkuri, dacă există. Există o regulă că dacă nu există text pe pagină, atunci acesta nu va fi indexat. Adică, dacă tot textul este închis în noindex, atunci nu există nimic de indexat, așa că nimic nu va intra în index.

În plus, există astfel de valori:

noindex, follow - interzicerea indexării textului, dar permisiunea de a urmări link-uri;

index, nofollow - poate fi folosit atunci când conținutul ar trebui inclus în index, dar toate linkurile din acesta ar trebui închise.

index, follow - valoare implicită. Totul este permis.

Robot txt nu interzice indexarea. Și acum cu clarificări

De ce este nevoie de robots.txt

Directive Robots.txt și reguli de personalizare

Metaeticheta roboților și cum este scrisă

Fișierele robots.txt corecte pentru CMS populare

Exemplu Robots.txt pentru WordPress

Exemple pentru alte CMS

Cum se închide un site, un link, o pagină de la indexare?

Închiderea motoarelor de căutare de la indexare

Cum se închide o pagină de la indexare?

Cum să închideți un link sau un text de la indexare?

Formatul de fișier robots.txt

Directive suplimentare

Expresii regulate în robots.txt

harta site-ului

Oglinzi de site

Comentarii Robots.txt

Exemple de fișiere robots.txt

Greșeli comune

Verificarea fișierului robots.txt pentru erori

2. Conceptul fișierului robots.txt și cerințele pentru acesta

3. Conținutul fișierului robots.txt

Intrare utilizator-agent

Nu permiteți înregistrarea

Permiteți intrarea

Înregistrare sitemap

Înregistrare gazdă

Intrare cu întârziere prin crawl

Comentarii (1)

4. Exemple de fișiere robots.txt

5. Erori legate de fișierul robots.txt

6. Concluzie

O altă variantă

Top articole similare