Ce este scris în fișierul robot txt. Format și aspect

11.05.2019 Sfat

Cum se configurează indexarea corectă a unui site de către roboții de căutare? Cum să blochezi accesul roboților cu crawlere la fișierele tehnice ale site-ului?

Fișierul robots.txt limitează accesul roboților de căutare la fișierele de pe server - fișierul conține instrucțiuni pentru roboții cu crawlere. Robotul de căutare verifică posibilitatea de a indexa următoarea pagină a site-ului - dacă există o excepție adecvată. Pentru ca roboții de căutare să aibă acces la robots.txt, acesta trebuie să fie disponibil în rădăcina site-ului la mysite.ru/robots.txt .

Exemplu acces complet pentru indexarea site-ului fără restricții:

Agent utilizator: *
Permite: /

Aplicație în SEO

În mod implicit, roboții de căutare accesează cu crawlere toate paginile de pe un site la care au acces. Ajunge la pagina robot de căutare poate dintr-o hartă a site-ului, un link pe o altă pagină, prezența traficului pe o anumită pagină etc. Nu toate paginile care au fost găsite de un robot de căutare ar trebui să fie afișate în rezultatele căutării.

Fișierul robots.txt vă permite să blocați paginile duplicate, fișierele tehnice, filtrarea și paginile de căutare de la indexare. Orice pagină de pe site poate fi închisă de la indexare dacă este necesar.

Regulile de sintaxă Robots.txt

Logica si structura fișier roboți.txt trebuie respectat cu strictețe și să nu conțină date inutile:

Orice nouă directivă începe pe o linie nouă.
Nu ar trebui să existe spații la începutul liniei.
Toate valorile unei directive trebuie plasate pe aceeași linie.
Nu utilizați ghilimele pentru parametrii directivei.
Nu utilizați virgulă sau punct și virgulă pentru a specifica parametrii.
Toate comentariile sunt scrise după simbolul #.
O linie goală indică sfârșitul utilizatorului-agent curent.
Fiecare directivă de închidere sau deschidere de indexare conține doar un parametru.
Numele fișierului trebuie scris cu majuscule Fișierele , Robots.txt sau ROBOTS.TXT sunt alte fișiere și sunt ignorate de roboții de căutare.
Dacă directiva se referă la o categorie, atunci numele categoriei este formatat cu bare oblice „/categorya/”.
Dimensiunea fișierului robots.txt nu trebuie să depășească 32 kb, altfel este interpretat ca permițând totul să fie indexat.
Un fișier robots.txt gol este considerat pentru a permite indexarea întregului site.
Dacă specificați mai mulți User-agent fără o linie goală între ei, doar primul va fi procesat

Se verifică robots.txt

Motoarele de căutare Yandex și Google fac posibilă verificarea corectitudinii fișierului robots.txt:

În Webmaster.Yandex - analiza robots.txt.
ÎN Căutare Google Consolă- legătură, trebuie mai întâi să adăugați site-ul în sistem.

Exemple de setări robots.txt

Prima linie din robots.txt este o directivă care indică pentru ce robot sunt scrise excepțiile.

Directiva utilizator-agent

# Toți roboții de scanare
Agent utilizator: *
# Toți roboții Yandex
Agent utilizator: Yandex
# Principalul robot de indexare Yandex
Agent utilizator: YandexBot
# Toți roboții Google
Agent utilizator: Googlebot

Toate directivele care urmează User-agent se aplică numai robotului specificat. Pentru a specifica date unui alt robot, ar trebui să scrieți din nou directiva User-agent. Exemplu cu mai mulți User-agent:

Utilizarea mai multor user-agenți

# Va fi folosit de robotul principal Yandex
Agent utilizator: YandexBot
Nu permiteți: *cerere_* # Va fi folosit de toți roboții Google
Agent utilizator: Googlebot
Disallow: *elem_id* # Va fi folosit de toți roboții Mail.ru
Agent utilizator: Mail.Ru
Permite: *SORT_*

Imediat după specificarea User-agent, trebuie să scrieți instrucțiuni pentru robotul selectat. Nu puteți specifica termeni goali între comenzi în robots.txt, acest lucru nu va fi înțeles corect de roboții cu crawlere.

Permiterea și interzicerea directivelor

Pentru a interzice indexarea, utilizați directiva „Disallow”, pentru a permite indexarea „Allow”:

Agent utilizator: *
Permite: /abc/
Nu permiteți: /blog/

Este specificată permisiunea pentru indexarea secțiunii /abc/ și interzicerea indexării /blogului/. În mod implicit, toate paginile site-ului sunt permise pentru indexare și nu este nevoie să specificați directiva Allow pentru toate folderele. Directiva Allow este necesară la deschiderea unei subsecțiuni pentru indexare. De exemplu, deschideți indexarea pentru o subsecțiune cu imagini comprimate, dar nu deschideți accesul la alte fișiere din dosar:

Agent utilizator: *
Nu permiteți: /încărcare/
Permite: /upload/resize_image/

Ordinea în care sunt scrise directivele contează. În primul rând, întregul folder este închis de la indexare, apoi este deschisă subsecțiunea acestuia.

Interzicerea indexării - Interzicerea

Directiva de interzicere a scanării este Disallow; indexarea este interzisă în funcție de parametrii specificați în directivă.

Interdicție totală a indexării

Agent utilizator: *
Nu permite: /

Site-ul este blocat de accesarea cu crawlere de către toți roboții.

Sunt caractere speciale„*” și „$”, care permit un control mai fin al indexării:

Nu permiteți: /cat*
Nu permite: /cat

Simbolul asterisc înseamnă orice număr de simboluri care pot urma. A doua directivă are același sens.

Nu permiteți: *section_id*

Dezactivează indexarea tuturor adreselor URL în care apare o valoare în interiorul asteriscurilor.

Nu permiteți: /secțiune/

Blochează o secțiune și toate fișierele și subsecțiunile atașate de la indexare.

Permisiune de indexare - Permite

Scopul directivei Allow este de a deschide adrese URL care îndeplinesc condiția de indexare. Sintaxa Allow este similară cu sintaxa Disallow.

Agent utilizator: *
Nu permite: /
Permite: /fuf/

Întregul site este închis de la indexare, cu excepția secțiunii /fuf/.

Directiva gazdă

Această directivă este necesară pentru roboții motorului de căutare Yandex. Indică oglinda principală a site-ului. Dacă site-ul este accesibil pe mai multe domenii, acest lucru permite motorului de căutare să identifice duplicatele și să nu le includă în indexul de căutare.

Agent utilizator: *
Nu permiteți: /bitrix/
Gazdă: mysite.ru

În fișierul robots.txt, directiva Gazdă ar trebui să fie utilizată o singură dată, instrucțiunile ulterioare sunt ignorate.

Dacă site-ul funcționează folosind protocolul https securizat, atunci ar trebui să specificați domeniul cu adresa completă:

Agent utilizator: *
Nu permiteți: /bitrix/
Gazdă: https://domain.ru

Directiva Sitemap

Pentru a accelera indexarea paginilor site-ului, puteți trimite o hartă a site-ului în format xml pentru a căuta roboți. Directiva Sitemap specifică adresa unde harta site-ului este disponibilă pentru descărcare.

Agent utilizator: *
Nu permiteți: /bitrix/
Harta site-ului: http://domain.ru/sitemap.xml

Excluderea paginilor cu parametri dinamici

Directiva Clean-param vă permite să vă ocupați de paginile duplicate dinamice atunci când conținutul paginii nu se modifică, dar adăugarea parametrului Get face URL-ul unic. Când compuneți o directivă, indicați mai întâi numele parametrului și apoi domeniul de aplicare al acestei directive:

Clean-param: get1[&get2&get3&get4&..&getN] [Calea]

Un exemplu simplu pentru pagina http://domain.ru/catalog/?&get1=1&get2=2&get3=3. Directiva va arăta astfel:

Clean-param: get1&get2&get3 /catalog/

Această directivă va funcționa pentru secțiunea /catalog/ puteți seta imediat efectul directivei pe întregul site:

Clean-param: get1&get2&get3 /

Reducerea încărcăturii - Întârziere crawl

Dacă serverul nu poate rezista solicitărilor frecvente de la roboții de căutare, atunci directiva Crawl-delay va ajuta la reducerea încărcării serverului. Motorul de căutare Yandex a susținut această directivă din 2008.

Agent utilizator: *
Nu permiteți: /căutare/
Întârziere crawler: 4

Crawler-ul va face o cerere, apoi va aștepta 4 secunde și va face cererea din nou.

Robots.txt tipic pentru un site de pe Bitrix

În concluzie, un fișier robots.txt complet pentru sistemul 1C-Bitrix, care include toate secțiunile standard:

Agent utilizator: *
Nu permiteți: /bitrix/
Nu permiteți: /admin/
Nu permiteți: /auth/
Nu permiteți: /personal/
Nu permiteți: /cgi-bin/
Nu permiteți: /căutare/
Nu permiteți: /încărcare/
Permite: /upload/resize_cache/
Permite: /upload/iblock/
Nu permiteți: *bxajaxid*
Harta site-ului: http://domain.ru/sitemap.xml
Gazdă: domain.ru

Una dintre etapele optimizării unui site pentru motoarele de căutare este compilarea unui fișier robots.txt. Prin utilizarea acest dosar Puteți împiedica unii sau toți roboții de căutare să vă indexeze site-ul sau anumite părți ale acestuia care nu sunt destinate a fi indexate. În special, puteți împiedica indexarea conținutului duplicat, cum ar fi versiunile imprimabile ale paginilor.

Înainte de a începe indexarea, roboții de căutare se referă întotdeauna la fișierul robots.txt din directorul rădăcină al site-ului dvs., de exemplu, http://site.ru/robots.txt, pentru a ști în ce secțiuni ale site-ului robotul este interzis. din indexare. Dar chiar dacă nu veți interzice nimic, este totuși recomandat să creați acest fișier.

După cum puteți vedea din extensia robots.txt, aceasta este fișier text. Pentru a crea sau edita acest fișier, este mai bine să utilizați cele mai simple editoare de text precum Notepad. robots.txt trebuie plasat în directorul rădăcină al site-ului și are format propriu, pe care ne vom uita mai jos.

Format de fișier Robots.txt

Fișierul robots.txt trebuie să conțină cel puțin două intrări obligatorii. Prima este directiva User-agent care indică ce robot de căutare ar trebui să urmeze instrucțiunile ulterioare. Valoarea poate fi numele robotului (googlebot, Yandex, StackRambler) sau simbolul * dacă accesați toți roboții simultan. De exemplu:

Agent utilizator: googlebot

Puteți găsi numele robotului pe site-ul motorului de căutare corespunzător. În continuare ar trebui să existe una sau mai multe directive Disallow. Aceste directive îi spun robotului care fișiere și foldere nu au voie să fie indexate. De exemplu, următoarele rânduriîmpiedică roboții să indexeze fișierul feedback.php și directorul cgi-bin:

Disallow: /feedback.php Disallow: /cgi-bin/

De asemenea, puteți utiliza doar caracterele de început ale fișierelor sau folderelor. Linia Disallow: /forum interzice indexarea tuturor fișierelor și folderelor din rădăcina site-ului al cărui nume începe cu forum, de exemplu, fișierul http://site.ru/forum.php și folderul http://site. ru/forum/ cu tot conținutul lui. Dacă Disallow este gol, înseamnă că robotul poate indexa toate paginile. Dacă valoarea Disallow este simbolul /, aceasta înseamnă că întregul site este interzis să fie indexat.

Pentru fiecare câmp User-agent trebuie să existe cel puțin un câmp Nepermis. Adică, dacă nu interziceți nimic pentru indexare, atunci fișierul robots.txt ar trebui să conțină următoarele intrări:

Agent utilizator: * Nu permite:

Directive suplimentare

Cu excepţia expresii regulate Yandex și Google permit utilizarea directivei Allow, care este opusul Disallow, adică indică ce pagini pot fi indexate. ÎN exemplul următor Yandex nu are voie să indexeze totul, cu excepția adreselor paginilor care încep cu /articole:

Agent utilizator: Yandex Permite: /articole Nu permite: /

În acest exemplu, directiva Allow trebuie scrisă înainte de Disallow, altfel Yandex va înțelege acest lucru ca o interdicție completă a indexării site-ului. O directivă Allow goală dezactivează, de asemenea, complet indexarea site-ului:

Agent utilizator: Yandex Permite:

echivalent

Agent utilizator: Yandex Disallow: /

Directivele non-standard trebuie specificate numai pentru acele motoare de căutare care le acceptă. Altfel robotul nu înțelege această intrare este posibil să nu îl proceseze corect sau întregul fișier robots.txt. Mai multe informații despre directive suplimentare și, în general, despre înțelegerea comenzilor din fișierul robots.txt de către un robot individual pot fi găsite pe site-ul motorului de căutare corespunzător.

Expresii regulate în robots.txt

Majoritate motoarele de căutare luate în considerare doar în mod explicit nume specificate fișiere și foldere, dar există și motoare de căutare mai avansate. Google Robot și Yandex Robot acceptă utilizarea expresiilor regulate simple în robots.txt, ceea ce reduce semnificativ volumul de muncă pentru webmasteri. De exemplu, următoarele comenzi sunt dezactivate Googlebot indexați toate fișierele cu extensia .pdf:

Agent de utilizator: googlebot Disallow: *.pdf$

În exemplul de mai sus, * este orice secvență de caractere, iar $ indică sfârșitul legăturii.

Agent utilizator: Yandex Allow: /articles/*.html$ Disallow: /

Directivele de mai sus permit lui Yandex să indexeze numai fișierele cu extensia „.html” aflate în folderul /articles/. Orice altceva este interzis pentru indexare.

Harta site-ului

Puteți specifica locația sitemapului XML în fișierul robots.txt:

Agent utilizator: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Dacă aveți un număr foarte mare de pagini pe site și a trebuit să împărțiți harta site-ului în părți, atunci trebuie să indicați toate părțile hărții în fișierul robots.txt:

Agent utilizator: Yandex Disallow: Harta site-ului: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml

Oglinzi de site

După cum știți, de obicei același site poate fi accesat la două adrese: atât cu www, cât și fără acesta. Pentru un robot de căutare, site.ru și www.site.ru sunt site-uri diferite, dar cu același conținut. Se numesc oglinzi.

Datorită faptului că există legături către paginile site-ului atât cu cât și fără www, ponderea paginilor poate fi împărțită între www.site.ru și site.ru. Pentru a preveni acest lucru, motorul de căutare trebuie să indice oglinda principală a site-ului. Ca urmare a „lipirii”, toată greutatea va aparține unei oglinzi principale și site-ul va putea lua o poziție mai mare în rezultatele căutării.

Puteți specifica oglinda principală pentru Yandex direct în fișierul robots.txt folosind directiva Gazdă:

Agent utilizator: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Gazdă: www.site.ru

După lipire, oglinda www.site.ru va deține toată greutatea și va ocupa o poziție superioară în rezultatele căutării. Și motorul de căutare nu va indexa deloc site.ru.

Pentru alte motoare de căutare, alegerea oglinzii principale este o redirecționare permanentă pe partea serverului (cod 301) de la oglinzile suplimentare către cea principală. Acest lucru se face folosind fișierul .htaccess și modulul mod_rewrite. Pentru a face acest lucru, puneți fișierul .htaccess în rădăcina site-ului și scrieți următoarele acolo:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Ca urmare, toate cererile de la site.ru vor ajunge la www.site.ru, adică site.ru/page1.php vor fi redirecționate către www.site.ru/page1.php.

Metoda de redirecționare va funcționa pentru toate motoarele de căutare și browserele, dar este totuși recomandat să adăugați directiva Gazdă în fișierul robots.txt pentru Yandex.

Comentarii în robots.txt

De asemenea, puteți adăuga comentarii la fișierul robots.txt - acestea încep cu simbolul # și se termină cu o întrerupere de linie. Este recomandabil să scrieți comentarii pe o linie separată, sau este mai bine să nu le folosiți deloc.

Un exemplu de utilizare a comentariilor:

User-agent: StackRambler Disallow: /garbage/ # nu este nimic util în acest folder Disallow: /doc.xhtml # și pe această pagină # și toate comentariile din acest fișier sunt, de asemenea, inutile

Exemple de fișiere robots.txt

1. Permiteți tuturor roboților să indexeze toate documentele site-ului:

Agent utilizator: * Nu permite:
Agent utilizator: * Nu permite: /

3. Interzicem robotul motor de căutare Google indexați fișierul feedback.php și conținutul directorului cgi-bin:

Agent de utilizator: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Permitem tuturor roboților să indexeze întregul site și interzicem robotului motorului de căutare Yandex să indexeze fișierul feedback.php și conținutul directorului cgi-bin:

User-agent: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Gazdă: www.site.ru User-agent: * Disallow:

5. Permitem tuturor roboților să indexeze întregul site și permitem robotului Yandex să indexeze numai partea din site-ul destinată acestuia:

Agent utilizator: Yandex Allow: /yandex Disallow: / Gazdă: www.site.ru Agent utilizator: * Disallow:

Liniile goale separă restricții pentru diferiți roboți. Fiecare bloc de restricții trebuie să înceapă cu o linie cu câmpul User-Agent, indicând robotul căruia i se aplică aceste reguli de indexare a site-ului.

Erori comune

Este necesar să se țină cont de faptul că șir golîn fișierul robots.txt este un separator între două intrări pentru roboți diferiți. De asemenea, nu puteți specifica mai multe directive pe o singură linie. Când împiedică indexarea unui fișier, webmasterii omit adesea simbolul / înainte de numele fișierului.

Nu este nevoie să specificați în robots.txt o interdicție a indexării site-urilor pentru diverse programe, care sunt concepute pentru a descărca complet un site, de exemplu, TeleportPro. Nici programele de descărcare, nici browserele nu se uită niciodată la acest fișier și nu execută instrucțiunile scrise acolo. Este destinat exclusiv motoarelor de căutare. De asemenea, nu ar trebui să blocați panoul de administrare al site-ului dvs. în robots.txt, deoarece dacă nu există niciun link către acesta, atunci acesta nu va fi indexat. Veți dezvălui locația zonei de administrare doar persoanelor care nu ar trebui să știe despre aceasta. De asemenea, merită să ne amintim că robots.txt care este prea mare poate fi ignorat de motorul de căutare. Dacă aveți prea multe pagini care nu sunt destinate indexării, atunci este mai bine să le eliminați pur și simplu de pe site sau să le mutați într-un director separat și să împiedicați indexarea acestui director.

Verificarea fișierului robots.txt pentru erori

Asigurați-vă că verificați cum înțeleg motoarele de căutare fișierul dvs. roboți. Pentru a verifica Google, puteți utiliza instrumente Google pentru webmasteri. Dacă doriți să aflați cum este înțeles fișierul dvs. robots.txt de către Yandex, puteți utiliza serviciul Yandex.Webmaster. Acest lucru vă va permite să corectați orice greșeală în timp util. Tot pe paginile acestor servicii puteți găsi recomandări pentru crearea unui fișier robots.txt și multe alte informații utile.

Copierea articolului este interzisă.

În primul rând, vă voi spune ce este robots.txt.

Robots.txt– un fișier care se află în folderul rădăcină al site-ului în care sunt înregistrate instructiuni speciale pentru roboții de căutare. Aceste instructiuni sunt necesare pentru ca la intrarea pe site robotul sa nu tina cont de pagina/sectiunea cu alte cuvinte, inchidem pagina de la indexare;

De ce aveți nevoie de robots.txt?

Fișierul robots.txt este considerat o cerință cheie pentru optimizarea SEO pentru absolut orice site web. Absența acestui fișier poate afecta negativ încărcarea de la roboți și indexarea lentă și, mai mult, site-ul nu va fi complet indexat. În consecință, utilizatorii nu vor putea accesa paginile prin Yandex și Google.

Impactul robots.txt asupra motoarele de căutare?

Motoarele de căutare(V Caracteristici Google) va indexa site-ul, dar dacă nu există fișier robots.txt, atunci, așa cum am spus, nu toate paginile. Dacă există un astfel de fișier, atunci roboții sunt ghidați de regulile care sunt specificate în acest fișier. Mai mult, există mai multe tipuri de roboți de căutare unii pot ține cont de regulă, în timp ce alții o ignoră. În special, robotul GoogleBot nu ține cont de directivele Gazdă și Crawl-Delay, robotul YandexNews a încetat recent să ia în considerare directiva Crawl-Delay, iar roboții YandexDirect și YandexVideoParser ignoră directivele general acceptate în robots.txt (dar luați în considerare cele care sunt scrise special pentru ei).

Site-ul este încărcat cel mai mult de roboții care încarcă conținut de pe site-ul dvs. În consecință, dacă îi spunem robotului ce pagini să indexeze și care să ignore, precum și la ce intervale de timp să încarce conținutul din pagini (acest lucru se aplică mai mult site-urilor mari care au mai mult de 100.000 de pagini în indexul motorului de căutare). Acest lucru va face mult mai ușor pentru robot să indexeze și să încarce conținut de pe site.

Fișierele care nu sunt necesare pentru motoarele de căutare includ fișiere care aparțin CMS, de exemplu, în Wordpress – /wp-admin/. În plus, ajax, scripturi json responsabile pentru formulare pop-up, bannere, ieșire captcha și așa mai departe.

Pentru majoritatea roboților, recomand, de asemenea, să închideți totul, de la indexare Fișiere Javascriptși CSS. Dar pentru GoogleBot și Yandex, este mai bine să indexați astfel de fișiere, deoarece sunt utilizate de motoarele de căutare pentru a analiza confortul site-ului și clasarea acestuia.

Ce este o directivă robots.txt?

Directive– acestea sunt regulile pentru roboții de căutare. Primele standarde pentru scrierea robots.txt și, în consecință, au apărut în 1994, iar standardul extins în 1996. Cu toate acestea, după cum știți deja, nu toți roboții acceptă anumite directive. Prin urmare, mai jos am descris după ce se ghidează roboții principali atunci când indexează paginile site-ului.

Ce înseamnă User-agent?

Aceasta este cea mai importantă directivă care determină ce roboți de căutare vor urma alte reguli.

Pentru toți roboții:

Pentru un anumit bot:

Agent utilizator: Googlebot

Înregistrarea în robots.txt nu este important, puteți scrie atât Googlebot, cât și googlebot

roboți de căutare Google

roboți de căutare Yandex


	Robotul principal de indexare al lui Yandex
	Folosit în serviciul Yandex.Images
	Folosit în serviciul Yandex.Video
	Date multimedia
	Căutare pe blog
	Un robot de căutare care accesează o pagină atunci când o adaugă prin formularul „Adăugați URL”.
	robot care indexează pictogramele site-ului web (favicons)
	Yandex.Direct
	Yandex.Metrica
	Folosit în serviciul Yandex.Catalog
	Folosit în serviciul Yandex.News
YandexImageResizer	Robot de căutare a serviciilor mobile

Roboti de căutare Bing, Yahoo, Mail.ru, Rambler

Directivele Disallow și Allow

Interziceți blocarea secțiunilor și paginilor site-ului dvs. de la indexare. În consecință, Permiteți, dimpotrivă, le deschide.

Există câteva particularități.

În primul rând, operatori suplimentari- *, $ și #. La ce sunt folosite?

“*” – acesta este orice număr de caractere și absența lor. În mod implicit, este deja la sfârșitul liniei, așa că nu are rost să-l puneți din nou.

“$” – indică faptul că personajul dinaintea lui ar trebui să vină ultimul.

“#” – comentează, robotul nu ține cont de tot ce vine după acest simbol.

Exemple de utilizare a Disallow:

Nu permite: *?s=

Nu permiteți: /categorie/

În consecință, robotul de căutare va închide pagini precum:

Dar pagini ca aceasta vor fi deschise pentru indexare:

Acum trebuie să înțelegeți cum sunt executate regulile de imbricare. Ordinea în care sunt scrise directivele este absolut importantă. Moștenirea regulilor este determinată de care directoare sunt specificate, adică dacă vrem să blocăm o pagină/document de la indexare, este suficient să scriem o directivă. Să ne uităm la un exemplu

Acesta este fișierul nostru robots.txt

Nu permiteți: /șablon/

Această directivă poate fi specificată oriunde și pot fi specificate mai multe fișiere sitemap.

Directiva gazdă în robots.txt

Această directivă este necesară pentru a indica oglinda principală a site-ului (deseori cu sau fără www). Vă rugăm să rețineți că directiva gazdă este specificată fără protocol http://, dar cu protocolul https://. Directiva este luată în considerare doar de roboții de căutare Yandex și Mail.ru, iar alți roboți, inclusiv GoogleBot, nu vor lua în considerare regula. Gazda ar trebui să fie specificată o dată în fișierul robots.txt

Exemplu cu http://

Gazdă: website.ru

Exemplu cu https://

Directiva privind întârzierea cu crawler

Setează intervalul de timp pentru indexarea paginilor site-ului de către un robot de căutare. Valoarea este indicată în secunde și milisecunde.

Exemplu:

Este folosit mai ales pe marile magazine online, site-uri de informare, portaluri, unde traficul pe site este de la 5.000 pe zi. Este necesar ca robotul de căutare să facă o cerere de indexare într-o anumită perioadă de timp. Dacă această directivă nu este specificată, poate crea o sarcină serioasă pe server.

Valoarea optimă a întârzierii accesării cu crawlere este diferită pentru fiecare site. Pentru motoarele de căutare Mail, Bing, Yahoo, valoarea poate fi setată la o valoare minimă de 0,25, 0,3, deoarece acești roboți de motoare de căutare vă pot accesa cu crawlere site-ul o dată pe lună, 2 luni și așa mai departe (foarte rar). Pentru Yandex, este mai bine să setați o valoare mai mare.

Dacă încărcarea pe site-ul dvs. este minimă, atunci nu are rost să specificați această directivă.

Directiva Clean-param

Regula este interesantă deoarece îi spune crawler-ului că paginile cu anumiți parametri nu trebuie să fie indexate. Sunt prescrise 2 argumente: Adresa URL a paginiiși parametru. Această directivă este susținută de motorul de căutare Yandex.

Exemplu:

Nu permiteți: /admin/

Nu permiteți: /plugins/

Nu permiteți: /căutare/

Nu permiteți: /cart/

Nu permite: *sortare=

Nu permite: *view=

Agent utilizator: GoogleBot

Nu permiteți: /admin/

Nu permiteți: /plugins/

Nu permiteți: /căutare/

Nu permiteți: /cart/

Nu permite: *sortare=

Nu permite: *view=

Permite: /plugins/*.css

Permite: /plugins/*.js

Permite: /plugins/*.png

Permite: /plugins/*.jpg

Permite: /plugins/*.gif

Agent utilizator: Yandex

Nu permiteți: /admin/

Nu permiteți: /plugins/

Nu permiteți: /căutare/

Nu permiteți: /cart/

Nu permite: *sortare=

Nu permite: *view=

Permite: /plugins/*.css

Permite: /plugins/*.js

Permite: /plugins/*.png

Permite: /plugins/*.jpg

Permite: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

În exemplu, am notat regulile pentru 3 roboți diferiți.

Unde să adăugați robots.txt?

Adăugat în folderul rădăcină al site-ului. În plus, pentru a putea urmări linkul:

Cum se verifică robots.txt?

Webmaster Yandex

În fila Instrumente, selectați Robots.txt Analysis și apoi faceți clic pe Verificare

Google Search Console

Pe fila Scanare alege Instrument de inspecție a fișierelor Robots.txt apoi faceți clic pe verificare.

Concluzie:

Fișierul robots.txt trebuie să fie prezent pe fiecare site web promovat și doar configurarea lui corectă vă va permite să obțineți indexarea necesară.

Și, în sfârșit, dacă aveți întrebări, puneți-le în comentariile de sub articol și, de asemenea, mă întreb, cum scrieți robots.txt?

Acest articol conține un exemplu de cod optim, după părerea mea, pentru fișierul robots.txt pentru WordPress, pe care îl puteți folosi în site-urile dvs.

Pentru început, să ne amintim de ce ai nevoie de robots.txt- fișierul robots.txt este necesar exclusiv pentru roboții de căutare pentru a le „spune” ce secțiuni/pagini ale site-ului să le viziteze și pe care nu ar trebui să le viziteze. Paginile care sunt închise de la vizitare nu vor fi incluse în indexul motorului de căutare (Yandex, Google etc.).

Opțiunea 1: Cod robots.txt optim pentru WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # toți parametrii de interogare de pe pagina principală Disallow: /wp- # toate fișierele WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Disallow: /căutare # search Disallow: /author/ # autor arhivă Disallow: *?attachment_id= # pagină atașată. De fapt, există o redirecționare pe ea... Disallow: */feed # toate fluxurile Disallow: */rss # rss feed Disallow: */embed # all embeddings Disallow: */page/ # toate tipurile de paginare Permite: */ încărcări # încărcări deschise Permite: /*/*.js # în interiorul /wp- (/*/ - pentru prioritate) Permite: /*/*.css # în interiorul /wp- (/*/ - pentru prioritate) Permite: /wp -* png # imagini în pluginuri, folderul cache etc. Permite: /wp-*.jpg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.jpeg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.gif # imagini în pluginuri, folderul cache etc. Permite: /wp-*.svg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.pdf # fișiere în pluginuri, folderul cache etc. #Disallow: /wp/ # când WP este instalat în subdirectorul wp Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap2.xml # alt fișier # Sitemap: http:/ / site.ru/sitemap.xml.gz # versiune comprimată (.gz) Gazdă: site.ru # pentru Yandex și Mail.RU. (transversal) # Versiunea codului: 1.0 # Nu uitați să schimbați `site.ru` pe site-ul dvs.

Analiza codului:

În linia User-agent: * indicăm că toate regulile de mai jos vor funcționa pentru toți roboții de căutare *. Dacă aveți nevoie de aceste reguli să funcționeze doar pentru un robot specific, atunci în loc de * indicăm numele robotului (User-agent: Yandex, User-agent: Googlebot).

În linia Permite: */încărcări, permitem în mod intenționat indexarea paginilor care conțin /încărcări. Această regulă este obligatorie, deoarece mai sus interzicem indexarea paginilor care încep cu /wp- și /wp- incluse în /wp-content/uploads. Prin urmare, pentru a anula regula Disallow: /wp-, aveți nevoie de linia Allow: */uploads , deoarece pentru link-uri precum /wp-content/uploads/... Este posibil să avem imagini care trebuie indexate și pot exista și unele fișiere descărcate pe care nu este nevoie să le ascundem. Permite: poate fi „înainte” sau „după” Disallow: .

Rândurile rămase interzic roboților să „urmeze” link-uri care încep cu:

Disallow: /cgi-bin - închide directorul de scripturi de pe server
Disallow: /feed - închide fluxul RSS al blogului
Disallow: /trackback - închide notificările
Disallow: ?s= sau Disallow: *?s= - închide paginile de căutare
Disallow: */page/ - închide toate tipurile de paginare

Regula Sitemap: http://site.ru/sitemap.xml indică robotul către un fișier cu un sitemap în format XML. Dacă aveți un astfel de fișier pe site-ul dvs., atunci scrieți calea completă către el. Pot exista mai multe astfel de fișiere, apoi indicăm calea către fiecare separat.

În linia Gazdă: site.ru indicăm oglinda principală a site-ului. Dacă un site are oglinzi (copii ale site-ului pe alte domenii), atunci pentru ca Yandex să le indexeze pe toate în mod egal, trebuie să specificați oglinda principală. Directiva gazdă: numai Yandex înțelege, Google nu înțelege! Dacă site-ul rulează sub protocol https, atunci trebuie specificat în Gazdă: Gazdă: https://site.ru

Din documentația Yandex: „Gazda este o directivă independentă și funcționează oriunde în fișier (intersecțional).” Prin urmare, îl punem în partea de sus sau chiar la sfârșitul fișierului, printr-o linie goală.

Acest lucru este important: regulile de sortare înainte de procesare

Yandex și Google procesează directivele Allow și Disallow nu în ordinea în care sunt specificate, dar mai întâi le sortează de la regula scurtă la lungă, apoi procesează ultima regulă de potrivire:

Agent utilizator: * Permite: */încărcări Nu permite: /wp-

va fi citit ca:

User-agent: * Disallow: /wp- Allow: */uploads

Pentru a înțelege și aplica rapid funcția de sortare, amintiți-vă această regulă: „cu cât regula este mai lungă în robots.txt, cu atât are prioritate mai mare. Dacă lungimea regulilor este aceeași, atunci se acordă prioritate directivei Allow.”

Opțiunea 2: robots.txt standard pentru WordPress

Nu știu de ce, dar sunt pentru prima opțiune! Pentru că este mai logic - nu este nevoie să duplicați complet secțiunea pentru a indica directiva Gazdă pentru Yandex, care este intersecțională (înțeleasă de robot oriunde în șablon, fără a indica la ce robot se referă). În ceea ce privește directiva non-standard Allow, funcționează pentru Yandex și Google, iar dacă nu deschide folderul de încărcări pentru alți roboți care nu o înțeleg, atunci în 99% din cazuri acest lucru nu va implica nimic periculos. Încă nu am observat că primii roboți nu funcționează așa cum ar trebui.

Codul de mai sus este puțin incorect. Mulțumesc comentatorului „ ” pentru că a subliniat incorectitudinea, deși a trebuit să-mi dau seama despre ce este vorba. Și asta am venit cu (s-ar putea să greșesc):

Unii roboți (nu Yandex și Google) nu înțeleg mai mult de 2 directive: User-agent: și Disallow:

Directiva Yandex Gazdă: trebuie utilizată după Disallow:, deoarece este posibil ca unii roboți (nu Yandex și Google) să nu o înțeleagă și să respingă, în general, robots.txt. Yandex însuși, judecând după documentație, nu-i pasă de unde și cum să folosești Host:, chiar dacă în general creați robots.txt cu o singură linie Host: www.site.ru pentru a lipi toate oglinzile site-ului împreună.

3. Sitemap: o directivă intersecțională pentru Yandex și Google și, aparent, pentru mulți alți roboți, așa că o scriem la sfârșit cu o linie goală și va funcționa pentru toți roboții simultan.

Pe baza acestor modificări, codul corect ar trebui să arate astfel:

Agent de utilizator: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */feed Disallow: /cgi-bin Disallow: *?s= Permite: /wp-admin/admin-ajax.php Gazdă: site.ru User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */feed Disallow: /cgi- bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://site.ru/sitemap.xml

Să o adăugăm pentru noi înșine

Dacă trebuie să blocați orice alte pagini sau grupuri de pagini, puteți adăuga o regulă (directivă) mai jos Nu permiteți:. De exemplu, trebuie să închidem toate intrările dintr-o categorie de la indexare ştiri, apoi înainte Harta site-ului: adauga o regula:

Nu permiteți: /știri

Împiedică roboții să urmărească astfel de link-uri:

http://site.ru/news
http://site.ru/news/drugoe-nazvanie/

Dacă trebuie să închideți orice apariție a /news , atunci scrieți:

Nu permiteți: */știri

http://site.ru/news
http://site.ru/my/news/drugoe-nazvanie/
http://site.ru/category/newsletter-nazvanie.html

Puteți studia directivele robots.txt mai detaliat pe pagina de ajutor Yandex (dar rețineți că nu toate regulile descrise acolo funcționează pentru Google).

Verificare și documentare Robots.txt

Puteți verifica dacă regulile prescrise funcționează corect folosind următoarele link-uri:

Serviciu pentru crearea și verificarea robots.txt: https://seolib.ru/tools/generate/robots/

Documentație de la Google (engleză)

Crawl-delay - timeout pentru roboții nebuni (nu luați în considerare din 2018)

Yandex

După ce am analizat scrisorile din ultimii doi ani către suportul nostru cu privire la problemele de indexare, am aflat că unul dintre principalele motive pentru descărcarea lentă a documentelor este o directivă de întârziere cu crawlere configurată incorect în robots.txt […] Astfel încât proprietarii de site-uri să nu mai fie trebuie să vă faceți griji pentru asta și pentru ca totul să fie real paginile necesare site-urile au apărut și au fost actualizate rapid în căutare, am decis să refuzăm să luăm în considerare directiva Crawl-delay.

Când robotul Yandex scanează site-ul ca un nebun și acest lucru creează încărcare inutilă pe server. Puteți cere robotului să „încetinească”.

Pentru a face acest lucru, trebuie să utilizați directiva Crawl-delay. Indică timpul în secunde în care robotul trebuie să stea inactiv (să aștepte) pentru a scana fiecare pagină ulterioară a site-ului.

Pentru compatibilitatea cu roboții care nu respectă bine standardul robots.txt, întârzierea cu crawlere trebuie specificată în grup (în secțiunea User-Agent) imediat după Disallow și Allow

Yandex Robot înțelege valorile fracționale, de exemplu, 0,5 (jumătate de secundă). Acest lucru nu garantează că robotul de căutare vă va vizita site-ul la fiecare jumătate de secundă, dar vă permite să accelerați accesarea cu crawlere a site-ului.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1,5 # timeout 1,5 secunde User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Întârziere accesare cu crawlere: 2 # timeout 2 secunde

Google

Googlebot nu înțelege directiva Crawl-delay. Timeout-ul pentru roboții săi poate fi specificat în panoul webmaster.

L-am întrebat pe Yandex...

Am pus o întrebare în tehnologie. Asistență Yandex cu privire la utilizarea intersecțională a directivelor Gazdă și Sitemap:

Întrebare:

Buna ziua!
Scriu un articol despre robots.txt pe blogul meu. Aș dori să primesc un răspuns la această întrebare (nu am găsit un „da” clar în documentație):

Dacă trebuie să îmbin toate oglinzile și pentru aceasta folosesc directiva Host chiar la începutul fișierului robots.txt:
Gazdă: site.ru Agent utilizator: * Nu permite: /asd
Va funcționa corect Host: site.ru în acest exemplu? Va indica roboților că site.ru este oglinda principală. Aceste. Folosesc această directivă nu într-o secțiune, ci separat (la începutul fișierului) fără a indica la ce User-agent se referă.

De asemenea, am vrut să știu dacă directiva Sitemap trebuie folosită în interiorul unei secțiuni sau poate fi folosită în exterior: de exemplu, printr-o linie goală, după secțiune?
User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://site.ru/sitemap.xml
Va înțelege robotul directiva Sitemap din acest exemplu?

Sper să primesc de la dumneavoastră un răspuns care să-mi pună capăt îndoielilor.

Răspuns:

Buna ziua!

Directivele Gazdă și Sitemap sunt intersecționale, așa că vor fi utilizate de robot indiferent de locul din fișierul robots.txt în care sunt specificate.

--
Cu stimă, Platon Shchukin
Serviciu de asistență Yandex

Concluzie

Este important să rețineți că modificările în robots.txt pe un site deja funcțional vor fi observate numai după câteva luni (2-3 luni).

Există zvonuri că uneori Google poate ignora regulile din robots.txt și poate duce o pagină în index dacă consideră că pagina este foarte unică și utilă și pur și simplu trebuie să fie în index. Cu toate acestea, alte zvonuri infirmă această ipoteză prin faptul că optimizatorii neexperimentați pot specifica incorect regulile în robots.txt și astfel pot închide paginile necesare de la indexare și pot lăsa pe cele inutile. Sunt mai înclinat spre a doua presupunere...

Pe serviciul avi1.ru puteți cumpăra acum promovarea SMMîn mai mult de 7 cele mai populare rețelele sociale. În același timp, acordați atenție suficientă cost scăzut toate serviciile site-ului.

Salutări, dragi cititori ai blogului Pingo SEO. În acest articol vreau să subliniez ideea mea despre cum să compun corect robots.txt pentru un site web. La un moment dat, am fost foarte enervat că informațiile de pe internet despre această problemă erau destul de fragmentare. Din cauza asta, a trebuit să mă târăsc în jur un număr mare resurse, filtrarea constantă a informațiilor repetitive și identificarea de informații noi.

Așa că aici voi încerca să răspund la majoritatea întrebărilor pornind de la definiție la exemple probleme reale rezolvate de acest instrument. Dacă uit ceva, scrieți despre asta în comentarii - voi cerceta problema și voi adăuga la material.

Robots.txt - ce este, de ce este necesar și unde locuiește?

Deci, în primul rând, un program educațional pentru cei care acest subiect complet nefamiliare.

Robots.txt este un fișier text care conține instrucțiuni pentru indexarea unui site pentru roboții motoarelor de căutare. În acest fișier, webmasterul poate defini parametrii de indexare ai site-ului său atât pentru toți roboții simultan, cât și pentru fiecare motor de căutare separat (de exemplu, pentru Google).

Unde se află robots.txt? Se află în folderul rădăcină al site-ului FTP și, de fapt, este un document obișnuit în format txt, care poate fi editat folosind orice editor de text(personal prefer Notepad++). Conținutul fișierului roboți poate fi văzut prin introducere bara de adrese browser http://www.your-site.ru/robots.txt. Dacă, desigur, există.

Cum se creează robots.txt pentru un site web? Este suficient să faci un fișier text obișnuit cu același nume și să îl încarci pe site. Cum să o configurați și să compuneți corect va fi discutată mai jos.

Structura și configurarea corectă a fișierului robots.txt

Cum ar trebui să arate fisierul corect roboți txt pentru site? Structura poate fi descrisă după cum urmează:

1. Directiva utilizator-agent

În ce să scrieți această secțiune? Această directivă stabilește cărui robot sunt destinate următoarele instrucțiuni. De exemplu, dacă sunt destinate tuturor roboților, atunci următorul design este suficient:

În sintaxa fișierului robots.txt, semnul „*” este echivalent cu expresia „orice”. Dacă trebuie să specificați instrucțiuni pentru un anumit motor de căutare sau robot, atunci numele acestuia este scris în locul asteriscului din exemplul anterior, de exemplu:

Agent utilizator: YandexBot

Fiecare motor de căutare are un întreg set de roboți care îndeplinesc anumite funcții. Sunt descriși roboții motorului de căutare Yandex. În termeni generali, există următoarele:

Yandex - referință la roboții Yandex.
GoogleBot este principalul robot de indexare.
MSNBot este principalul robot de indexare al Bing.
Aport - roboți Aport.
Mail.Ru - roboți PS Mail.

Dacă există o directivă pentru un anumit motor de căutare sau robot, atunci cele generale sunt ignorate.

2. Permite directivă

Permite pagini individuale secțiune dacă, să zicem, a fost anterior complet închisă de la indexare. De exemplu:

Agent utilizator: *
Nu permite: /
Permite: /open-page.html

În acest exemplu, interzicem indexarea întregului site, cu excepția paginii poni.html

Această directivă servește într-o oarecare măsură pentru a indica excepții de la regulile specificate de directiva Disallow. Dacă nu există astfel de situații, este posibil ca directiva să nu fie folosită deloc. Nu vă permite să deschideți un site pentru indexare, așa cum cred mulți oameni, deoarece dacă nu există nicio interdicție precum Disallow: /, atunci este deschis implicit.

2. Disallow directivă

Este antipodul directivei Allow și blochează paginile individuale, secțiunile sau întregul site de la indexare. Este analog cu eticheta noindex. De exemplu:

Agent utilizator: *
Nu permiteți: /closed-page.html

3. Directiva gazdă

Folosit numai pentru Yandex și indică oglinda principală a site-ului. Arata cam asa.

Oglinda principala fara www:

Oglinda principală de pe www:

Gazdă: www.site.ru

Site-ul pe https:

Gazdă: https://site.ru

Nu puteți scrie directiva gazdă într-un fișier de două ori. Dacă acest lucru se întâmplă din cauza unei erori, atunci directiva care vine prima este procesată, iar a doua este ignorată.

4. Directiva Sitemap

Folosit pentru a specifica calea către sitemap XML sitemap.xml (dacă există). Sintaxa este următoarea:

Harta site-ului: http://www.site.ru/sitemap.xml

5. Directiva Clean-param

Folosit pentru a bloca paginile cu parametri care pot fi duplicate de la indexare. O directivă foarte utilă, în opinia mea, care taie coada parametrică a URL-urilor, lăsând doar coloana vertebrală, care este adresa originală a paginii.

Această problemă este frecventă în special atunci când lucrați cu cataloage și magazine online.

Să presupunem că avem o pagină:

http://www.site.ru/index.php

Și această pagină în proces de lucru poate deveni acoperită de clone ale speciei.

http://www.site.ru/index.php?option=com_user_view=remind
http://www.site.ru/index.php?option=com_user_view=reset
http://www.site.ru/index.php?option=com_user_view=login

Pentru a scăpa de toate variantele posibile ale acestui spam, este suficient să indicați următoarea construcție:

Clean-param: opțiunea /index.php

Cred că sintaxa din exemplu este clară:

Clean-param: # specifica directiva
opțiunea # specificați parametrul de spam
/index.php # specificați coloana vertebrală a adresei URL cu parametrul spam

Dacă există mai mulți parametri, atunci îi listăm pur și simplu folosind un ampersand (&):

http://www.site.ru/index.php?option=com_user_view=remind&size=big # URL cu doi parametri
Clean-param: option&big /index.php # doi parametri sunt specificati folosind un ampersand

Este luat un exemplu simplu care explică esența. Aș dori în special să spun mulțumiri acestui parametru atunci când lucrez cu CMS Bitrix.

Directiva privind întârzierea cu crawl

Vă permite să setați un timeout pentru încărcarea paginilor site-ului de către robotul Yandex. Este folosit atunci când serverul este încărcat puternic și pur și simplu nu are timp să returneze rapid conținutul. În opinia mea, acesta este un anacronism care nu se mai ține cont și care nu poate fi folosit.

Întârziere de accesare cu crawlere: 3,5 #timeout 3,5 secunde

Sintaxă

# - folosit pentru a scrie comentarii:

User-agent: Directiva * # se aplică tuturor roboților

* - înseamnă orice succesiune de caractere, adică:

Disallow: /page* # interzice toate paginile care încep cu pagina

Nu permiteți: /*pagina # nu permiteți toate paginile care se termină cu pagină

Nu permiteți: /cgi-bin/*.aspx # nu permiteți toate paginile aspx din folderul cgi-bin

$ - trunchierea regulii, antipodul semnului asterisc:

Nu permiteți: /page$ # numai /pagina va fi închisă, nu /page.html sau pageline.html

Exemplu de fișier robots.txt

Pentru a consolida înțelegerea structurii și regulilor descrise mai sus, prezentăm textul standard al roboților pentru CMS Data Life Engine.

User-agent: *# directivele sunt destinate tuturor motoarelor de căutare
Disallow: /engine/go.php # dezactivează anumite secțiuni și pagini
Nu permiteți: /engine/download.php #
Nu permiteți: /utilizator/ #
Nu permiteți: /postări noi/ #
Disallow: /*subaction=userinfo # închide pagini cu parametri individuali
Nu permiteți: /*subaction=postări noi #
Nu permiteți: /*do=ultimele comentarii #
Nu permiteți: /*do=feedback #
Nu permiteți: /*do=register #
Nu permiteți: /*do=parola pierdută #
Gazdă: www.site # indică oglinda principală a site-ului
Harta site-ului: https://site/sitemap.xml # indica calea către harta site-ului
User-agent: Aport # indică direcția regulilor pe PS Aport
Disallow: / # să presupunem că nu vrem să fim prieteni cu ei

Se verifică robots.txt

Cum se verifică corectitudinea textului roboților? Opțiune standard- validator Yandex - http://webmaster.yandex.ru/robots.xml. Introduceți calea către fișierul roboți sau inserați imediat conținutul acestuia în câmpul de text. Introducem o listă de adrese URL pe care vrem să le verificăm - dacă sunt închise sau deschise conform directivelor date - faceți clic pe „Verifică” și voila! Profit.

Se afișează starea paginii - indiferent dacă este deschisă pentru indexare sau închisă. Dacă este închis, atunci este indicat de ce regulă. Pentru a permite indexarea unei astfel de pagini, trebuie să modificați regula indicată de validator. Dacă fișierul conține erori de sintaxă, atunci validatorul va raporta și acest lucru.

Generator Robots.txt - creare online

Dacă nu aveți dorința sau timpul să studiați sintaxa, dar este nevoie să închideți paginile de spam de pe site, atunci puteți utiliza orice generator online gratuit care vă va permite să creați roboți txt pentru site într-un câteva clicuri. Apoi, tot ce trebuie să faceți este să descărcați fișierul și să-l încărcați pe site-ul dvs. web. Când lucrați cu acesta, trebuie doar să verificați setările evidente și, de asemenea, să indicați paginile pe care doriți să le blocați de la indexare. Generatorul va face restul pentru tine.

Fișiere gata făcute pentru CMS popular

Robots.txt pentru DataLife Engine (DLE)

Agent utilizator: *
Nu permiteți: /engine/go.php
Nu permiteți: /engine/download.php
Nu permiteți: /engine/classes/highslide/
Nu permiteți: /utilizator/
Nu permiteți: /etichete/
Nu permiteți: /postări noi/
Nu permiteți: /statistics.html
Nu permiteți: /*subaction=userinfo
Nu permiteți: /*subaction=postări noi
Nu permiteți: /*do=ultimele comentarii
Nu permiteți: /*do=feedback
Nu permite: /*do=register
Nu permiteți: /*do=parola pierdută
Nu permiteți: /*do=addnews
Nu permiteți: /*do=stats
Nu permiteți: /*do=pm
Nu permiteți: /*do=căutare
Gazdă: www.site.ru
Harta site-ului: http://www.site.ru/sitemap.xml

Robots.txt pentru Joomla

Agent utilizator: *
Nu permiteți: /administrator/
Nu permiteți: /cache/
Nu permite: /include/
Nu permiteți: /instalare/
Nu permiteți: /limba/
Nu permiteți: /biblioteci/
Nu permiteți: /media/
Nu permiteți: /module/
Nu permiteți: /plugins/
Nu permiteți: /șabloane/
Nu permiteți: /tmp/
Nu permiteți: /xmlrpc/
Nu permite: *tipărește
Nu permiteți: /*utm_source
Nu permiteți: /*mailto*
Disallow: /*start*
Nu permiteți: /*feed*
Nu permiteți: /*căutare*
Nu permiteți: /*utilizatori*
Gazdă: www.site.ru
Harta site-ului: http://www.site.ru/sitemap.xml

Robots.txt pentru Wordpress

Agent utilizator: *
Nu permiteți: /cgi-bin
Nu permiteți: /wp-admin
Nu permiteți: /wp-includes
Nu permiteți: /wp-content/plugins
Nu permiteți: /wp-content/cache
Nu permiteți: /wp-content/themes
Nu permite: */trackback
Nu permiteți: */feed
Nu permiteți: /wp-login.php
Nu permiteți: /wp-register.php
Gazdă: www.site.ru
Harta site-ului: http://www.site.ru/sitemap.xml

Robots.txt pentru Ucoz

Agent utilizator: *
Nu permiteți: /a/
Nu permiteți: /stat/
Nu permiteți: /index/1
Nu permiteți: /index/2
Nu permiteți: /index/3
Nu permiteți: /index/5
Nu permiteți: /index/7
Nu permiteți: /index/8
Nu permiteți: /index/9
Nu permiteți: /panel/
Nu permiteți: /admin/
Nu permiteți: /secure/
Nu permiteți: /informator/
Nu permiteți: /mchat
Nu permite: /căutare
Nu permiteți: /magazin/comandă/
Nu permite: /?ssid=
Nu permiteți: /google
Nu permite: /

Ce este scris în fișierul robot txt. Format și aspect

Aplicație în SEO

Regulile de sintaxă Robots.txt

Se verifică robots.txt

Exemple de setări robots.txt

Directiva utilizator-agent

Utilizarea mai multor user-agenți

Permiterea și interzicerea directivelor

Interzicerea indexării - Interzicerea

Interdicție totală a indexării

Permisiune de indexare - Permite

Directiva gazdă

Directiva Sitemap

Excluderea paginilor cu parametri dinamici

Reducerea încărcăturii - Întârziere crawl

Robots.txt tipic pentru un site de pe Bitrix

Format de fișier Robots.txt

Directive suplimentare

Expresii regulate în robots.txt

Harta site-ului

Oglinzi de site

Comentarii în robots.txt

Exemple de fișiere robots.txt

Erori comune

Verificarea fișierului robots.txt pentru erori

De ce aveți nevoie de robots.txt?

Impactul robots.txt asupra motoarele de căutare?

Ce este o directivă robots.txt?

Ce înseamnă User-agent?

roboți de căutare Google

roboți de căutare Yandex

Roboti de căutare Bing, Yahoo, Mail.ru, Rambler

Directivele Disallow și Allow

Directiva gazdă în robots.txt

Directiva privind întârzierea cu crawler

Directiva Clean-param

Cum se verifică robots.txt?

Concluzie:

Opțiunea 1: Cod robots.txt optim pentru WordPress

Acest lucru este important: regulile de sortare înainte de procesare

Opțiunea 2: robots.txt standard pentru WordPress

Pe baza acestor modificări, codul corect ar trebui să arate astfel:

Să o adăugăm pentru noi înșine

Verificare și documentare Robots.txt

Crawl-delay - timeout pentru roboții nebuni (nu luați în considerare din 2018)

Yandex

Google

L-am întrebat pe Yandex...

Întrebare:

Răspuns:

Concluzie

Robots.txt - ce este, de ce este necesar și unde locuiește?

Structura și configurarea corectă a fișierului robots.txt

1. Directiva utilizator-agent

2. Permite directivă

2. Disallow directivă

3. Directiva gazdă

4. Directiva Sitemap

5. Directiva Clean-param

Directiva privind întârzierea cu crawl

Sintaxă

Exemplu de fișier robots.txt

Se verifică robots.txt

Generator Robots.txt - creare online

Fișiere gata făcute pentru CMS popular

Fișier Robots.txt pentru un site pe 1C Bitrix

Robots.txt pentru DataLife Engine (DLE)

Robots.txt pentru Joomla

Robots.txt pentru Wordpress

Robots.txt pentru Ucoz

Cele mai bune articole pe această temă