Kako podesiti pametne telefone i računare. Informativni portal

Ispravan robots txt fajl. Yandex roboti

Svaki blog ima svoj odgovor na ovo. Stoga se novopridošlice u promociji na pretraživačima često zbune, poput ovoga:

Kakvi roboti ti ex ti?

File robots.txt ili index fajl- običan tekstualni dokument u UTF-8 kodiranju, važeći za http, https i FTP protokole. Datoteka daje preporuke robotima za pretraživanje: koje stranice/datoteke treba indeksirati. Ako datoteka sadrži znakove u kodiranju različitom od UTF-8, roboti za pretraživanje ih mogu pogrešno obraditi. Pravila navedena u datoteci robots.txt važe samo za host, protokol i broj porta na kojem se datoteka nalazi.

Datoteka bi se trebala nalaziti u korijenskom direktoriju kao običan tekstualni dokument i biti dostupna na: https://site.com.ua/robots.txt.

U drugim datotekama uobičajeno je označiti BOM (Byte Order Mark). Ovo je Unicode znak koji se koristi za određivanje redoslijeda bajtova prilikom čitanja informacija. Njegov kodni znak je U+FEFF. Na početku datoteke robots.txt, oznaka sekvence bajtova se zanemaruje.

Google je postavio ograničenje veličine za datoteku robots.txt – ne bi trebalo da bude teža od 500 KB.

U redu, ako vas zanimaju čisto tehnički detalji, datoteka robots.txt je opis u Backus-Naur formi (BNF). Ovo koristi pravila RFC 822.

Prilikom obrade pravila u datoteci robots.txt, roboti za pretraživanje primaju jednu od tri instrukcije:

  • djelomični pristup: dostupno je skeniranje pojedinačnih elemenata web stranice;
  • pun pristup: možete skenirati sve;
  • potpuna zabrana: robot ne može ništa skenirati.

Prilikom skeniranja datoteke robots.txt, roboti dobijaju sljedeće odgovore:

  • 2xx — skeniranje je bilo uspješno;
  • 3xx — robot za pretragu prati preusmjeravanje sve dok ne dobije drugi odgovor. Najčešće, postoji pet pokušaja da robot primi odgovor koji nije 3xx odgovor, a zatim se evidentira greška 404;
  • 4xx — robot za pretraživanje vjeruje da je moguće indeksirati cijeli sadržaj stranice;
  • 5xx — ocjenjuju se kao privremene greške servera, skeniranje je potpuno zabranjeno. Robot će pristupiti datoteci dok ne dobije drugi odgovor. Google robot za pretraživanje može utvrditi da li je odgovor stranica koje nedostaju na stranici ispravno ili neispravno konfigurisan, odnosno ako umjesto greške 404 stranica vraća 5xx odgovor, u u ovom slučaju stranica će biti obrađena s kodom odgovora 404.

Još nije poznato kako se obrađuje datoteka robots.txt, koja je nedostupna zbog problema servera s pristupom Internetu.

Zašto vam je potrebna datoteka robots.txt?

Na primjer, ponekad roboti ne bi trebali posjetiti:

  • stranice sa ličnim podacima korisnika na stranici;
  • stranice s raznim oblicima za slanje informacija;
  • zrcalne stranice;
  • stranice sa rezultatima pretrage.

Važno: čak i ako je stranica u datoteci robots.txt, postoji mogućnost da će se pojaviti u rezultatima ako je link do nje pronađen unutar stranice ili negdje na vanjskom resursu.

Ovako roboti pretraživača vide stranicu sa i bez datoteke robots.txt:

Bez robots.txt, informacije koje treba sakriti od znatiželjnih očiju mogu završiti u rezultatima pretrage i zbog toga ćete patiti i vi i stranica.

Ovako robot pretraživača vidi datoteku robots.txt:

Google je otkrio robots.txt datoteku na web stranici i pronašao pravila po kojima stranice stranice trebaju biti indeksirane

Kako kreirati robots.txt datoteku

Koristeći notepad, Notepad, Sublime ili bilo koji drugi uređivač teksta.

User-agent - vizit karta za robote

Korisnički agent—pravilo o tome koji roboti trebaju vidjeti upute opisane u datoteci robots.txt. Trenutno postoje 302 poznata robota za pretraživanje

Kaže da specificiramo pravila u robots.txt za sve robote za pretraživanje.

Za Google, glavni robot je Googlebot. Ako želimo da uzmemo u obzir samo ovo, unos u fajlu će biti ovakav:

U ovom slučaju, svi ostali roboti će indeksirati sadržaj na osnovu svojih direktiva za obradu prazne datoteke robots.txt.

Za Yandex, glavni robot je... Yandex:

Ostali specijalni roboti:

  • Googlebot-Novosti— za traženje vijesti;
  • Mediapartners-Google— za uslugu AdSense;
  • AdsBot-Google— provjeriti kvalitetu odredišne ​​stranice;
  • YandexImages— Yandex.Images indekser;
  • Googlebot-Image- za slike;
  • Yandexmetric— Yandex.Metrica robot;
  • YandexMedia— robot koji indeksira multimedijalne podatke;
  • YaDirectFetcher— Yandex.Direct robot;
  • Googlebot-Video— za video;
  • Googlebot-Mobile- za mobilnu verziju;
  • YandexDirectDyn— dinamički robot za generiranje banera;
  • YandexBlogs— robot za pretraživanje blogova koji indeksira postove i komentare;
  • YandexMarket— Yandex.Market robot;
  • YandexNews— robot Yandex.News;
  • YandexDirect— preuzima informacije o sadržaju partnerskih stranica Mreže za oglašavanje kako bi se razjasnile njihove teme za odabir relevantnog oglašavanja;
  • YandexPagechecker— validator mikro markupa;
  • YandexCalendar— Yandex.Calendar robot.

Disallow - postavljanje "cigli"

Vrijedi ga koristiti ako je stranica u procesu poboljšanja, a ne želite da se pojavljuje u rezultatima pretrage u svom trenutnom stanju.

Važno je ukloniti ovo pravilo čim stranica bude spremna da ga korisnici vide. Nažalost, mnogi webmasteri to zaboravljaju.

Primjer. Kako postaviti pravilo Disallow da savjetuje robotima da ne pregledavaju sadržaj mape /papka/:

Ova linija zabranjuje indeksiranje svih datoteka sa ekstenzijom .gif

Dozvolite - usmjeravamo robote

Dozvoli omogućava skeniranje bilo koje datoteke/direktive/stranice. Recimo da želite da roboti mogu da vide samo stranice koje počinju sa /catalog, i da zatvore sav drugi sadržaj. U tom slučaju propisana je sljedeća kombinacija:

Dozvoli i Disallow pravila su sortirana prema dužini URL prefiksa (od najmanjeg do najvećeg) i primjenjuju se uzastopno. Ako više od jednog pravila odgovara stranici, robot bira posljednje pravilo na sortiranoj listi.

Host - odaberite zrcalno mjesto

Host je jedno od obaveznih pravila za robots.txt; ono govori Yandex robotu koje od ogledala stranice treba uzeti u obzir za indeksiranje.

Ogledalo web lokacije je tačna ili skoro tačna kopija stranice, dostupna na različitim adresama.

Robot se neće zbuniti prilikom pronalaženja ogledala stranice i shvatit će da je glavno ogledalo navedeno u datoteci robots.txt. Adresa stranice je naznačena bez prefiksa “http://”, ali ako web lokacija radi na HTTPS-u, mora se navesti prefiks “https://”.

Kako napisati ovo pravilo:

Primjer datoteke robots.txt ako web lokacija radi na HTTPS protokolu:

Sitemap - medicinska mapa stranice

Sitemap govori robotima da se nalaze svi URL-ovi web lokacija potrebni za indeksiranje http://site.ua/sitemap.xml. Sa svakim indeksiranjem, robot će pogledati koje su promjene napravljene u ovoj datoteci i brzo ažurirati informacije o stranici u bazama podataka tražilice.

Crawl-dey - štoperica za slabe servere

Odlaganje indeksiranja je parametar koji se može koristiti za postavljanje perioda nakon kojeg će se stranice stranice učitavati. Ovo pravilo je relevantno ako imate slab server. U ovom slučaju može doći do dugih kašnjenja kada roboti za pretraživanje pristupaju stranicama web-mjesta. Ovaj parametar se mjeri u sekundama.

Clean-param - lovac na duplirane sadržaje

Clean-param pomaže u rješavanju parametara get kako bi se izbjeglo dupliciranje sadržaja koji može biti dostupan na različitim dinamičkim adresama (sa upitnicima). Takve adrese se pojavljuju ako stranica ima različita sortiranja, ID-ove sesija i tako dalje.

Recimo da je stranica dostupna na sljedećim adresama:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

U ovom slučaju, datoteka robots.txt će izgledati ovako:

Evo ref označava odakle link dolazi, pa se piše na samom početku, a tek onda se navodi ostatak adrese.

Ali prije nego što pređete na referentnu datoteku, još uvijek morate naučiti o nekim znakovima koji se koriste prilikom pisanja datoteke robots.txt.

Simboli u robots.txt

Glavni znakovi datoteke su “/, *, $, #”.

Korišćenjem kosa crta "/" pokazujemo da želimo spriječiti otkrivanje od strane robota. Na primjer, ako postoji jedna kosa crta u pravilu Disallow, zabranjujemo skeniranje cijele stranice. Koristeći dvije kose crte možete spriječiti skeniranje određenog direktorija, na primjer: /catalog/.

Ovaj unos kaže da zabranjujemo skeniranje cjelokupnog sadržaja foldera kataloga, ali ako napišemo /catalog, zabranit ćemo sve linkove na stranici koji počinju sa /catalog.

zvjezdica "*" znači bilo koji niz znakova u datoteci. Postavlja se iza svakog pravila.

Ovaj unos kaže da svi roboti ne bi trebali indeksirati nijednu datoteku sa ekstenzijom .gif u folderu /catalog/

Znak dolara «$» ograničava radnje znaka zvjezdice. Ako želite blokirati cijeli sadržaj mape kataloga, ali ne možete blokirati URL-ove koji sadrže /catalog, unos u datoteci indeksa će biti ovakav:

Mreža "#" koristi se za komentare koje webmaster ostavlja sebi ili drugim webmasterima. Robot ih neće uzeti u obzir prilikom skeniranja stranice.

Na primjer:

Kako izgleda idealan robots.txt

Datoteka otvara sadržaj sajta za indeksiranje, host se registruje i ukazuje se na mapu sajta, što će omogućiti pretraživačima da uvek vide adrese koje treba da se indeksiraju. Pravila za Yandex navedena su zasebno, budući da svi roboti ne razumiju upute domaćina.

Ali nemojte žuriti da kopirate sadržaj datoteke u sebe - svaka stranica mora imati jedinstvena pravila, koja zavise od vrste stranice i CMS-a. Stoga je vrijedno zapamtiti sva pravila prilikom popunjavanja datoteke robots.txt.

Kako provjeriti vaš robots.txt fajl

Ako želite znati da li je datoteka robots.txt ispravno popunjena, provjerite je u alatima za webmastere Google i Yandex. Jednostavno unesite izvorni kod datoteke robots.txt u obrazac putem veze i navedite web lokaciju koju želite provjeriti.

Kako ne popuniti datoteku robots.txt

Često se prilikom popunjavanja indeksne datoteke prave dosadne greške, a povezane su s običnom nepažnjom ili žurbi. Ispod je tabela grešaka na koje sam naišao u praksi.

2. Pisanje nekoliko foldera/direktorija u jednom Disallow naredbi:

Takav unos može zbuniti robote za pretraživanje; oni možda neće razumjeti šta točno ne bi trebali indeksirati: bilo prvu mapu ili posljednju, tako da morate napisati svako pravilo zasebno.

3. Sama datoteka mora biti pozvana samo robots.txt, a ne Robots.txt, ROBOTS.TXT ili bilo šta drugo.

4. Pravilo korisničkog agenta ne možete ostaviti praznim - potrebno je da kažete koji robot treba da uzme u obzir pravila zapisana u datoteci.

5. Dodatni znakovi u datoteci (kose crte, zvjezdice).

6. Dodavanje stranica u datoteku koje ne bi trebale biti u indeksu.

Nestandardna upotreba robots.txt

Pored direktnih funkcija, indeksna datoteka može postati platforma za kreativnost i način za pronalaženje novih zaposlenika.

Evo stranice gdje je robots.txt sama mala stranica s radnim elementima, pa čak i oglasnom jedinicom.

Datoteku uglavnom koriste SEO agencije kao platformu za traženje stručnjaka. Ko bi još mogao znati za njegovo postojanje? :)

I Google ima poseban fajl humans.txt, da ne dozvolite sebi da razmišljate o diskriminaciji stručnjaka za kožu i meso.

zaključci

Uz Robots.txt možete dati upute za pretraživanje robota, reklamirati sebe, svoj brend i tražiti stručnjake. Ovo je odlično polje za eksperimentisanje. Glavna stvar je zapamtiti ispravno popunjavanje datoteke i tipične greške.

Pravila, poznata i kao direktive, poznata i kao instrukcije u datoteci robots.txt:

  1. Korisnički agent - pravilo o tome koji roboti trebaju vidjeti upute opisane u robots.txt.
  2. Disallow daje preporuke koje informacije ne treba skenirati.
  3. Sitemap govori robotima da se svi URL-ovi stranice potrebni za indeksiranje nalaze na http://site.ua/sitemap.xml.
  4. Host govori Yandex robotu koji od ogledala sajta treba uzeti u obzir za indeksiranje.
  5. Dozvoli omogućava skeniranje bilo koje datoteke/direktive/stranice.

Znakovi prilikom kompajliranja robots.txt:

  1. Znak dolara "$" ograničava radnje znaka zvjezdice.
  2. Koristeći kosu crtu “/” označavamo da želimo da je sakrijemo od otkrivanja robota.
  3. Zvjezdica "*" označava bilo koji niz znakova u datoteci. Postavlja se iza svakog pravila.
  4. Heš "#" se koristi za označavanje komentara koje webmaster piše za sebe ili druge webmastere.

Koristite indeksnu datoteku mudro - i stranica će uvijek biti u rezultatima pretraživanja.

Sales Generator

Ako napravite grešku prilikom kreiranja datoteke robots.txt, može se pokazati beskorisnom za pretraživanje robota. Postojat će rizik od pogrešnog prenošenja potrebnih naredbi robotima za pretraživanje, što će dovesti do smanjenja ocjena i promjene korisničkih indikatora virtualne platforme. Čak i ako stranica radi dobro i kompletna, provjera robots.txt joj neće naštetiti, već će samo poboljšati rad.

Iz ovog članka ćete naučiti:

Zašto je potrebna provjera robots.txt?

Ponekad sistem uključuje nepotrebne stranice vašeg internet resursa u rezultate pretraživanja, što nije neophodno. Možda se čini da nema ništa loše u tome da imate previše stranica u indeksu tražilice, ali nema ništa loše u tome:

  • Na dodatnim stranicama korisnik neće pronaći korisne informacije za sebe. Sa većim stepenom vjerovatnoće, on uopće neće posjetiti ove stranice ili se neće dugo zadržati na njima;
  • Rezultati pretraživača sadrže iste stranice čije su adrese različite (odnosno sadržaj je dupliciran);
  • Roboti za pretraživanje moraju provesti dosta vremena indeksirajući potpuno nepotrebne stranice. Umjesto da indeksiraju koristan sadržaj, oni će beskorisno lutati po stranici. Budući da robot ne može indeksirati cijeli resurs i to radi stranicu po stranicu (s obzirom da postoji mnogo stranica), potrebne informacije koje biste željeli dobiti nakon obavljanja zahtjeva možda neće biti vrlo brzo pronađeni;
  • Server je veoma opterećen.

U tom smislu, preporučljivo je blokirati pristup robotima za pretraživanje nekim stranicama web resursa.

Koje datoteke i fascikle mogu biti zabranjene za indeksiranje:

  1. Pretraži stranice. Ovo je kontroverzna tačka. Ponekad je potrebna interna pretraga na web stranici kako bi se kreirale relevantne stranice. Ali to se ne radi uvijek. Često je rezultat pretrage pojava velikog broja dupliranih stranica. Stoga se preporučuje da zatvorite stranice za pretraživanje radi indeksiranja.
  2. Korpa za kupovinu i stranica na kojoj je narudžba/potvrđena. Njihovo zatvaranje se preporučuje za web stranice za online trgovanje i druge komercijalne resurse koji koriste obrazac za narudžbu. Veoma je nepoželjno da ove stranice budu uključene u indeks pretraživača.
  3. Paginacija stranica. U pravilu ih karakterizira automatska registracija istih meta tagova. Osim toga, koriste se za objavljivanje dinamičkog sadržaja, pa se duplikati pojavljuju u rezultatima pretraživanja. U tom smislu, paginaciju treba zatvoriti radi indeksiranja.
  4. Filteri i poređenje proizvoda. Online trgovine i katalozi moraju ih zatvoriti.
  5. Stranice za registraciju i prijavu. Potrebno ih je zatvoriti zbog povjerljivosti podataka koje su korisnici unijeli prilikom registracije ili autorizacije. Google će procijeniti nedostupnost ovih stranica za indeksiranje.
  6. Sistemski direktoriji i datoteke. Svaki resurs na Internetu sastoji se od puno podataka (skripte, CSS tabele, administrativni dijelovi) koje roboti ne bi trebali pregledavati.

Datoteka robots.txt će vam pomoći da zatvorite datoteke i stranice za indeksiranje.

robots.txt je običan tekstualni fajl koji sadrži uputstva za robote za pretragu. Kada robot za pretraživanje sleti na stranicu, prvo traži datoteku robots.txt. Ako nedostaje (ili je prazan), robot će otići na sve stranice i direktorije resursa (uključujući one sistemske) koji su slobodno dostupni i pokušati ih indeksirati. Međutim, ne postoji garancija da će stranica koja vam je potrebna biti indeksirana, jer možda neće stići tamo.

robots.txt vam omogućava da usmjerite robote za pretraživanje na potrebne stranice, a ne na one koje ne bi trebale biti indeksirane. Datoteka može dati instrukcije oba robota odjednom, i svakog posebno. Ako je stranica stranice zatvorena iz indeksiranja, nikada se neće pojaviti u rezultatima tražilice. Kreiranje datoteke robots.txt je od suštinskog značaja.

Lokacija datoteke robots.txt trebala bi biti server, korijen vašeg resursa. Datoteka robots.txt bilo koje web stranice dostupna je za gledanje na Internetu. Da biste ga vidjeli, trebate dodati /robots.txt iza adrese resursa.

U pravilu se robots.txt datoteke različitih resursa međusobno razlikuju. Ako nepromišljeno kopirate datoteku s tuđe web stranice, tada će nastati problemi kada roboti za pretraživanje indeksiraju vašu. Stoga je neophodno znati čemu služi datoteka robots.txt i upute (direktive) koje se koriste za njegovo kreiranje.


Pošaljite svoju prijavu

Kako Yandex provjerava robots.txt

  • Posebna usluga Yandex.Webmastera "Robots.txt Analysis" pomoći će vam da provjerite datoteku. Možete ga pronaći na linku: http://webmaster.yandex.ru/robots.xml
  • U predloženi obrazac potrebno je unijeti sadržaj datoteke robots.txt koju je potrebno provjeriti na greške. Postoje dva načina za unos podataka:
    1. Idite na stranicu koristeći vezu http://your-site.ru/robots.txt, kopirajte sadržaj u prazno polje usluge (ako nema datoteke robots.txt, svakako je trebate kreirati!);
    2. Zalijepite vezu do datoteke koju provjeravate u polje "Host Name", kliknite na "Preuzmi robots.txt sa web lokacije" ili Enter.
  • Provjera se pokreće klikom na naredbu “Provjeri”.
  • Nakon što se skeniranje pokrene, možete analizirati rezultate.

Kada skeniranje započne, analizator analizira svaki red sadržaja u polju teksta Robots.txt i analizira direktive koje sadrži. Osim toga, znat ćete da li će robot indeksirati stranice iz polja “Lista URL-ova”.

Možete kreirati robots.txt datoteku prikladnu za vaš resurs uređujući pravila. Ne zaboravite da sama datoteka resursa ostaje nepromijenjena. Da bi promjene stupile na snagu, morat ćete samostalno prenijeti novu verziju datoteke na web stranicu.

Prilikom provjere direktiva odjeljka koje su namijenjene Yandex robotu (Korisnički agent: Yandex ili User-agent:*), analizator se vodi prema pravilima za korištenje robots.txt. Preostale sekcije se provjeravaju u skladu sa zahtjevima standarda. Kada analizator analizira datoteku, prikazuje poruku o pronađenim greškama, upozorava ako ima netačnosti u pisanju pravila i navodi koji su dijelovi datoteke namijenjeni Yandex robotu.

Analizator može poslati dvije vrste poruka: greške i upozorenja.

Poruka o grešci se prikazuje ako analizator ne može obraditi bilo koji red, odjeljak ili cijelu datoteku zbog prisustva ozbiljnih sintaktičkih grešaka koje su napravljene prilikom sastavljanja direktiva.

Upozorenje obično govori o odstupanju od pravila koje analizator ne može ispraviti ili o potencijalnom problemu (možda se i ne pokaže) čiji je uzrok slučajna greška u kucanju ili netačno sastavljena pravila.

Poruka o grešci “Ovaj URL ne pripada vašoj domeni” označava da lista URL-ova sadrži adresu jednog od ogledala vašeg resursa, na primjer, http://example.com umjesto http://www.example .com (formalno se ti URL-ovi razlikuju). Neophodno je da se adrese koje treba provjeriti odnose na stranicu čiji se robots.txt fajl analizira.

Kako se robots.txt provjerava u Googleu

Alat Google Search Console vam omogućava da provjerite da li vaš robots.txt fajl sprječava Googlebot da indeksira određene URL-ove na vašem posjedu. Na primjer, imate sliku za koju ne želite da se pojavljuje u Google rezultatima pretraživanja slika. Koristeći alat, saznat ćete da li Googlebot-Image ima pristup ovoj slici.

Da biste to učinili, navedite URL koji vas zanima. Nakon toga, datoteku robots.txt obrađuje alat za verifikaciju, slično verifikaciji robota Googlebot. Ovo omogućava da se utvrdi da li je ova adresa dostupna.

Procedura verifikacije:

  • Nakon što odaberete svoju imovinu u Google Search Consoleu, idite na alat za verifikaciju, koji će vam dati sadržaj datoteke robots.txt. Istaknuti tekst je sintaktička ili logička greška. Njihov broj je naveden ispod prozora za uređivanje.
  • Na dnu stranice interfejsa vidjet ćete poseban prozor u koji trebate unijeti URL.
  • Desno će se pojaviti meni iz kojeg trebate odabrati robota.
  • Kliknite na dugme "Provjeri".
  • Ako provjera rezultira porukom s tekstom "dostupno", to znači da je Google robotima dozvoljeno da posjete navedenu stranicu. Status „nedostupan“ znači da robotima nije dozvoljen pristup.
  • Ako je potrebno, možete promijeniti meni i izvršiti novi test. Pažnja! Automatske promjene u datoteci robots.txt na vašem resursu se neće dogoditi.
  • Kopirajte promjene i dodajte ih u datoteku robots.txt na vašem web serveru.

Na šta treba obratiti pažnju:

  1. Promjene napravljene u uređivaču se ne pohranjuju na web serveru. Morat ćete kopirati rezultirajući kod i zalijepiti ga u datoteku robots.txt.
  2. Samo Google korisnički agenti i roboti povezani s Googleom (kao što je Googlebot) mogu primiti rezultate inspekcije datoteke robots.txt alata. Međutim, ne postoji garancija da će tumačenje sadržaja vašeg fajla od strane robota drugih pretraživača biti slično.

15 grešaka prilikom provjere datoteke robots.txt

Greška 1: Zbrkana uputstva

Najčešća greška u datoteci robots.txt su pomiješane upute. npr.:

  • Korisnički agent: /
  • Disallow: Yandex

Ispravna opcija je:

  • Korisnički agent: Yandex
  • Disallow: /

Greška 2: Navođenje više direktorija u jednom Disallow izrazu

Često vlasnici internetskih resursa pokušavaju da navedu sve direktorije za koje žele da spriječe da budu indeksirani u jednoj naredbi Disallow.

Disallow: /css/ /cgi-bin/ /images/

Takav snimak ne ispunjava zahtjeve standarda, nemoguće je predvidjeti kako će ga obraditi različiti roboti. Neki od njih mogu zanemariti razmake. Njihovo tumačenje unosa bi bilo: “Disallow: /css/cgi-bin/images/”. Drugi mogu koristiti samo prvi ili posljednji folder. Drugi pak mogu potpuno odbaciti upute bez razumijevanja.

Postoji mogućnost da će obrada ovog dizajna biti upravo ono što je majstor očekivao, ali je ipak bolje napisati ispravno:

  • Disallow: /css/
  • Disallow: /cgi-bin/
  • Disallow: /slike/

Greška 3. Ime datoteke sadrži velika slova

Tačan naziv datoteke je robots.txt, a ne Robots.txt ili ROBOTS.TXT.

Greška 4: Pisanje imena datoteke kao robot.txt umjesto robots.txt

Zapamtite, ispravan naziv za fajl je robots.txt.

Greška 5. Ostavljate prazan red User-agent

Netačna opcija:

  • Korisnički agent:
  • Zabraniti:
  • Korisnički agent: *
  • Zabraniti:

Greška 6. Pisanje URL-a u Host direktivi

URL mora biti naveden bez upotrebe skraćenice Hypertext Transfer Protocol (http://) ili kose crte (/).

Nevažeći unos:

Ispravna opcija:

Ispravna upotreba host direktive je samo za Yandex robota.

Greška 7: Korištenje zamjenskih znakova u naredbi Disallow

Ponekad, da navede sve datoteke file1.html, file2.html, file3.html, itd., webmaster može napisati:

  • Korisnički agent: *
  • Disallow: file*.html

Ali to se ne može učiniti, jer neki roboti ne podržavaju zamjenske znakove.

Greška 8. Korištenje jednog reda za pisanje komentara i instrukcija

Standard dozvoljava sljedeće unose:

Disallow: /cgi-bin/ #onemogući robotima da indeksiraju cgi-bin

Ranije je obrada takvih nizova bila nemoguća za neke robote. Možda trenutno nijedan pretraživač neće imati problema s ovim, ali vrijedi li riskirati? Bolje je staviti komentare u poseban red.

Greška 9. Preusmjerite na stranicu s greškom 404

Često, ako web lokacija nema datoteku robots.txt, onda kada to zatražite, pretraživač će preusmjeriti na drugu stranicu. Ponekad ovo ne vraća status 404 Not Found. Robot mora sam shvatiti da li je primio robots.txt ili običnu html datoteku. Ovo nije problem, ali je bolje da se prazna datoteka robots.txt postavi u korijen stranice.

Greška 10: Upotreba velikih slova znak je lošeg stila

KORISNIČKI AGENT: GOOGLEBOT

Iako standard ne regulira osjetljivost na velika i mala slova robots.txta, to je često slučaj za imena datoteka i direktorija. Osim toga, ako je datoteka robots.txt u potpunosti napisana velikim slovima, onda se to smatra lošim stilom.

Korisnički agent: googlebot

Greška 11: Popis svih datoteka

Bilo bi pogrešno navesti svaki fajl u direktorijumu pojedinačno:

  • Korisnički agent: *
  • Disallow: /AL/Alabama.html
  • Disallow: /AL/AR.html
  • Disallow: /Az/AZ.html
  • Disallow: /Az/bali.html
  • Disallow: /Az/bed-breakfast.html

Ispravan pristup bi bio blokiranje indeksiranja cijelog direktorija:

  • Korisnički agent: *
  • Disallow: /AL/
  • Disallow: /Az/

Greška 12. Korištenje dodatnih direktiva u * odjeljku

Neki roboti možda neće ispravno reagirati kada se koriste dodatne direktive. Stoga je njihova upotreba u odjeljku “*” nepoželjna.

Ako direktiva nije standardna (kao što je "Host"), onda je bolje stvoriti poseban odjeljak za nju.

Netačna opcija:

Ispravno bi bilo napisati:

Greška 13. Nedostaje instrukcija Disallow

Čak i ako želite da koristite dodatnu direktivu i ne postavljate nikakvu zabranu, preporučuje se da navedete prazan Disallow. Standard navodi da je instrukcija Disallow obavezna; ako je nema, robot vas može "pogrešno razumjeti".

Pogrešno:

desno:

Greška 14. Ne koristite kose crte prilikom navođenja direktorija

Šta će robot učiniti u ovom slučaju?

  • Korisnički agent: Yandex
  • Disallow: John

Prema standardu, indeksiranje se neće vršiti ni za datoteku ni za direktorij pod nazivom “john”. Da biste naveli samo direktorij, trebate napisati:

  • Korisnički agent: Yandex
  • Disallow: /john/

Greška 15. Neispravan pravopis HTTP zaglavlja

Server bi trebao vratiti “Content-Type: text/plain” u HTTP zaglavlju za robots.txt, a ne, na primjer, “Content-Type: text/html”. Ako je zaglavlje napisano pogrešno, neki roboti neće moći obraditi datoteku.

Kako pravilno sastaviti datoteku tako da provjera robots.txt ne otkrije greške

Koja bi trebala biti ispravna datoteka robots.txt za internetski resurs? Pogledajmo njegovu strukturu:

1. Korisnički agent

Ova direktiva je glavna; ona određuje za koje robote su pravila napisana.

Ako za bilo kojeg robota pišemo:

Ako za određenog bota:

Korisnički agent: GoogleBot

Vrijedi napomenuti da velika i mala slova nisu bitna u robots.txt. Na primjer, korisnički agent za Google može se napisati ovako:

korisnički agent: googlebot

Ovdje je tabela glavnih korisničkih agenata raznih pretraživača.

Googleov glavni robot za indeksiranje

Google vijesti

Google slike

Mediapartners-Google

Google AdSense, Google Mobile AdSense

provjera kvaliteta odredišne ​​stranice

AdsBot-Google-Mobile-Apps

Googlebot za aplikacije

Yandexov glavni robot za indeksiranje

Yandex.Pictures

Yandex.Video

multimedijalni podaci

robot za pretraživanje blogova

robot koji pristupa stranici kada je dodaje putem obrasca „Dodaj URL“.

robot koji indeksira ikone web stranice (favicons)

Yandex.Direct

Yandex.Metrica

Yandex.Catalog

Yandex.News

YandexImageResizer

mobilni servisni robot

Bingov glavni robot za indeksiranje

glavni robot za indeksiranje Yahoo!

glavni robot za indeksiranje Mail.Ru

2. Disallow i Allow

Disallow vam omogućava da zabranite indeksiranje stranica i sekcija internetskog izvora.

Allow se koristi da ih prisili da se otvore za indeksiranje.

Ali oni su prilično teški za korištenje.

Prvo, morate se upoznati s dodatnim operatorima i pravilima za njihovu upotrebu. To uključuje: *, $ i #.

  • * - bilo koji broj znakova, čak i njihovo odsustvo. Nije potrebno staviti ovaj operator na kraj reda, pretpostavlja se da je tamo po defaultu;
  • $ - označava da znak ispred mora biti posljednji;
  • # - ovaj operator služi za označavanje komentara; sve informacije nakon toga robot ne uzima u obzir.

Kako koristiti ove operatore:

  • Disallow: *?s=
  • Disallow: /category/$

Drugo, morate razumjeti kako se izvršavaju pravila uključena u datoteku robots.txt.

Nije bitno kojim redosledom su direktive napisane. Određivanje nasljeđivanja pravila (šta otvoriti ili zatvoriti iz indeksiranja) vrši se prema navedenim direktorijima. Dajemo primjer.

Dozvoli: *.css

Disallow: /template/

Ako trebate otvoriti sve .css datoteke za indeksiranje, morat ćete to dodatno specificirati za svaku mapu kojoj je pristup odbijen. u našem slučaju:

  • Dozvoli: *.css
  • Dozvoli: /template/*.css
  • Disallow: /template/

Podsjetimo još jednom: nije bitno kojim su redoslijedom napisane direktive.

3. Sitemap

Ova direktiva specificira putanju do datoteke XML Sitemap. URL izgleda isto kao što se pojavljuje u adresnoj traci.

Direktiva Sitemap može se navesti bilo gdje u datoteci robots.txt, bez potrebe da se ona veže za određenog korisničkog agenta. Dozvoljeno vam je da navedete više pravila za Sitemap.

Ova direktiva specificira glavno ogledalo resursa (obično sa ili bez www). Zapamtite: prilikom navođenja glavnog ogledala ne piše se http://, već https://. Ako je potrebno, port je također naznačen.

Ovu direktivu mogu podržati samo Yandex i Mail.Ru botovi. Drugi roboti, uključujući GoogleBot, ne uzimaju u obzir ovu komandu. Domaćina možete registrovati samo jednom!

5. Puzanje-kašnjenje

Omogućava vam da postavite vremenski period nakon kojeg robot treba da preuzme stranice resursa. Direktivu podržavaju roboti iz Yandexa, Mail.Ru, Binga, Yahooa. Prilikom postavljanja intervala, možete koristiti i cjelobrojne i razlomke, koristeći tačku kao separator. Jedinica mjerenja je sekunde.

Kašnjenje puzanja: 0,5

Ako je opterećenje na web lokaciji malo, onda nema potrebe postavljati ovo pravilo. Ali ako rezultat indeksiranja stranica robota premašuje granice ili ozbiljno povećanje opterećenja, što dovodi do prekida u radu servera, preporučljivo je koristiti ovu direktivu: ona vam omogućava da smanjite opterećenje.

Što je duži interval koji postavite, to će biti manji broj preuzimanja tokom jedne sesije. Optimalna vrijednost za svaki resurs je drugačija. U početku se preporučuje postavljanje malih vrijednosti (0,1, 0,2, 0,5), a zatim ih postepeno povećavati. Za robote pretraživača koji nisu posebno važni za rezultate promocije (na primjer, Mail.Ru, Bing i Yahoo), možete odmah postaviti vrijednosti više nego za Yandex robote.

6. Clean-param

Ova direktiva je potrebna da se indeksira (robot za pretraživanje) obavijesti da indeksiranje URL-ova sa navedenim parametrima nije potrebno. Pravilo zahtijeva dva argumenta: parametar i URL odjeljka. Yandex podržava direktivu.

http://site.ru/articles/?author_id=267539 - neće biti indeksirano

http://site.ru/articles/?author_id=267539&sid=0995823627 - neće biti indeksirano

Clean-Param: utm_source utm_medium utm_campaign

7. Ostali parametri

Proširena specifikacija robots.txt također sadrži sljedeće parametre: Request-rate i Visit-time. Ali trenutno za njih nema podrške od strane vodećih pretraživača.

Direktive su potrebne za sljedeće:

  • Request-rate: 1/5 - omogućava učitavanje ne više od 1 stranice za 5 sekundi
  • Vrijeme posjete: 0600-0845 - dozvoljava učitavanje stranice samo od 06:00 do 8:45 GMT

Da biste ispravno konfigurirali datoteku robots.txt, preporučujemo korištenje sljedećeg algoritma:

2) blokirati pristup robotima vašem ličnom računu, stranicama za prijavu i registraciju;

4) Zatvorite ajax i json skripte iz indeksiranja;

6) Zabraniti indeksiranje dodataka, tema, js, css za robote svih pretraživača osim Yandex-a i Google-a;

7) blokira pristup robotima funkciji pretraživanja;

8) Zabraniti indeksiranje delova servisa koji nisu vredni za resurs u pretrazi (greška 404, spisak autora);

9) blokirati indeksiranje tehničkih duplikata stranica i stranica čiji sadržaj u jednoj ili drugoj mjeri duplira sadržaj drugih stranica (kalendari, arhive, RSS);

12) Koristite parametar “site:” da provjerite šta su Yandex i Google indeksirali. Da biste to učinili, unesite "site:site.ru" u traku za pretraživanje. Ako u rezultatima pretrage postoje stranice koje ne treba indeksirati, dodajte ih u robots.txt;

13) Zapišite Sitemap i Host pravila;

14) Ako je potrebno, navedite Crawl-Delay i Clean-Param;

15) Provjerite ispravnost datoteke robots.txt koristeći Google i Yandex alate;

16) Nakon 14 dana, ponovo proverite da li u rezultatima pretraživača nema stranica koje ne bi trebalo da budu indeksirane. Ako ih ima, ponovite sve gore navedene tačke.

Provjera vašeg robots.txt datoteke ima smisla samo ako je vaša stranica zdrava. Revizija lokacije koju provode kvalifikovani stručnjaci pomoći će da se to utvrdi.

Nadamo se da će vam naš članak o poslovnim idejama biti od koristi. A ako ste se već odlučili za smjer svoje aktivnosti i aktivno se bavite razvojem, savjetujemo vam da prođete reviziju stranice kako biste predstavili stvarnu sliku mogućnosti vašeg resursa.


Prva stvar koju bot za pretragu radi kada je u pitanju vaša stranica je da traži i pročita datoteku robots.txt. Šta je ovo fajl? je skup uputstava za tražilicu.

Riječ je o tekstualnoj datoteci sa ekstenzijom txt, koja se nalazi u korijenskom direktoriju stranice. Ovaj skup uputa govori robotu za pretraživanje koje stranice i datoteke na web mjestu treba indeksirati, a koje ne. Također ukazuje na glavno ogledalo stranice i gdje tražiti mapu stranice.

Čemu služi datoteka robots.txt? Za pravilno indeksiranje Vaše stranice. Tako da pretraga ne sadrži duple stranice, razne servisne stranice i dokumente. Jednom kada ispravno konfigurirate direktive u robotima, spasit ćete svoju stranicu od mnogih problema s indeksiranjem i zrcaljenjem stranice.

Kako kreirati ispravan robots.txt

Prilično je lako kreirati robots.txt; kreiramo tekstualni dokument u standardnom Windows notepadu. U ovaj fajl pišemo direktive za pretraživače. Zatim sačuvajte ovu datoteku pod imenom “robots” i tekstualnom ekstenzijom “txt”. Sve se sada može učitati na hosting, u root folder stranice. Imajte na umu da možete kreirati samo jedan "robot" dokument za jednu stranicu. Ako ovaj fajl nije na sajtu, onda bot automatski „odlučuje“ da se sve može indeksirati.

Pošto postoji samo jedan, sadrži uputstva za sve pretraživače. Štaviše, možete zapisati i odvojena uputstva za svaki PS i opštu za sve odjednom. Razdvajanje instrukcija za različite botove za pretraživanje se vrši preko User-agent direktive. Razgovarajmo više o tome u nastavku.

Robots.txt direktive

Datoteka “za robote” može sadržavati sljedeće direktive za upravljanje indeksiranjem: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Pogledajmo svaku instrukciju detaljnije.

Direktiva korisnik-agent

Direktiva korisnik-agent— označava za koji pretraživač će biti instrukcije (tačnije, za koji bot). Ako postoji “*”, tada su upute namijenjene svim robotima. Ako je naveden određeni bot, kao što je Googlebot, tada su uputstva namijenjena samo Googleovom glavnom robotu za indeksiranje. Štaviše, ako postoje instrukcije odvojeno za Googlebot i za sve ostale podsisteme, onda će Google čitati samo svoja vlastita uputstva i zanemariti općenite. Yandex bot će učiniti isto. Pogledajmo primjer pisanja direktive.

Korisnički agent: YandexBot - upute samo za glavnog Yandex bota za indeksiranje
Korisnički agent: Yandex - upute za sve Yandex botove
Korisnički agent: * - uputstva za sve botove

Disallow i Allow direktive

Disallow i Allow direktive— dati uputstva šta indeksirati, a šta ne. Disallow daje naredbu da se ne indeksira stranica ili cijeli dio stranice. Naprotiv, Allow označava šta treba indeksirati.

Disallow: / - zabranjuje indeksiranje cijele stranice
Disallow: /papka/ - zabranjuje indeksiranje cjelokupnog sadržaja foldera
Disallow: /files.php - zabranjuje indeksiranje datoteke files.php

Dozvoli: /cgi-bin – omogućava indeksiranje cgi-bin stranica

Moguće je i često jednostavno neophodno koristiti posebne znakove u direktivama Disallow i Allow. Oni su potrebni za specificiranje regularnih izraza.

Specijalni znak * - zamjenjuje bilo koji niz znakova. Po defaultu se dodjeljuje kraju svakog pravila. Čak i ako ga niste registrovali, PS će ga sam dodijeliti. Primjer upotrebe:

Disallow: /cgi-bin/*.aspx – zabranjuje indeksiranje svih datoteka sa ekstenzijom .aspx
Disallow: /*foto - zabranjuje indeksiranje datoteka i foldera koji sadrže riječ foto

Specijalni znak $ poništava efekat specijalnog znaka “*” na kraju pravila. Na primjer:

Disallow: /example$ - zabranjuje indeksiranje '/example', ali ne zabranjuje '/example.html'

A ako ga napišete bez posebnog simbola $, tada će instrukcija raditi drugačije:

Disallow: /example - ne dozvoljava i '/example' i '/example.html'

Sitemap Directive

Sitemap Directive— namijenjen je da robotu tražilice ukaže gdje se nalazi mapa web lokacije na hostingu. Format mape stranice trebao bi biti sitemaps.xml. Mapa sajta je potrebna za brže i potpunije indeksiranje sajta. Štaviše, mapa sajta nije nužno jedna datoteka, može ih biti nekoliko. Format direktne poruke:

Mapa sajta: http://site/sitemaps1.xml
Mapa sajta: http://site/sitemaps2.xml

Direktiva o hostu

Direktiva o hostu- ukazuje robotu na glavno ogledalo stranice. Šta god da je u indeksu ogledala sajta, uvek morate navesti ovu direktivu. Ako ga ne navedete, Yandex robot će indeksirati najmanje dvije verzije stranice sa i bez www. Sve dok ih zrcalo robot ne zalijepi. Primjer unosa:

Host: www.site
Domaćin: web stranica

U prvom slučaju robot će indeksirati verziju sa www, u drugom slučaju bez. Dozvoljeno je navesti samo jednu Host direktivu u datoteci robots.txt. Ako unesete nekoliko njih, bot će obraditi i uzeti u obzir samo prvi.

Važeća direktiva hosta mora imati sljedeće podatke:
— navedite protokol povezivanja (HTTP ili HTTPS);
— ispravno napisano ime domena (ne možete unijeti IP adresu);
— broj porta, ako je potrebno (na primjer, Host: site.com:8080).

Pogrešno napravljene direktive će jednostavno biti zanemarene.

Direktiva odgode puzanja

Direktiva odgode puzanja omogućava vam da smanjite opterećenje servera. Potreban je u slučaju da vaša stranica počne padati pod naletom raznih botova. Direktiva o kašnjenju indeksiranja govori botu za pretragu vrijeme čekanja između kraja preuzimanja jedne stranice i početka preuzimanja druge stranice na web mjestu. Direktiva mora doći odmah nakon unosa direktive "Disallow" i/ili "Allow". Yandex robot za pretraživanje može čitati razlomke vrijednosti. Na primjer: 1,5 (jedna i po sekunda).

Clean-param direktiva

Clean-param direktiva potrebno za web stranice čije stranice sadrže dinamičke parametre. Govorimo o onima koji ne utiču na sadržaj stranica. Ovo su različite informacije o uslugama: identifikatori sesije, korisnici, preporuke itd. Dakle, kako ne bi bilo duplikata ovih stranica, koristi se ova direktiva. Ona će reći PS-u da ne uploaduje ponovo informacije za dobivanje. Opterećenje servera i vrijeme potrebno robotu da pretražuje stranicu također će se smanjiti.

Clean-param: s /forum/showthread.php

Ovaj unos govori PS-u da će se s parametar smatrati beznačajnim za sve URL-ove koji počinju sa /forum/showthread.php. Maksimalna dužina unosa je 500 karaktera.

Sredili smo direktive, idemo dalje na postavljanje našeg robota fajla.

Postavljanje robots.txt

Nastavimo direktno sa postavljanjem datoteke robots.txt. Mora sadržavati najmanje dva unosa:

Korisnički agent:— označava za koji pretraživač će biti dolenavedena uputstva.
Zabraniti:— određuje koji dio stranice ne treba indeksirati. Može blokirati indeksiranje i jedne stranice web-mjesta i čitavih odjeljaka.

Štaviše, možete naznačiti da su ove direktive namijenjene svim tražilicama, ili jednom posebno. Ovo je naznačeno u direktivi User-agent. Ako želite da svi botovi pročitaju upute, stavite zvjezdicu

Ako želite napisati upute za određenog robota, morate navesti njegovo ime.

Korisnički agent: YandexBot

Pojednostavljeni primjer ispravno sastavljene datoteke robota bi bio ovako:

Korisnički agent: *
Disallow: /files.php
Disallow: /section/
Domaćin: web stranica

gdje, * označava da su uputstva namijenjena svim PS;
Disallow: /files.php– zabranjuje indeksiranje datoteke file.php;
Disallow: /foto/— zabranjuje indeksiranje cijelog odjeljka „foto“ sa svim priloženim datotekama;
Domaćin: web stranica— govori robotima koje ogledalo da indeksiraju.

Ako na svojoj web stranici nemate stranice koje treba zatvoriti iz indeksiranja, onda bi vaš robots.txt fajl trebao biti ovakav:

Korisnički agent: *
Zabraniti:
Domaćin: web stranica

Robots.txt za Yandex (Yandex)

Da biste naznačili da su ove upute namijenjene Yandex tražilici, morate navesti u korisničkom agentu: Yandex direktivu. Štaviše, ako unesemo "Yandex", tada će svi Yandex roboti indeksirati stranicu, a ako navedemo "YandexBot", onda će to biti naredba samo za glavnog robota za indeksiranje.

Također je potrebno navesti direktivu “Host” gdje treba naznačiti glavno ogledalo stranice. Kao što sam gore napisao, ovo se radi kako bi se spriječilo dupliranje stranica. Vaš ispravan robots.txt za Yandex će biti ovakav:

Korisnički agent: Yandex
Disallow: /cgi-bin
Disallow: /adminka
Domaćin: web stranica

I dalje često čujemo pitanja o tome šta je bolje naznačiti u direktivi o hostu, sajt sa ili bez www. Ali nema razlike. Jednostavno volite da stranica izgleda u PS rezultatima. Glavna stvar je da to uopće ne zaboravite naznačiti kako ne biste stvorili duplikate.

Robots.txt za Google

Google pretraživač podržava sve uobičajene formate datoteka robots.txt. Istina, ne uzima u obzir Host direktivu. Stoga zapravo neće biti nikakvih razlika u odnosu na Yandex. Robots.txt za Google će izgledati ovako:

Korisnički agent: Googlebot
Disallow: /cgi-bin
Disallow: /adminka
Mapa sajta: http://site/sitemaps.xml

Nadam se da su podaci koje sam predstavio dovoljni da kreirate kvalitetan, i što je najvažnije, ispravan fajl. robots.txt. Ako koristite neki od popularnih CMS-ova, onda sam u sljedećem članku za vas pripremio izbor robota - robots.txt za popularne CMS-ove 1 ocjena, prosjek: 5,00 od 5)

/ Pregledi: 21952

Zdravo dragi prijatelji! Provjera robots.txt je jednako važna kao i ispravan nacrt.

Provjera datoteke robots.txt na panelu Yandex i Google Webmasters.

Provjera robots.txt, zašto je važno provjeriti?

Prije ili kasnije, svaki autor web stranice koji poštuje sebe sjeti se datoteke robota. Na internetu je dosta toga napisano o ovoj datoteci, koja se nalazi u korijenu stranice. Gotovo svaki webmaster ima web stranicu o njenoj relevantnosti i ispravnosti. U ovom članku podsjetit ću blogere početnike kako to provjeriti pomoću alata na panelu webmastera koji pružaju Yandex i Google.

Prvo, malo o njemu. Datoteku Robots.txt (ponekad pogrešno nazvanu robot.txt, u jednini, imajte na umu da je englesko slovo s na kraju obavezno) kreiraju webmasteri kako bi označili ili zabranili određene datoteke i mape web stranice za pretraživače (kao i druge vrste robota). To jest, one datoteke kojima robot pretraživača ne bi trebao imati pristup.

Provjera robots.txt je obavezan atribut za autora web stranice prilikom kreiranja bloga na WordPress-u i njegove dalje promocije. Mnogi webmasteri također obavezno pregledaju stranice projekta. Analiza govori robotima ispravnu sintaksu kako bi se osiguralo da je u važećem formatu. Činjenica je da postoji utvrđeni standard za iznimke robota. Bilo bi dobro saznati mišljenje samih pretraživača, pročitati dokumentaciju u kojoj pretraživači detaljno opisuju svoje viđenje ovog fajla.

Sve ovo neće biti suvišno kako biste dodatno zaštitili svoju stranicu od grešaka prilikom indeksiranja. Znam primjere gdje je zbog neispravno kompajlirane datoteke dat signal da se zabrani njegova vidljivost na mreži. Ako nastavite da ga ispravljate, možete dugo čekati da se situacija oko stranice promijeni.

U ovom članku se neću zadržavati na ispravnoj kompilaciji samog fajla. Na internetu postoji mnogo primjera; možete otići na blog bilo kojeg popularnog blogera i dodati /robots.txt na kraj njegove domene radi provjere. Pregledač će pokazati svoju verziju koju možete koristiti kao osnovu. Međutim, svako ima svoje izuzetke, tako da morate provjeriti usklađenost posebno za svoju web lokaciju. Također, opis i primjer ispravnog teksta za WordPress blog možete pronaći na:

Mapa sajta: http://yoursite/sitemap.xml

Korisnički agent: Googlebot-Image

# Google AdSense

Korisnički agent: Mediapartners-Google*

Korisnički agent: duggmirror

Disallow: /cgi-bin/

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/cache/

Disallow: /wp-content/themes/

Disallow: /trackback/

Disallow: /feed/

Disallow: /komentari/

Disallow: /kategorija/*/*

Disallow: */trackback/

Disallow: */feed/

Zabraniti: */comments/

Dozvoli: /wp-content/uploads/

Postoje neke razlike u kompilaciji i daljoj verifikaciji datoteke robots.txt za glavne Runet pretraživače. U nastavku ću dati primjere kako provjeriti na Yandex Webmaster i Google panelima.

Nakon što ste sastavili datoteku i prenijeli je u korijen vaše web stranice putem FTP-a, morate provjeriti usklađenost, na primjer, s tražilicom Yandex. Tako ćemo znati da li smo slučajno zatvorili one stranice koje bi dovele posjetitelje do vas.

Provjera robots.txt na panelu Yandex Webmaster

Morate imati račun na Yandex webmaster panelu. Odlaskom na alate i navođenjem vaše stranice, s desne strane će se pojaviti lista dostupnih opcija. Idite na karticu "Provjeri robots.txt".

Odredite svoju domenu i kliknite na "Učitaj robots.txt sa stranice." Ako ste sastavili datoteku koja sadrži informacije zasebno za svaku tražilicu, tada morate odabrati linije za Yandex i kopirati ih u polje ispod. Da vas podsjetim da je direktiva Host: relevantna za Yand., pa ne zaboravite da je unesete u polje za verifikaciju. Sve što ostaje je provjeriti robots.txt. Dugme sa desne strane.

Bukvalno odmah ćete vidjeti analizu od Yandexa za usklađenost s vašim robots.txt. Ispod su linije koje Yand. prihvaćeno na razmatranje. I pogledajte rezultate testa. Direktive su naznačene na lijevoj strani URL-a. Na desnoj suprotnosti je sam rezultat. Kao što možete vidjeti na snimku ekrana, bilo bi ispravno vidjeti natpis u crvenoj boji - zabranjeno pravilom i samo pravilo je naznačeno. Ako ste naveli direktivu za indeksiranje, vidjet ćemo je zelenom - dozvoljeno.

Nakon što provjerite robots.txt, možete ispraviti svoj fajl. Također preporučujem da provjerite stranice stranice. Zalijepite url adresu zasebnog unosa u polje /Lista URL-ova/. I na izlazu dobijamo rezultat - dozvoljeno. Na ovaj način možemo posebno provjeriti zabrane arhiva, kategorija itd.

Ne zaboravite se pretplatiti; u sljedećem članku planiram vam pokazati kako se besplatno registrirati za Mail.ru katalog. Ne propustite, .

Kako provjeriti u Yandex Webmasterima.

Provjerite robots.txt na panelu Google Webmasters

Prijavite se na svoj račun i potražite na lijevoj strani /Status/ – /Blokirani URL-ovi/

Ovdje ćemo vidjeti njegovu prisutnost i mogućnost uređivanja. Ako trebate provjeriti usklađenost cijele stranice, navedite adresu glavne stranice u polju ispod. Moguće je provjeriti kako različiti Google roboti vide vašu stranicu provjerom datoteke robots.txt

Pored glavnog Google bota, biramo i robota specijaliziranog za različite vrste sadržaja (2). Snimak ekrana ispod.

  1. Googlebot
  2. Googlebot-Image
  3. Googlebot-Mobile
  4. Mediapartners-Google – AdSense metrika
  5. AdsBot-Google – provjera kvaliteta odredišne ​​stranice.

Nisam pronašao indikatore za druge Google robote:

  • Googlebot Video
  • Googlebot-Novosti

Po analogiji s provjerom datoteke robots.txt na Yandex panelu, ovdje je također moguće analizirati zasebnu stranicu web-mjesta. Nakon provjere, vidjet ćete rezultat zasebno za svaki bot za pretraživanje.

Pod uslovom da niste zadovoljni rezultatima provjere, možete nastaviti s uređivanjem. I dalje verifikacije.

Robots.txt analiza na mreži

Pored ovih opcija, možete analizirati i datoteku robots.txt koristeći online usluge. One koje sam pronašao bile su uglavnom na engleskom. Svidjela mi se ova usluga. Nakon analize daće se preporuke za njenu korekciju.

tool.motoricerca.info/robots-checker.phtml

To je sve. Nadam se da vas provjera datoteke robots.txt očima Yandexa i Googlea nije uznemirila? Ako vidite da ne odgovara vašim željama, uvijek ga možete urediti i potom ponovo analizirati. Hvala na tvitu na Twitteru i lajku na Facebooku!

Datoteka robots.txt jedna je od najvažnijih prilikom optimizacije bilo koje web stranice. Njegov nedostatak može dovesti do velikog opterećenja stranice od robota za pretraživanje i sporog indeksiranja i ponovnog indeksiranja, a pogrešne postavke mogu dovesti do potpunog nestanka stranice iz pretraživanja ili jednostavnog neindeksiranja. Shodno tome, neće se pretraživati ​​u Yandexu, Google-u i drugim pretraživačima. Pogledajmo sve nijanse pravilnog postavljanja robots.txt.

Prvo, kratak video koji će vam dati opću predstavu o tome što je datoteka robots.txt.

Kako robots.txt utiče na indeksiranje stranice?

Roboti za pretraživanje će indeksirati vašu web lokaciju bez obzira na prisustvo datoteke robots.txt. Ako takva datoteka postoji, onda se roboti mogu voditi pravilima koja su zapisana u ovoj datoteci. U isto vrijeme, neki roboti mogu zanemariti određena pravila, ili neka pravila mogu biti specifična samo za neke botove. Konkretno, GoogleBot ne koristi direktive Host i Crawl-Delay, YandexNews je nedavno počeo ignorirati Crawl-Delay direktivu, a YandexDirect i YandexVideoParser zanemaruju općenitije direktive u robotima (ali se rukovode onima specificiranim posebno za njih).

Više o izuzecima:
Yandex izuzeci
Standard iznimke za robote (Vikipedija)

Maksimalno opterećenje na stranici stvaraju roboti koji preuzimaju sadržaj s vaše stranice. Stoga, naznačavanjem šta tačno indeksirati, a šta zanemariti, kao i u kojim vremenskim intervalima preuzimati, možete, s jedne strane, značajno smanjiti opterećenje na sajtu od robota, as druge strane ubrzati proces preuzimanja zabranom indeksiranja nepotrebnih stranica.

Takve nepotrebne stranice uključuju ajax, json skripte odgovorne za pop-up forme, banere, captcha izlaz itd., obrasce za narudžbu i košaricu sa svim koracima kupovine, funkcionalnost pretraživanja, lični nalog, admin panel.

Za većinu robota, također je preporučljivo onemogućiti indeksiranje svih JS i CSS-a. Ali za GoogleBot i Yandex, takve datoteke se moraju ostaviti za indeksiranje, jer ih pretraživači koriste za analizu pogodnosti stranice i njenog rangiranja (Google proof, Yandex proof).

Robots.txt direktive

Direktive su pravila za robote. Postoji W3C specifikacija od 30. januara 1994. i prošireni standard iz 1996. godine. Međutim, ne podržavaju sve tražilice i roboti određene direktive. U tom smislu, biće nam korisnije da znamo ne standard, već kako se glavni roboti rukovode određenim direktivama.

Pogledajmo ih redom.

Korisnički agent

Ovo je najvažnija direktiva koja određuje za koje robote pravila slijede.

Za sve robote:
Korisnički agent: *

Za određenog bota:
Korisnički agent: GoogleBot

Imajte na umu da robots.txt ne razlikuje velika i mala slova. One. Korisnički agent za Google može se jednostavno napisati na sljedeći način:
korisnički agent: googlebot

Ispod je tabela glavnih korisničkih agenata raznih pretraživača.

Bot Funkcija
Google
Googlebot Googleov glavni robot za indeksiranje
Googlebot-Novosti Google vijesti
Googlebot-Image Google slike
Googlebot-Video video
Mediapartners-Google
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google provjera kvaliteta odredišne ​​stranice
AdsBot-Google-Mobile-Apps Googlebot za aplikacije
Yandex
YandexBot Yandexov glavni robot za indeksiranje
YandexImages Yandex.Pictures
YandexVideo Yandex.Video
YandexMedia multimedijalni podaci
YandexBlogs robot za pretraživanje blogova
YandexAddurl robot koji pristupa stranici kada je dodaje putem obrasca „Dodaj URL“.
YandexFavicons robot koji indeksira ikone web stranice (favicons)
YandexDirect Yandex.Direct
Yandexmetric Yandex.Metrica
YandexCatalog Yandex.Catalog
YandexNews Yandex.News
YandexImageResizer mobilni servisni robot
Bing
Bingbot Bingov glavni robot za indeksiranje
Yahoo!
Slurp glavni robot za indeksiranje Yahoo!
Mail.Ru
Mail.Ru glavni robot za indeksiranje Mail.Ru
Rambler
StackRambler Rambler je bio glavni robot za indeksiranje. Međutim, od 23. juna 2011. Rambler prestaje da podržava sopstveni pretraživač i sada koristi Yandex tehnologiju na svojim uslugama. Više nije relevantno.

Disallow i Allow

Disallow blokira indeksiranje stranica i dijelova stranice.
Dozvoli prisiljavanje stranica i odjeljaka web mjesta da budu indeksirani.

Ali to nije tako jednostavno.

Prvo, morate znati dodatne operatore i razumjeti kako se koriste - to su *, $ i #.

* je bilo koji broj znakova, uključujući njihovo odsustvo. U ovom slučaju, ne morate staviti zvjezdicu na kraj reda; pretpostavlja se da je tamo po defaultu.
$ - označava da znak prije njega treba biti posljednji.
# je komentar; robot ne uzima u obzir sve iza ovog znaka u retku.

Primjeri korištenja:

Disallow: *?s=
Disallow: /category/$

Drugo, morate razumjeti kako se izvršavaju ugniježđena pravila.
Zapamtite da redosled kojim su direktive napisane nije važan. Nasljeđivanje pravila šta otvoriti ili zatvoriti iz indeksiranja je određeno prema tome koji su direktoriji specificirani. Pogledajmo to na primjeru.

Dozvoli: *.css
Disallow: /template/

http://site.ru/template/ - zatvoreno od indeksiranja
http://site.ru/template/style.css - zatvoreno od indeksiranja
http://site.ru/style.css - otvoreno za indeksiranje
http://site.ru/theme/style.css - otvoreno za indeksiranje

Ako trebate da sve .css datoteke budu otvorene za indeksiranje, morat ćete to dodatno registrirati za svaki od zatvorenih foldera. u našem slučaju:

Dozvoli: *.css
Dozvoli: /template/*.css
Disallow: /template/

Opet, redosled direktiva nije važan.

Sitemap

Direktiva za određivanje putanje do datoteke XML Sitemap. URL se piše na isti način kao u adresnoj traci.

Na primjer,

Mapa sajta: http://site.ru/sitemap.xml

Sitemap direktiva je specificirana bilo gdje u datoteci robots.txt bez vezanja za određenog korisničkog agenta. Možete odrediti više pravila za Sitemap.

Domaćin

Direktiva za određivanje glavnog ogledala stranice (u većini slučajeva: sa www ili bez www). Imajte na umu da je glavno ogledalo navedeno BEZ http://, ali SA https://. Takođe, ako je potrebno, port je naznačen.
Direktivu podržavaju samo Yandex i Mail.Ru botovi. Drugi roboti, posebno GoogleBot, neće uzeti u obzir naredbu. Domaćin je registrovan samo jednom!

Primjer 1:
Domaćin: site.ru

Primjer 2:
Domaćin: https://site.ru

Puzanje-kašnjenje

Direktiva za postavljanje vremenskog intervala između robota koji preuzima web stranice. Podržavaju Yandex roboti, Mail.Ru, Bing, Yahoo. Vrijednost se može postaviti u cijelim ili razlomcima (razdjelnik je tačka), vrijeme u sekundama.

Primjer 1:
Kašnjenje puzanja: 3

Primjer 2:
Kašnjenje puzanja: 0,5

Ako stranica ima malo opterećenje, onda nema potrebe postavljati takvo pravilo. Međutim, ako indeksiranje stranica od strane robota dovede do toga da stranica prekorači ograničenja ili doživi značajno opterećenje do tačke prekida rada servera, onda će ova direktiva pomoći u smanjenju opterećenja.

Što je veća vrijednost, robot će preuzeti manje stranica u jednoj sesiji. Optimalna vrijednost se određuje pojedinačno za svaku lokaciju. Bolje je početi s ne baš velikim vrijednostima - 0,1, 0,2, 0,5 - i postepeno ih povećavati. Za robote pretraživača koji su manje važni za rezultate promocije, kao što su Mail.Ru, Bing i Yahoo, u početku možete postaviti veće vrijednosti nego za Yandex robote.

Clean-param

Ovo pravilo govori indeksiranju da URL-ovi sa navedenim parametrima ne bi trebali biti indeksirani. Pravilo specificira dva argumenta: parametar i URL odjeljka. Direktivu podržava Yandex.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Druge opcije

U proširenoj specifikaciji robots.txt također možete pronaći parametre Request-rate i Visit-time. Međutim, oni trenutno nisu podržani od strane velikih pretraživača.

Značenje direktiva:
Stopa zahtjeva: 1/5 — učitajte ne više od jedne stranice u pet sekundi
Vrijeme posjete: 0600-0845 - učitavanje stranica samo između 6:00 i 8:45 GMT.

Zatvaranje robots.txt

Ako trebate konfigurirati svoju web stranicu da NE bude indeksirana od strane robota za pretraživanje, tada morate navesti sljedeće direktive:

Korisnički agent: *
Disallow: /

Uvjerite se da su ove direktive napisane na probnim stranicama vaše stranice.

Ispravna postavka robots.txt

Za Rusiju i zemlje ZND, gdje je udio Yandexa značajan, treba propisati direktive za sve robote i posebno za Yandex i Google.

Da biste pravilno konfigurirali robots.txt, koristite sljedeći algoritam:

  1. Zatvorite administrativni panel stranice od indeksiranja
  2. Zatvorite svoj lični nalog, autorizaciju i registraciju iz indeksiranja
  3. Blokirajte svoju korpu za kupovinu, obrasce za narudžbu, podatke o isporuci i narudžbi iz indeksiranja
  4. Zatvorite ajax i json skripte iz indeksiranja
  5. Zatvorite folder cgi iz indeksiranja
  6. Blokiraj dodatke, teme, js, css od indeksiranja za sve robote osim Yandexa i Googlea
  7. Onemogućite funkciju pretraživanja iz indeksiranja
  8. Zatvori od odjeljaka usluge indeksiranja koji ne daju nikakvu vrijednost za web lokaciju u pretrazi (greška 404, lista autora)
  9. Blokirajte indeksiranje tehničkih duplikata stranica, kao i stranica na kojima je sav sadržaj u ovom ili onom obliku dupliran sa drugih stranica (kalendari, arhive, RSS)
  10. Blokirajte stranice sa filterom, sortiranjem, parametrima poređenja iz indeksiranja
  11. Blokirajte indeksiranje stranica s UTM oznakama i parametrima sesije
  12. Provjerite šta indeksiraju Yandex i Google pomoću parametra “site:” (upišite “site:site.ru” u traku za pretraživanje). Ako pretraga sadrži stranice koje također treba zatvoriti iz indeksiranja, dodajte ih u robots.txt
  13. Odredite Sitemap i Host
  14. Ako je potrebno, unesite Crawl-Delay i Clean-Param
  15. Provjerite ispravnost robots.txt koristeći Google i Yandex alate (opisano u nastavku)
  16. Nakon 2 sedmice provjerite ponovo da li su se u rezultatima pretraživanja pojavile nove stranice koje ne bi trebale biti indeksirane. Ako je potrebno, ponovite gore navedene korake.

Primjer robots.txt

# Primjer datoteke robots.txt za postavljanje hipotetičke stranice https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Disallow : *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow : */?s = Disallow: *sort= Disallow: *view= Disallow: *utm= Dozvoli: /plugins/*.css Dozvoli: /plugins/*.js Dozvoli: /plugins/*.png Dozvoli: /plugins/ *.jpg Dozvoli: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Dozvoli: /plugins/*.css Dozvoli: /plugins/*.js Dozvoli: /plugins/*.png Dozvoli: /plugins/*.jpg Dozvoli: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl- Kašnjenje: 0,5 Mapa sajta: https://site.ru/sitemap.xml Host: https://site.ru

Kako dodati i gdje se nalazi robots.txt

Nakon što ste kreirali datoteku robots.txt, ona mora biti postavljena na vašu web stranicu na site.ru/robots.txt - tj. u korijenskom direktoriju. Robot za pretraživanje uvijek pristupa datoteci na URL-u /robots.txt

Kako provjeriti robots.txt

Robots.txt se provjerava pomoću sljedećih veza:

  • U Yandex.Webmasteru - na kartici Alati>Robots.txt Analiza
  • IN Google Search Console- na kartici Skeniranje>Alat za pregled datoteke Robots.txt

Tipične greške u robots.txt

Na kraju članka dat ću nekoliko tipičnih grešaka u datoteci robots.txt

  • robots.txt nedostaje
  • u robots.txt stranica je zatvorena od indeksiranja (Disallow: /)
  • fajl sadrži samo najosnovnije direktive, ne postoji detaljna razrada fajla
  • u datoteci, stranice sa UTM oznakama i identifikatorima sesije nisu blokirane za indeksiranje
  • fajl sadrži samo direktive
    Dozvoli: *.css
    Dozvoli: *.js
    Dozvoli: *.png
    Dozvoli: *.jpg
    Dozvoli: *.gif
    dok su css, js, png, jpg, gif datoteke zatvorene drugim direktivama u nizu direktorija
  • Host direktiva je specificirana nekoliko puta
  • HTTP protokol nije naveden u Host
  • putanja do Sitemap-a je netačna ili je naveden pogrešan protokol ili ogledalo stranice

P.S.

P.S.2

Korisni video s Yandexa (Pažnja! Neke preporuke su prikladne samo za Yandex).

Najbolji članci na ovu temu