Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Programi
  • Tačan fajl je robots. Smjernice za konfiguraciju txt datoteke robota

Tačan fajl je robots. Smjernice za konfiguraciju txt datoteke robota

Zdravo, danas ćemo razgovarati o tome kako napraviti ispravan txt robota i zašto vam je uopće potreban.

sadržaj:


Šta je robots txt

U jednom od naših prethodnih članaka govorili smo i o tome kako rade roboti za pretragu. Robots txt datoteka daje popisivačima upute o tome kako pravilno indeksirati vašu web lokaciju. Koristeći direktive, možete, na primjer, reći robotu koje stranice ili direktorije treba indeksirati, a koje ne, formirati grupu ogledala za vašu web-lokaciju (ako ih imate), odrediti putanju do datoteke mape web-lokacije i tako dalje . U osnovi, koristi se upravo za zabranu indeksiranja određenih stranica na stranici.

Kako napraviti ispravan txt robota

U bilo kojem uređivaču teksta kreirajte datoteku koja se zove robots txt. Zatim, koristeći dolje opisane direktive, usmjerite robota na stranice stranice koje je potrebno dodati ili, naprotiv, ukloniti iz rezultata pretraživanja. Nakon što kreirate datoteku, provjerite ima li grešaka koristeći Yandex webmaster ili Google Search Console.

Postavite gotovu datoteku u korijenski direktorij vaše stranice (gdje se nalazi datoteka index.html).


Direktiva korisnik-agent

Ovo je neka vrsta pozdrava za robote za pretraživanje.

Red "User-agent: *" će reći da svi pretraživači mogu koristiti upute sadržane u ovoj datoteci. I, na primjer, niz "Korisnički agent: Yandex" će dati upute samo za Yandex robota za pretraživanje. Primjeri upotrebe su prikazani u nastavku. Također, pretraživači imaju robote pomoćnike za različite kategorije. Na primjer, YandexNews i Googlebot-News su roboti za vijesti.


Dozvoli i Disallow direktive

Koristeći direktivu Disallow, određujete koje stranice ili direktorije web-mjesta su zabranjeni za indeksiranje. A uz pomoć direktive Allow, odnosno, možete.

primjeri:
Korisnički agent: *
Disallow: /
Dozvoli: / katalog /

Takav unos će obavijestiti sve robote za pretraživanje da sa cijele stranice mogu samo indeksirati kataloški direktorij.

Usput, simbol # se koristi za opisivanje komentara. Sve nakon ovog znaka i do kraja reda se zanemaruje.

Evo primjera robots txt sa pojedinačnim uputama za različite pretraživače:

# omogućava robotu da indeksira cijelu stranicu, osim dijela sa biciklima
Korisnički agent: *
Disallow: / bicikli /

# zabranjuje robotu da indeksira stranicu, osim odjeljka s čamcima
Korisnički agent: Googlebot
Dozvoli: / čamci /
Disallow: /

# će spriječiti sve druge pretraživače da indeksiraju stranicu
Korisnički agent: *
Disallow: /

Bilješka da ne može biti praznih linija između direktiva User-agent, Allow i Disallow!


Specijalni znakovi * i $

Direktive dozvole i Disallow mogu koristiti specijalne znakove * i $ za specificiranje regularnih izraza. * -odabire navedeni niz

Na primjer: # Sprečava robote da indeksiraju sve stranice čiji URL sadrži privatne
Korisnički agent: *
Disallow: / * privatno

Prema zadanim postavkama, poseban znak * mora biti dodat na kraju svakog pravila. A da otkažete * na kraju pravila, koristite simbol $.

Na primjer: # ne dozvoljava "/ lock"
# ali ne onemogućava "/lock.html"
Korisnički agent: *
Disallow: / zaključati $
# onemogućava i "/ lock"
# i "/lock.html"
Korisnički agent: *
Disallow: / zaključati

Specijalni znak $ ne zabranjuje navedeno * na kraju, to jest:

Korisnički agent: *
Disallow: / zaključati $# zabranjuje samo "/ lock"
Disallow: / zaključavanje * $# isto kao "Disallow: / lock"
# onemogućava i /lock.html i / lock


Sitemap direktiva

Ako koristite Sitemap Sitemap, tada koristite Sitemap direktivu i navedite putanju do jedne (ili nekoliko datoteka) u njoj.

Korisnički agent: *
mapa stranice: https: //site.com/sitemap.xml


Direktiva o hostu

Ako vaša stranica ima ogledala, onda će pomoću ove direktive poseban robot formirati grupu ogledala za vašu web lokaciju, a samo glavni ogledalo će biti dodat u pretragu. Ova direktiva ne garantuje izbor navedene lokacije u njoj kao glavnog ogledala, ali joj daje visok prioritet prilikom donošenja odluke.

primjer:

# navedite glavno ogledalo stranice

Korisnički agent: Yandex
Disallow: / mg-admin
Domaćin: https://www.zerkalo.ru

Bilješka... Ova direktiva se koristi ekskluzivno za Yandex! + Samo jedna Host direktiva se obrađuje za svaku datoteku robots.txt. Ako je u datoteci navedeno nekoliko direktiva, robot koristi prvu.

Host direktiva mora sadržavati:

  1. HTTPS protokol, ako je ogledalo dostupno samo preko sigurnog kanala. Ako koristite HTTP protokol, on nije obavezan.
  2. Jedno važeće ime domene usklađeno sa RFC 952 koje nije IP adresa.
  3. Broj porta, ako je potrebno (Host: myhost.ru:8080).


Mogu li koristiti ćirilicu u robotima txt?

Ne, ne možete koristiti ćirilično pismo. Da biste odredili nazive domena ćirilicom, koristite, na primjer, ovu uslugu.


Postavljanje robota txt MogutaCMS

U MogutaCMS, ne morate popunjavati robots.txt, jer puni se automatski kada se motor ugradi.

Sada znate kako postaviti ispravan txt robota, a znate i kako koristiti razne direktive za kontrolu indeksiranja vaše stranice, a ako imate bilo kakva pitanja, spremni smo odgovoriti na njih u posebnoj diskusiji na VK ili u komentari ispod. Do sljedećeg puta!

Ako čitate ovaj članak, imate problem s pisanjem ispravnog robots.txt. Možda ste upoznati s osnovama, vidjeli ste nekoliko ovih uputstava za tražilice, znate princip kompilacije ili čak imate veliko iskustvo u kompajliranju ove datoteke. Svima će biti korisno i zanimljivo pročitati članak. Danas ćemo se osvrnuti na pravila, greške i "dobre manire" sastavljanja ispravnih robota, kao i ispravljanja pri korištenju popularnog CMS-a. Ne radi se o osnovama. Svi bi trebali znati sva osnovna pravila za kreiranje i podešavanje robota. A ako ih ne poznajete, onda imate direktan put prvo do pomoći Yandexa, gdje možete detaljno pročitati kako kreirati robots.txt.

Također, ako tražite kako postaviti robots.txt datoteku za prelazak sa HTTP-a na HTTPS, onda bi trebali otići ovdje - Postavljanje SSL certifikata

Pa idemo!

Roboti se mogu podijeliti u dvije grupe: "pauci" i "djetlići".

Pauci prate linkove stranice, duž njene strukture, prikupljajući sve dublje i dublje sve podatke o sadržaju stranice. Detlići, s druge strane, tapkaju stranice sajta, proveravaju da li ove stranice rade, da li ih korisnici mogu videti i da li stranica daje grešku 404. Ovaj članak će se fokusirati na robota pauka koji prati interne veze i prati pravila i zabrane navedene u datoteci robots.txt.

U nastavku ću opisati uobičajene greške u postavkama robots.txt koje sam i sam vidio i reći vam kako ih možete izbjeći.

Greške u kompilaciji robots.txt za stranicu, koju smo sreli

Zbunjena uputstva

Imao sam čast da iz sopstvenog iskustva vidim mnoge fajlove robota, ali bilo je i onih apsolutno fantastičnih i nemogućih. Na primjer:

Korisnički agent: /
Disallow: Yandex

Nadam se da svi znaju da je ispravno pisati ovako:

Korisnički agent: Yandex
Disallow: /

Određivanje nekoliko pravila u jednoj instrukciji

Takođe sam imao sreću da vidim ovu sramotu u svom životu:

Disallow: / wp-admin / / wp-includes / / wp-feed /

U ovom slučaju nije jasno kako će se ponašati ovaj ili onaj robot pretraživača. Neko može zajedno shvatiti ovo pravilo - Disallow: / wp-admin / wp-includes / wp-feed /, drugi može uzeti prvo pravilo (/ wp-admin /) ili posljednje (/ wp-feed /), a neki će uopšte ne prihvata datu liniju. Stoga ne riskiramo i pišemo pravila red po red, u posebnim uputstvima:

Disallow: / wp-admin /
Disallow: / wp-includes /
Disallow: / wp-feed /

Greške u nazivu datoteke

Bilo je i prilično egzotičnih slučajeva u mom životu. Htio sam pogledati robote stranice, ušao u red http://sayt.ru/robots.txt, i figu kao odgovor meni! "Vjerovatno nema fajla" - pomislio sam. Ali kada sam ušao u strukturu stranice bio sam šokiran! Bilo je različitih pravopisa:

  • R obots.txt (velika slova);
  • robot.txt (bez s);
  • ROBOTS.TXT (! CAPSOM!).

Prirodno je ispravno napisati "robots.txt".

Prazna vrijednost u korisničkom agentu

Vrlo često na nedovršenim lokacijama nailazile su se na sljedeće konstrukcije:

Korisnički agent:
Disallow:

Za koga je? Nejasno. Iz ovoga je jedino jasno da ova poruka nije stigla ni do jednog robota. Ispravno unesite ime robota kojem su dodijeljene sljedeće upute:

Korisnički agent: Googlebot
Disallow:

Interakcija instrukcija Disallow i Allow

Vrlo često vidim pogrešan pravopis uputstava o dozvoli i zabrani:

Korisnički agent: Yandex
Disallow: / admin /
Disallow: / alati /
Dozvoli: / kartinki /

Prvo, odmah iza User-agenta treba da postoje pravila dozvoljavajući prolaz do robota, i nakon svih uputa Allow, Disallow se mora slijediti:

Korisnički agent: Yandex
Dozvoli: / kartinki /
Disallow: / admin /
Disallow: / alati /

Zahtjev za sastavljanje Host direktive

Neki kopiraju URL stranice i besramno ga, bez gledanja, zalijepe u Host direktivu zajedno sa http:

Ozbiljna greška! Ne morate specificirati HTTP protokol. Ali siguran HTTPS protokol u robots.txt je neophodan, jer pokazuje robotu kako pravilno pozicionirati resurs:

Također nije vrijedno gurati nekoliko Host direktiva u robota. I dalje će čitati i percipirati samo prvu. Dakle, postavljamo Host u Yandex odjeljak nakon svih pravila:

Korisnički agent: Yandex
Disallow: / admin /
Disallow: / alati /
Domaćin: stranica

Zapamtite: direktive u datoteci robots.txt koje su pogrešno napisane se zanemaruju! Na primjer:

  • Domaćin: www.-vashresurs.ru
  • Domaćin: www.yourresource-.ru
  • Domaćin: www.vashresurs.ru: 100000
  • Domaćin: www.your_resurs.ru
  • Host: .your-resource.ru: 8000
  • Domaćin: your..resurs.ru
  • Domaćin: your-resource.ru.
  • Host: 215.160.195.128
  • Domaćin: www.vashresurs.ru: 8080 /
  • Domaćin: www.pervyresurs.ru www.vtoroyresurs.ru
  • Domaćin: www.pervyresurs.ru, www.vtoroyresurs.ru

Dobra praksa za robots.txt

U ovom odjeljku ćemo pogledati stvaranje robots.txt datoteke u "lošem stilu". Svaki kod ili oznaka ima svoja neizgovorena ili pisana pravila koja se malo ljudi pridržava, a iz kojih mogu uslijediti strašne posljedice. U slučaju datoteke koja zabranjuje indeksiranje, može doći do nesporazuma između robota pretraživača i datoteke, ili novi (sljedeći) programer projekta možda neće razumjeti ili će mu trebati dugo vremena da shvati napisano. Stoga izbjegavamo sljedeće neugodne nesporazume.

Komentirajte u jednom redu s pravilima i uputama

Općenito, takav zapis je moguć, ali nije poželjan:

Disallow: / admin / # zabrani robotima da indeksiraju administratorski direktorij

Ranije neki sistemi nisu razumjeli takve nizove. Sada mislim da su se pretraživači prilagodili mnogim nevoljama na koje se webmasteri susreću, ali bolje je ne riskirati i napisati komentar u novom redu.

Preusmjeravanje stranice na grešku 404:

Postoje situacije kada razvijate novi projekat, programer zaboravi na datoteku robota i kada "pauk" pristupi stranici, a to će se sigurno dogoditi bez ove datoteke, resurs će je preusmjeriti na drugu stranicu. Dešava se da se takva vrsta preusmjeravanja dogodi bez vraćanja 404 Not Found. Da biste to izbjegli, savjetujem vam da stavite ispravnu datoteku robots.txt u korijen stranice. I također je preporučljivo ne biti lijen i napisati u njemu:

Korisnički agent: *
Disallow:

To je robot otvorenog koda. Ako trebate zatvoriti stranicu od indeksiranja u vrijeme razvoja ili trenutne situacije, onda naravno koristimo:

Korisnički agent: *
Disallow: /

Velika slova u uputstvima

KORISNIČKI AGENT: YANDEX
DISALOW: / ADMIN /

Nema komentara ovdje. Samo budi čovjek! Napiši ispravno:

Korisnički agent: Yandex
Disallow: / admin /

Navedite sve datoteke u jednom direktoriju

Ponekad, kada sam radio optimizaciju, sreo sam otprilike sljedeću konstrukciju:

Korisnički agent: Yandex
Disallow: / admin / backup /
Disallow: / admin / cache /
Disallow: / admin / komponente /
Disallow: / admin / moduli /
Disallow: / admin / themes /
Disallow: / admin / wizards /

I tako je prošli programer zatvorio sve administratorske fascikle. Iako je bilo dovoljno jednostavno napisati:

Korisnički agent: Yandex
Disallow: / admin /

Ako zaista trebate otvoriti neke direktorije unutar zatvorene mape, onda koristite ovu metodu:

Korisnički agent: Yandex
Dozvoli: / admin / css /
Dozvoli: / admin / slike /
Disallow: / admin /

Pisanje dodatnih direktiva u sekciji

Neko vrijeme u našoj kompaniji su postojali sporovi: gdje smjestiti Host direktivu? U kojem dijelu: u općem dijelu ili nakon svih pravila na kraju datoteke? Naši zaposleni su pohađali kvalifikovane kurseve u Unibrains, Top Expert itd., doneli različita znanja i vizije ove problematike. Čini se kao da niko nije znao kako da sastavi robots.txt i gdje da ispravnije napiše ovu direktivu. U stvari, neki roboti mogu pogrešno reagovati na upotrebu dodatnih direktiva, što znači da ih ne biste trebali pisati u odeljku * - (za sve). Napišite Host u odjeljku za Yandex robota:

Korisnički agent: Yandex
Disallow: / admin /
Domaćin: stranica
Korisnički agent: *
Disallow: / admin /

Nedostatak instrukcija Disallow

Ovo uputstvo je obavezno i ​​zbog njegovog odsustva robot vas može pogrešno shvatiti.

Korisnički agent: Yandex
Domaćin: stranica

Pišemo ispravno:

Korisnički agent: Yandex
Disallow: / wp-admin /
Domaćin: stranica

Odsustvo kosih crta prilikom navođenja direktorija

Proveo sam eksperiment kako bih pokazao da robot percipira odsustvo kosih crta u uputama kao grešku.

Ako želimo nešto da zatvorimo, napiši pravilo samo sa kosim crtama!

Korisnički agent: Yandex
Disallow: / blog /

Kako i gdje registrirati odjeljak Sitemap u robotima

Često sam se susreo sa netačnim tumačenjem linije Sitemap. Činjenica je da su stalno pokušavali da ga negdje prikače: ili da ga zapišu za svakog agenta, pa ne znam kako i gdje da ga smjeste, unosili su ga samo u jedan agent nakon svih uputstava za bota. Bilo bi ispravno registrirati Sitemap u robots.txt nakon svih agenata na kraju datoteke, odvajajući ovo pravilo praznim redom nakon posljednje instrukcije za posljednjeg robota:

Korisnički agent: * ...
Disallow: / poslednee-pravilo /
Mapa sajta: http://mysite.ru/sitemap.xml

Robots.txt funkcije koje mnogi ne koriste

U ovom dijelu ćemo pogledati čipove i dodatne naredbe za datoteku robots.txt, koje webmasteri, optimizatori i programeri malo koriste. Neću žvakati mogućnosti Crawl-delay, Clean-param i drugih direktiva i pravila koja su već u help.yandexu ovdje.

Interakcija redovnih stranica i stranica za Google AdWords

Ako želite da na nekim svojim stranicama prikazujete Googleove internetske reklame, ali ne želite da se te stranice nalaze u Google indeksu, trebate koristiti Mediapartners-Google agenta. Da bismo to učinili, blokiramo stranice za Google i otvaramo ih (ili cijelu stranicu) za oglašavanje:

Korisnički agent: Googlebot
Disallow: / admin /
Disallow: / traži /
Korisnički agent: Mediapartners-Google
Dozvoli: / reklamnaya-stranica /

Ali zapamtite da odjeljak Mediapartners-Google mora biti nakon svih agenata uključujući "*" - za sve. U suprotnom će se ispostaviti da prvo dozvolite botu da prođe kroz ove stranice, a onda to odbijete i na kraju neće učiniti ništa.

Interakcija redovnih stranica i stranica za Yandex Direct

Isto kao i sa Google AdWordsom. Zatvaramo nepotrebno i otvaramo potrebno za oglašavanje u YaDirectBot agentu:

Korisnički agent: *
Disallow: / admin /
Disallow: / traži /
Disallow: / reklamnaya-stranica /
Korisnički agent: YaDirectBot
Dozvoli: / reklamnaya-stranica /

Opet, ne zaboravite ovaj odjeljak staviti ispod svih ostalih! YaDirectBot i Mediapartners-Google možete postaviti zajedno na dno, ispred uputa za Sitemap.

Otvaranje slika za indeksiranje u Yandex slikama i Google slikama

Kako bi vaše slike na stranici bile uključene u baze podataka slika Yandexa i Googlea, registrujemo sljedeće agente:

Korisnički agent: Googlebot-Image
Dozvoli: / teme / slike /
Korisnički agent: YandexImages
Dozvoli: / teme / slike /

Ne zaboravite propisati ispravan alt atribut na slikama kako biste mogli pronaći svoje slike u pretrazi.

Zatvorite dio teksta iz indeksiranja

Za početak, želio bih da vam skrenem pažnju na činjenicu da ova metoda radi samo u Yandexu i Rambleru! Guglajte ovu oznaku do svjetla! Noindex je oznaka koja zatvara potreban dio sadržaja od indeksiranja od strane robota. Sličan je noindex meta oznaci, ali je namijenjen da se koristi samo u tekstu. Obično se zatvaraju od brojača indeksiranja.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus convallis viverra diam sed pretium. Nam ut orci ut arcu ornare pretium ut a diam. Nunc ac tempus augue. Morbi in molestie massa. In hac habitasse platea dictumst. In quis maximus libero. Ut varius dolor et justo hendrerit mollis. Vivamus at sempre mi, et hendrerit lacus. Pellentesque quis mollis felis. Etiam eu hendrerit libero.

Noindex oznaka nije važeća i daje grešku kada je provjeri validator.Da bi prošao test, maskiramo ga u komentar.... Ova metoda radi!

Dmitrij Semjonov

lockki.ru, nezavisni stručnjak

Na ovaj ili onaj način, robots.txt treba kompajlirati prema pravilima. Da bih ubrzao sastavljanje robots.txt-a, pripremio sam skup datoteka za 22 popularna CMS-a, koje je potrebno samo malo izmijeniti kako bi odgovarali vašoj web-lokaciji.

10 pravila za sastavljanje robots.txt datoteke od Dmitryja

  1. Datoteka bi se trebala zvati robots.txt i ništa više.
  2. Trebalo bi da leži u korijenu stranice, tj. vashsite.ru/robots.txt
  3. Zatvorite sve tehničke sekcije: dodatke, admin panel, itd.
  4. Pravila se pišu posebno za svakog robota, tj. postoji samo 1 robot u direktivi korisničkog agenta i nema nabrajanja.
  5. Ako želite dodijeliti pravila za sve robote, onda User-agent: *
  6. Host se piše samo jednom i samo za Yandex, ovo je User-agent: Yandex
  7. 1 direktiva = 1 vrijednost, tj. Disallow: / admin, a ne Disallow: / admin / management, itd. u jednom redu.
  8. Disallow blokira pristup, Dozvoli dozvoljava pristup.
  9. Ne blokirajte indeksiranje slika.
  10. Pokrijte duplicirane glavne stranice koje generira vaš CMS.

Vitalij Kravčenko

Voditelj agencije za promociju web stranica, iskusni optimizator i internet marketer, ljubitelj eksperimenata i eksperimenata

Na šta treba obratiti pažnju prilikom sastavljanja datoteke robots.txt

Po mom mišljenju, jedna od najčešćih grešaka je to što mnogi početnici optimizatori datoteku Robots.txt doživljavaju kao pravilo za robote za pretraživanje, ali u stvari je ova datoteka samo preporuka. Prije svega, naravno, morate imati jasno razumijevanje strukture - tada će biti mnogo lakše ispravno kreirati datoteku robots.txt. Pokazujući u nebo, možete i dobiti mnogo problema s indeksiranjem, i spasiti web stranicu od mogućnosti poboljšanja performansi u glavi pretraživača. Ako sajt više nije mlad i stabilno se nalazi u indeksu pretraživača - prilikom sastavljanja fajla, neophodno je analizirati indeksirane stranice. Ako ne, morate odrediti privatne i sistemske stranice i datoteke koje treba zatvoriti. I naravno, važno je provjeriti da li tražilica zaista percipira vaš fajl na ovaj način ili ne. Vrlo često ljudski faktor ili nedostatak potrebnih znanja ima veoma negativan uticaj na proces napredovanja. Ako nadgledate rad optimizatora početnika, uvijek trebate provjeriti šta je urađeno u ovoj datoteci prije nego što je objavite.

Iz svog iskustva mogu primijetiti određeni algoritam:

  1. Definiramo statičke funkcionalne stranice (admin panel, korpe za kupovinu, stranice za prijavu, stranicu podsjetnika lozinke, itd.) - formiramo listu.
  2. Definiramo dinamičke i tipične stranice za smeće (stranice za štampanje, stranice za poređenje, nepromovirani setovi filtera, itd.).
  3. Definiramo foldere sa datotekama i slikama koje ne treba indeksirati.
  4. Formiramo datoteku Robots.txt
Pravilnom pripremom ovog fajla dobijate dobro indeksiranje, ispravnu percepciju sajta od strane robota, ispravnu raspodelu težine i, naravno, dalji rad, pozicije i promet na stranicama koje su nam potrebne.

Većina robota je dobro dizajnirana i ne predstavlja nikakav problem za vlasnike sajtova. Ali ako je bot napisao amater ili "nešto je pošlo po zlu", onda može stvoriti značajno opterećenje na web mjestu koje zaobilazi. Inače, pauci uopšte ne ulaze na server kao virusi - oni jednostavno traže stranice koje su im potrebne na daljinu (u stvari, analogni su pretraživačima, ali bez funkcije pregledavanja stranica).

Robots.txt - direktiva korisničkog agenta i botovi pretraživača

Robots.tht ima potpuno nekomplikovanu sintaksu, koja je vrlo detaljno opisana, na primjer, u Yandex pomoć i Google pomoć... Obično specificira za koji bot za pretraživanje su dolje opisane direktive: ime bota (" Korisnički agent") dozvoljavajući (" Dopustiti") i zabranjujući (" Disallow"), a također se aktivno koristi "Sitemap" kako bi pretraživačima ukazalo gdje se tačno nalazi datoteka mape.

Standard je nastao davno i nešto je naknadno dodato. Postoje direktive i pravila dizajna koja će razumjeti samo roboti određenih pretraživača. U Runetu su interesantni samo Yandex i Google, što znači da bi se upravo uz njihovu pomoć za kompajliranje robots.txt trebali detaljno upoznati (linkove sam dao u prethodnom pasusu).

Na primjer, ranije je bilo korisno za Yandex tražilicu da naznači da je vaš web projekat glavni u posebnoj direktivi "Host", koju samo ova tražilica razumije (pa, i Mail.ru, jer imaju pretragu od Yandex). Istina, početkom 2018 Yandex je i dalje otkazao Host i sada njegovu funkciju, kao i druge pretraživače, obavlja 301 preusmjeravanje.

Čak i ako vaš resurs nema ogledala, bit će korisno naznačiti koja je od opcija pravopisa glavna -.

Hajde sada da pričamo malo o sintaksi ove datoteke. Robots.txt direktive izgledaju ovako:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Ispravan kod bi trebao sadržavati barem jednu "Disallow" direktivu nakon svakog unosa "User-agent". Prazan fajl pretpostavlja dozvolu za indeksiranje cijele stranice.

Korisnički agent

Direktiva korisnik-agent treba da sadrži naziv bota za pretragu. Koristeći ga, možete konfigurirati pravila ponašanja za svaki određeni pretraživač (na primjer, stvoriti zabranu indeksiranja određene mape samo za Yandex). Primjer pisanja "User-agent" upućenog svim botovima koji su ušli u vaš resurs izgleda ovako:

Korisnički agent: *

Ako želite postaviti određene uslove u "User-agent" samo za jednog bota, na primjer, Yandex, onda morate napisati ovo:

Korisnički agent: Yandex

Naziv robota pretraživača i njihova uloga u datoteci robots.txt

Svaki bot pretraživača ima svoje ime (na primjer, za rambler je StackRambler). Ovdje ću navesti one najpoznatije:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Glavni pretraživači ponekad, osim glavnih botova, postoje i zasebne kopije za indeksiranje blogova, vijesti, slika itd. Možete pronaći mnogo informacija o vrstama botova (za Yandex) i (za Google).

Kako biti u ovom slučaju? Ako treba da napišete pravilo za zabranu indeksiranja, kojeg moraju poštovati svi tipovi Google robota, onda koristite naziv Googlebot i svi ostali pauci ovog pretraživača će se također povinovati. Međutim, možete zabraniti samo indeksiranje slika navođenjem Googlebot-Image kao korisničkog agenta. Sada ovo nije baš jasno, ali sa primjerima, mislim da će biti lakše.

Primjeri korištenja direktiva Disallow i Allow u robots.tht

Ja ću dati nekoliko jednostavnih primjeri korištenja direktiva sa objašnjenjem njegovih postupaka.

  1. Kod u nastavku omogućava svim botovima (označenim zvjezdicom u korisničkom agentu) da indeksiraju sav sadržaj bez ikakvih izuzetaka. Dato je prazna direktiva Disallow... Korisnički agent: * Disallow:
  2. Sljedeći kod, naprotiv, u potpunosti zabranjuje svim pretraživačima da dodaju stranice ovog resursa u indeks. Postavlja ga na Disallow sa "/" u polju vrijednosti. Korisnički agent: * Disallow: /
  3. U ovom slučaju, svim botovima će biti zabranjeno da gledaju sadržaj direktorija / image / (http://mysite.ru/image/ je apsolutni put do ovog direktorija) User-agent: * Disallow: / image /
  4. Da biste blokirali jednu datoteku, dovoljno je registrirati njenu apsolutnu putanju do nje (čitati): User-agent: * Disallow: /katalog1//katalog2/private_file.html

    Krećući malo unaprijed, reći ću da je lakše koristiti simbol zvjezdice (*) kako ne biste pisali punu putanju:

    Disallow: /*private_file.html

  5. U primjeru ispod, direktorijum "image" će biti zabranjen, kao i svi fajlovi i direktoriji koji počinju znakovima "image", odnosno datoteke: "image.htm", "images.htm", direktoriji: "image ", " images1 "," image34 ", itd.): User-agent: * Disallow: / image Činjenica je da se po defaultu, na kraju zapisa, podrazumijeva zvjezdica, koja zamjenjuje sve znakove, uključujući i njihovo odsustvo . Pročitajte o tome u nastavku.
  6. Via Dozvoli direktive dozvoljavamo pristup. Dopunjuje Disallow dobro. Na primjer, pod takvim uvjetom, zabranjujemo Yandex pretraživaču da preuzima (indeksira) sve osim web stranica čija adresa počinje sa / cgi-bin: User-agent: Yandex Allow: / cgi-bin Disallow: /

    Pa, ili tako očigledan primjer korištenja kombinacije Allow i Disallow:

    Korisnički agent: * Disallow: / katalog Dozvoli: / katalog / auto

  7. Kada opisujete putanje za Allow-Disallow direktive, možete koristiti simbole "*" i "$", postavljajući tako određene logičke izraze.
    1. Simbol "*" (zvjezdica) znači bilo koji (uključujući prazan) niz znakova. Sljedeći primjer zabranjuje svim pretraživačima da indeksiraju datoteke sa ekstenzijom ".php": User-agent: * Disallow: * .php $
    2. Zašto je to potrebno na kraju Znak $ (dolar).? Činjenica je da se, prema logici datoteke robots.txt, na kraju svake direktive dodaje zadana zvjezdica (nije tu, ali izgleda da postoji). Na primjer, pišemo: Disallow: / slike

      Implicirajući da je ovo isto kao:

      Disallow: / slike *

      One. ovo pravilo zabranjuje indeksiranje svih fajlova (web stranica, slika i drugih tipova fajlova) čija adresa počinje sa / slike, a zatim sledi bilo šta (pogledajte primer iznad). dakle, simbol $ samo poništava tu zadanu (nepodijeljenu) zadnju zvjezdicu. Na primjer:

      Disallow: / slike $

      Zabranjuje samo indeksiranje datoteke /image, ne /images.html ili /images/primer.html. Pa, u prvom primjeru, zabranili smo indeksiranje samo datoteka koje završavaju na .php (sa takvom ekstenzijom), kako ne bismo uhvatili ništa suvišno:

      Disallow: * .php $

  • U mnogim mašinama, korisnici (ljudski čitljivi URL-ovi), dok URL-ovi koje generiše sistem imaju znak pitanja "?" na adresi. Možete koristiti ovo i napisati takvo pravilo u robots.txt: User-agent: * Disallow: / *?

    Zvjezdica iza upitnika sugerira se sama po sebi, ali, kako smo saznali malo više, već se podrazumijeva na kraju. Stoga ćemo zabraniti indeksiranje stranica za pretraživanje i drugih servisnih stranica koje kreira motor, a do kojih može doći robot za pretraživanje. Neće biti suvišno, jer znak pitanja CMS najčešće koristi kao identifikator sesije, što može dovesti do dupliranja stranica u indeksu.

  • Sitemap i Host direktive (za Yandex) u Robots.txt

    Kako bi se izbjegli neugodni problemi sa zrcalima web mjesta, ranije je preporučeno da se u robots.txt doda direktiva Host, koja je upućivala Yandex bot na glavno ogledalo.

    Direktiva hosta - određuje glavno ogledalo stranice za Yandex

    Na primjer, prije ako ste još nisu prešli na siguran protokol, nije bilo potrebno navesti puni URL u Host-u, već naziv domene (bez http: //, tj. ru). Ako ste se već prebacili na https, morat ćete navesti puni URL (kao https://myhost.ru).

    Odličan alat za rješavanje dupliciranog sadržaja - pretraživač jednostavno neće indeksirati stranicu ako je drugi URL registriran u Canonical-u. Na primjer, za takvu stranicu mog bloga (stranica sa paginacijom) Canonical ukazuje na https: // stranicu i ne bi trebalo biti problema s dupliranim naslovima.

    Ali bio sam ometen...

    Ako je vaš projekat zasnovan na bilo kom motoru, onda Doći će do umnožavanja sadržaja sa velikom vjerovatnoćom, što znači da se morate nositi s tim, uključujući i uz pomoć zabrane u robots.txt, a posebno u meta oznaci, jer u prvom slučaju Google može zanemariti zabranu, ali ne može briga me za meta oznaku (tako je dovedeno).

    Na primjer, u WordPressu, stranice s vrlo sličnim sadržajem mogu završiti u indeksu tražilice ako je omogućeno indeksiranje sadržaja kategorije, arhivskog sadržaja oznaka i sadržaja privremenog arhiva. Ali ako, koristeći gore opisanu meta oznaku Robots, kreirate zabranu za arhivu oznaka i privremenu arhivu (možete ostaviti oznake, ali onemogućiti indeksiranje sadržaja kategorija), tada neće biti dupliciranja sadržaja. Kako to učiniti opisano je na linku datom malo iznad (na dodatku OlInSeoPak)

    Da rezimiramo, reći ću da je datoteka Robots dizajnirana da postavi globalna pravila za zabranu pristupa cijelim direktorijima web mjesta, ili datotekama i mapama, čiji nazivi sadrže navedene znakove (po maski). Primjere postavljanja takvih zabrana možete vidjeti odmah iznad.

    Pogledajmo sada konkretne primjere robota dizajniranog za različite motore - Joomla, WordPress i SMF. Naravno, sve tri opcije kreirane za različite CMS će se značajno (ako ne i radikalno) razlikovati jedna od druge. Istina, svi će imati jednu zajedničku stvar, a ovaj trenutak je povezan s Yandex tražilicom.

    Jer u runetu Yandex ima prilično veliku težinu, tada morate uzeti u obzir sve nijanse njegovog rada, a ovdje smo Host direktiva će pomoći... To će eksplicitno usmjeriti ovu tražilicu na glavno ogledalo vaše stranice.

    Za nju se savjetuje korištenje zasebnog User-agent bloga, namijenjenog samo Yandexu (User-agent: Yandex). To je zbog činjenice da drugi pretraživači možda ne razumiju Host i, shodno tome, njegovo uključivanje u zapis User-agent namijenjen svim pretraživačima (User-agent: *) može dovesti do negativnih posljedica i pogrešnog indeksiranja.

    Teško je reći kakva je stvarna situacija, jer su algoritmi pretraživanja stvar za sebe, pa je bolje to učiniti prema savjetima. Ali u ovom slučaju, morat ćete duplicirati sva pravila koja postavljamo User-agent: * u User-agent: Yandex direktivi. Ako ostavite User-agent: Yandex s praznim Disallow:, tada ćete na ovaj način dopustiti Yandexu da ode bilo gdje i prevuče sve u indeks.

    Roboti za WordPress

    Neću davati primjer datoteke koju su preporučili programeri. Možete ga i sami gledati. Mnogi blogeri uopće ne ograničavaju Yandex i Google botove u svojim šetnjama kroz sadržaj WordPress motora. Najčešće u blogovima možete pronaći robote, koji se automatski popunjavaju dodatkom.

    Ali, po mom mišljenju, svejedno je potrebno pomoći traganju u teškom zadatku prosijavanja zrna od kukolja. Prvo, Yandex i Google botovima će biti potrebno dosta vremena da indeksiraju ovo smeće, a možda neće ostati vremena za dodavanje web stranica s vašim novim člancima u indeks. Drugo, botovi koji puze kroz junk fajlove motora će stvoriti dodatno opterećenje na serveru vašeg hosta, što nije dobro.

    Možete sami vidjeti moju verziju ovog fajla. Stara je, dugo se nije menjala, ali ja se trudim da se držim principa "ne popravljaj što se nije pokvarilo", a ti moraš da odlučiš: upotrebiti, napraviti svoj ili špijunirati nekoga ostalo. I dalje imam zabranu indeksiranja stranica sa paginacijom tamo donedavno (Disallow: * / page /), ali sam je nedavno uklonio, oslanjajući se na Canonical, o čemu sam pisao gore.

    Ali generalno, jedini ispravan fajl jer WordPress vjerovatno ne postoji. Moguće je, naravno, u to implementirati bilo koje pretpostavke, ali ko je rekao da će biti u pravu. Postoji mnogo opcija za idealan robots.txt na webu.

    Daću dva ekstrema:

    1. možete pronaći megafajl sa detaljnim objašnjenjima (simbol # razdvaja komentare koje bi bilo bolje obrisati u stvarnom fajlu): User-agent: * # opća pravila za robote, osim za Yandex i Google, # od za njih su pravila ispod Disallow: / cgi-bin # folder na hostingu Disallow: /? # svi parametri zahtjeva na glavnoj Disallow: / wp- # sve WP datoteke: / wp-json /, / wp-includes, / wp-content / plugins Disallow: / wp / # ako postoji poddirektorij / wp / gdje je CMS je instaliran (ako nije, # pravilo se može izbrisati) Disallow: *? s = # search Disallow: * & s = # search Disallow: / search / # search Disallow: / autor / # arhiva autora Disallow: / korisnici / # arhiva autora Disallow: * / trackback # trackbacks, obavještenja u komentarima o pojavljivanju otvorene # veze do članka Disallow: * / feed # svi feedovi Disallow: * / rss # rss feed Disallow: * / embed # sve embeds Disallow : * / wlwmanifest.xml # xml datoteka manifesta Windows Live Writer (ako se ne koristi, # možete izbrisati pravilo) Disallow: /xmlrpc.php # WordPress API datoteka Disallow: * utm = # veze sa utm tagovima Disallow: * openstat = # veze sa openstat oznakama Dozvoli: * / uploads # otvori folder sa upload-ovima User-agent: GoogleBot # pravila za Google (bez duplih komentara) Disallow: / cgi-bin Disallow: /? Disallow: / wp- Disallow: / wp / Disallow: *? S = Disallow: * & s = Disallow: / traži / Disallow: / autor / Disallow: / korisnici / Disallow: * / trackback Disallow: * / feed Disallow: * / rss Disallow: * / embed Disallow: * / wlwmanifest.xml Disallow: /xmlrpc.php Disallow: * utm = Disallow: * openstat = Dozvoli: * / uploads Dozvoli: /*/*.js # otvorite js skripte unutar / wp - (/ * / - za prioritet) Dozvoli: /*/*.css # otvori css datoteke unutar / wp- (/ * / - za prioritet) Dozvoli: /wp-*.png # slike u dodacima, keš folderu i sl. . Dozvoli: /wp-*.jpg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.jpeg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.gif # slike u dodacima, keš folderu, itd. Dozvoli: /wp-admin/admin-ajax.php # koriste dodaci kako ne bi blokirali JS i CSS Korisnički agent: Yandex # pravila za Yandex (bez duplih komentara) Disallow: / cgi-bin Disallow: /? Disallow: / wp- Disallow: / wp / Disallow: *? S = Disallow: * & s = Disallow: / traži / Disallow: / autor / Disallow: / korisnici / Disallow: * / trackback Disallow: * / feed Disallow: * / rss Disallow: * / embed Disallow: * / wlwmanifest.xml Disallow: /xmlrpc.php Dozvoli: * / uploads Dozvoli: /*/*.js Dozvoli: /*/*.css Dozvoli: /wp-*.png Dozvoli : /wp-*.jpg Dozvoli: /wp-*.jpeg Dozvoli: /wp-*.gif Dozvoli: /wp-admin/admin-ajax.php Clean-Param: utm_source & utm_medium & utm_campaign # Yandex preporučuje da se ne zatvara # iz indeksiranja, ali za brisanje parametara oznaka, # Google ne podržava takva pravila Clean-Param: openstat # slično # Navedite jednu ili više datoteka Sitemap (ne morate duplirati za svaki User-agent #). Google XML Sitemap kreira 2 sitemapa kao u primjeru ispod. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Navedite glavno ogledalo stranice, kao u primjeru ispod (sa WWW / bez WWW-a, ako je HTTPS # zatim napišite protokol, ako trebate navesti port, naznačujemo). Naredbu Host razumiju # Yandex i Mail.RU, Google ne uzima u obzir. Domaćin: www.site.ru
    2. Ali možete uzeti primjer minimalizma: User-agent: * Disallow: / wp-admin / Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https: // site. ru / sitemap.xml

    Istina je vjerovatno negdje u sredini. Također, ne zaboravite dodati Robots meta-oznaku za "dodatne" stranice, na primjer, koristeći divan dodatak -. On će vam takođe pomoći da konfigurišete Canonical.

    Ispravi robots.txt za Joomla

    User-agent: * Disallow: / administrator / Disallow: / bin / Disallow: / cache / Disallow: / cli / Disallow: / komponente / Disallow: / uključuje / Disallow: / instalaciju / Disallow: / jezik / Disallow: / rasporede / Disallow: / biblioteke / Disallow: / logs / Disallow: / moduli / Disallow: / plugins / Disallow: / tmp /

    U principu, ovdje se uzima u obzir gotovo sve i dobro funkcionira. Jedina stvar je da mu dodate zasebno User-agent: Yandex pravilo kako biste umetnuli Host direktivu koja definira glavni ogledalo za Yandex, kao i odredila putanju do datoteke Sitemap.

    Stoga bi u konačnom obliku ispravni roboti za Joomla, po mom mišljenju, trebali izgledati ovako:

    Korisnički agent: Yandex Disallow: / administrator / Disallow: / cache / Disallow: / uključuje / Disallow: / instalaciju / Disallow: / jezik / Disallow: / biblioteke / Disallow: / module / Disallow: / dodatke / Disallow: / tmp / Disallow: / rasporedi / Disallow: / cli / Disallow: / bin / Disallow: / logs / Disallow: / komponente / Disallow: / komponenta / Disallow: / komponenta / oznake * Disallow: / * mailto / Disallow: /*.pdf Disallow : / *% Disallow: /index.php Host: vash_sait.ru (ili www.vash_sait.ru) Korisnički agent: * Dozvoli: /*.css?*$ Dozvoli: /*.js?*$ Dozvoli: / * * .jpg? * $ Dozvoli: /*.png?*$ Disallow: / administrator / Disallow: / cache / Disallow: / uključuje / Disallow: / instalaciju / Disallow: / jezik / Disallow: / biblioteke / Disallow: / module / Disallow : / plugins / Disallow: / tmp / Disallow: / layouts / Disallow: / cli / Disallow: / bin / Disallow: / logs / Disallow: / komponente / Disallow: / komponenta / Disallow: / * mailto / Disallow: / *. pdf Disallow: / *% Disallow: /index.php Sitemap: http: // put do vaše mape XML format

    Da, također imajte na umu da u drugoj opciji postoje direktive Dozvoli, dozvoljavajući indeksiranje stilova, skripti i slika... Ovo je napisano posebno za Google, jer se njegov Googlebot ponekad zaklinje da je robotu zabranjeno da indeksira ove datoteke, na primjer, iz foldera s korištenom temom. On čak prijeti da će sniziti svoj rang zbog toga.

    Stoga, unaprijed dozvoljavamo da se cijela stvar indeksira pomoću Allow. Usput, isto je bilo iu primjeru datoteke za WordPress.

    Sretno ti! Vidimo se uskoro na stranicama blog stranice

    možete pogledati više video zapisa ako odete na
    ");">

    Možda ste zainteresovani

    Domeni sa i bez www - istorija pojavljivanja, koristeći 301 preusmjeravanje da ih zalijepite
    Ogledala, duple stranice i url adrese - revizija Vaše stranice ili šta bi mogao biti razlog propasti njene SEO promocije

    Zdravo, prijatelji! Članak pokazuje koji je ispravan robots txt za stranicu, gdje se nalazi, kako napraviti robots datoteku, kako prilagoditi robots datoteku sa druge stranice, kako je postaviti na svoj blog.

    Šta je fajlroboti poruka,zašto je potreban i za šta je odgovoran

    Robots txt datoteka je tekstualna datoteka koja sadrži upute za robote za pretraživanje. Prije nego posjeti stranice vašeg bloga, robot prvo traži datoteku robota, zbog čega je ona toliko važna. Robots txt datoteka je standard za izuzimanje određenih stranica iz indeksiranja od strane robota. Vaši povjerljivi podaci će zavisiti od robots txt datoteke. Ispravan txt robota za stranicu pomoći će u njenoj promociji, jer je važan alat u interakciji između vaše stranice i robota za pretraživanje.

    Nije uzalud što se robots txt datoteka naziva najvažnijim SEO alatom; ova mala datoteka direktno utječe na indeksiranje stranica stranice i web stranice u cjelini. S druge strane, neispravan robotski txt može isključiti neke stranice, odjeljke ili web mjesto u cjelini iz rezultata pretraživanja. U ovom slučaju možete imati 1000 članaka na blogu, a posjetitelja stranice jednostavno neće biti, već će biti čisto slučajnih prolaznika.

    Na webmasteru Yandexa postoji video za obuku u kojem Yandex uspoređuje txt datoteku robota s kutijom vaših ličnih stvari koju ne želite nikome pokazati. Da biste spriječili strance da pogledaju u ovu kutiju, zalijepite je trakom i napišete na njoj - "Ne otvaraj".

    Roboti, kao obrazovani pojedinci, ne otvaraju ovu kutiju i ne mogu drugima reći šta se tu nalazi. Ako nema robots txt fajla, onda robot pretraživača smatra da su svi fajlovi dostupni, otvoriće kutiju, pogledati sve i reći drugima šta je u kutiji. Kako biste spriječili da se robot popne u ovu kutiju, potrebno mu je zabraniti da se tamo penje, to se radi pomoću direktive Disallow, koja je prevedena s engleskog - zabraniti, a Allow - dozvoliti.

    Ovo je običan txt fajl koji se kompajlira u običnu notepad ili NotePad ++, fajl koji traži od robota da ne indeksiraju određene stranice na sajtu. čemu služi:

    • pravilno kompajlirana robots txt datoteka ne dozvoljava robotima da indeksiraju bilo kakvo smeće i da ne zakrče rezultate pretrage nepotrebnim materijalom, kao ni da ne dupliraju stranice, što je vrlo štetna pojava;
    • ne dozvoljava robotima da indeksiraju informacije koje su potrebne za službenu upotrebu;
    • ne dozvoljava špijunskim robotima da kradu osjetljive podatke i koriste ih za slanje neželjene pošte.

    To ne znači da želimo nešto da sakrijemo od pretraživača, nešto tajno, samo ta informacija nema nikakvu vrijednost ni za pretraživače ni za posjetitelje. Na primjer, stranica za prijavu, RSS feedovi, itd. Osim toga, robots txt datoteka specificira zrcalo stranice kao i mapu stranice. Prema zadanim postavkama, WordPress stranica nema robots txt datoteku. Stoga morate kreirati robots txt datoteku i učitati je u korijensku mapu vašeg bloga, u ovom članku ćemo razmotriti robote txt za WordPress, njegovo kreiranje, prilagođavanje i postavljanje na stranicu. Dakle, prvo, znamo li gdje je robots txt datoteka?

    Gdje jeroboti porukakako to vidjeti?

    Mislim da se mnogi početnici postavljaju pitanje - gdje se nalazi robots txt? Fajl se nalazi u root folderu sajta, u folderu public_html, može se videti sasvim jednostavno. Možete otići na hosting, otvoriti mapu svoje stranice i vidjeti da li je ovaj fajl tamo ili ne. Video ispod pokazuje kako se to radi. Datoteku možete pogledati i koristeći Yandex webmaster i Google webmaster, ali o tome ćemo kasnije.

    Postoji još jednostavnija opcija, koja vam omogućava da vidite ne samo svoje robote txt, već i robote bilo koje stranice, možete preuzeti robote na svoje računalo, a zatim ga prilagoditi sebi i koristiti na svojoj web stranici (blog). To se radi na ovaj način - otvorite stranicu (blog) koja vam je potrebna i dodate robots.txt kroz kosu crtu (pogledajte snimak ekrana)

    i pritisnite Enter, otvara se robots txt datoteka. U ovom slučaju ne možete vidjeti gdje se nalazi robots txt, ali ga možete pogledati i preuzeti.

    Kako kreirati ispravnuroboti poruka za sajt

    Možete kreirati robotski txt za web lokaciju na različite načine:

    • koristite online generatore koji će brzo kreirati robots txt fajl, postoji mnogo sajtova i servisa koji to mogu da urade;
    • koristite WordPress dodatke za rješavanje ovog problema;
    • kreirajte robots txt datoteku vlastitim rukama ručno u običnoj notepadu ili NotePadu ++;
    • koristite gotove, ispravne robote txt sa tuđe stranice (blog), zamjenjujući na njoj adresu svoje stranice.

    Generatori

    Dakle, ranije nisam koristio generatore za generiranje robots txt datoteka, ali prije nego što napišem ovaj članak odlučio sam da testiram 4 servisa za generiranje robots txt datoteka, dobio sam određene rezultate, o njima ću vam reći kasnije. Ove usluge su:

    • SEOlib;
    • PR-CY usluga;
    • Raskruty.ru servis;
    • seo café možete posjetiti ovdje putem ovog linka - info.seocafe.info/tools/robotsgenerator.

    Kako koristiti robots txt generator u praksi detaljno je prikazano u videu ispod. Tokom testiranja sam došao do zaključka da za ovo nisu pogodni za početnike, i zato? Generator vam omogućava samo da napravite ispravan zapis bez grešaka u samoj datoteci, a da biste kompajlirali ispravan robots txt, morate još imati znanja, morate znati koje foldere zatvoriti, a koje ne. Iz tog razloga, ne preporučujem korištenje robots txt generatora za kreiranje datoteke za početnike.

    Dodaciza WordPress

    Postoje dodaci poput PC Robots.txt za kreiranje datoteke. Ovaj dodatak vam omogućava da uređujete fajl direktno na kontrolnoj tabli vaše stranice. Još jedan dodatak iRobots.txt SEO je ovaj dodatak sa sličnom funkcionalnošću. Možete pronaći gomilu različitih dodataka koji vam omogućavaju rad sa vašim robots txt fajlom. Ako želite, možete postaviti frazu roboti. txt i kliknite na dugme "Traži" i biće vam ponuđeno nekoliko dodataka. Naravno, morate pročitati o svakom od njih, pogledati recenzije.

    Robotski txt dodaci za WordPress rade na vrlo sličan način kao i generatori. Potrebno je znanje i iskustvo da se dobije pravi robotski txt za web stranicu, ali odakle ga početnici mogu dobiti? Po mom mišljenju, od ovakvih usluga možete dobiti više štete nego koristi. A ako instalirate dodatak, on će također učitati hosting. Iz tog razloga, ne preporučujem instaliranje WordPress robots txt dodatka.

    Stvoritiroboti porukaručno

    Možete kreirati robote txt ručno koristeći običan notepad ili NotePad ++, ali to zahtijeva znanje i iskustvo. Ova opcija također nije prikladna za početnike. Ali s vremenom, kada se iskustvo pojavi, to će biti moguće učiniti, štoviše, sastaviti robots txt datoteku za stranicu, registrirati Disallow robots direktive, zatvoriti potrebne mape iz indeksiranja, izvršiti provjeru robota i prilagoditi je za samo 10 minuta . Snimak ekrana iznad prikazuje robote txt u bilježnici:

    Ovdje se neće razmatrati sam postupak kreiranja robots txt datoteke, to je detaljno opisano u mnogim izvorima, na primjer, u Yandex webmasteru. Prije kompajliranja robots txt datoteke, trebate otići na Yandex Webmaster, gdje je svaka direktiva detaljno opisana, za šta je odgovorna i na osnovu ovih informacija sastavite datoteku. (pogledajte snimak ekrana).

    Inače, novi webmaster Yandexa nudi detaljne i detaljne informacije, članak o tome možete pogledati na blogu. Tačnije, predstavljena su dva članka koja će biti od velike koristi blogerima i ne samo početnicima, savjetujem vam da ih pročitate.

    Ako niste početnik i želite sami napraviti robote txt, morate slijediti niz pravila:

    1. Upotreba nacionalnih znakova u robots txt datoteci nije dozvoljena.
    2. Veličina datoteke robota ne smije biti veća od 32 KB.
    3. Naziv datoteke robota ne može biti napisan kao Roboti ili ROBOTI; datoteka mora biti potpisana tačno kako je prikazano u članku.
    4. Svaka direktiva mora početi u novom redu.
    5. Više od jedne direktive se ne može navesti u jednom redu.
    6. Direktiva "Disallow" sa praznim redom je ekvivalentna direktivi "Allow" - dozvoli, zapamtite ovo.
    7. Ne možete staviti razmak na početak reda.
    8. Ako ne napravite razmak između različitih direktiva "User-agent", roboti će prihvatiti samo gornju direktivu - ostale će ignorirati.
    9. Sam parametar direktive treba biti napisan u samo jednom redu.
    10. Ne možete citirati parametre direktive.
    11. Ne možete zatvoriti red sa tačkom i zarezom nakon direktive.
    12. Ako datoteka robota nije pronađena ili je prazna, roboti će je shvatiti kao "Sve je dozvoljeno".
    13. Možete komentarisati liniju direktive (da bi bilo jasno koja je linija), ali samo nakon znaka funte #.
    14. Ako napravite razmak između redova, to će značiti kraj direktive User-agent.
    15. Samo jedan parametar treba navesti u direktivama "Disallow" i "Allow".
    16. Za direktive koje su direktorij stavlja se kosa crta, na primjer - Disallow / wp-admin.
    17. U odjeljku "Kašnjenje indeksiranja" trebate preporučiti robotima vremenski interval između preuzimanja dokumenata sa servera, obično 4-5 sekundi.
    18. Važno - između direktiva ne bi trebalo biti praznih linija. Nova direktiva počinje s jednim razmakom. To znači kraj pravila za pauk pretraživača, u priloženom videu je to detaljno prikazano. Zvjezdice predstavljaju niz bilo kojeg karaktera.
    19. Savjetujem vam da ponovite sva pravila posebno za Yandex robota, odnosno ponovite sve direktive koje su napisane za druge robote za Yandex posebno. Na kraju informacija za Yandex robota, trebate zapisati direktivu hosta (Host - podržava ga samo Yandex) i navesti svoj blog. Domaćin govori Yandexu koji je ogledalo vaše stranice glavno, sa ili bez www.
    20. Osim toga, u posebnom direktoriju robots txt datoteke, odnosno odvojenom razmakom, preporučuje se da navedete adresu vaše mape stranice. Kreiranje datoteke može se obaviti za nekoliko minuta i počinje frazom "User-agent:". Ako želite blokirati indeksiranje, na primjer, slika, onda morate registrirati Disallow: / images /.

    Koristite ispravnoroboti poruka sa tuđe stranice

    Idealna datoteka ne postoji, povremeno morate pokušati eksperimentirati i uzeti u obzir promjene u radu pretraživača, uzeti u obzir one greške koje se mogu pojaviti na vašem blogu s vremenom. Stoga, za početak, možete uzeti tuđi provjereni robots txt fajl i instalirati ga sebi.

    Neophodno je promijeniti unose koji odražavaju adresu vašeg bloga u Host direktoriju (pogledajte ekran, pogledajte i video), a također je zamijenite adresom vaše web stranice u adresi mape stranice (dva donja reda). Vremenom, ovaj fajl treba malo ispraviti. Na primjer, primijetili ste da su se počele pojavljivati ​​duplikati stranica.

    U odjeljku "Gdje se nalazi robots txt, kako vidjeti", koji se nalazi iznad, pogledali smo kako pogledati i preuzeti robots txt. Stoga, morate odabrati dobru web lokaciju za povjerenje koja ima visoke rezultate za Tit, visok promet, otvoriti i preuzeti ispravan txt robota. Potrebno je da uporedite nekoliko sajtova, odaberete željeni robots txt fajl za sebe i postavite ga na svoju stranicu.

    Kako učitati fajl na sajtroboti poruka u korijensku mapu stranice

    Kao što je već spomenuto, nakon kreiranja WordPress stranice, po defaultu, nema robots txt datoteke. Stoga se mora kreirati i učitati u korijensku mapu naše web stranice (blog) za hosting. Učitavanje fajla je dovoljno jednostavno. Na TimeWeb hostingu, na drugim hostingima možete uploadati bilo preko ili preko. Video ispod prikazuje proces učitavanja robots txt datoteke na TimeWeb hosting.

    Provjera robots txt datoteke

    Nakon učitavanja robots txt datoteke, potrebno je provjeriti njeno postojanje i rad. Da bismo to učinili, možemo pogledati datoteku iz pretraživača, kao što je prikazano iznad u odjeljku "Gdje je robots txt, kako vidjeti". A možete provjeriti rad datoteke pomoću Yandex webmastera i Google webmastera. Zapamtite da za ovo mora postojati i unutra.

    Da biste se prijavili u Yandex, idite na naš Yandex webmaster račun, odaberite web lokaciju ako ih imate nekoliko. Odaberite "Postavke indeksiranja", "Robots.txt Analysis", a zatim slijedite upute.

    U Google webmasteru radimo isto, idemo na naš račun, odabiremo željenu stranicu (ako ih ima nekoliko), kliknemo na dugme "Skeniraj" i biramo "Provjera datoteka Robots.txt". Otvoriće se robots txt datoteka, možete je ispraviti ili provjeriti.

    Ova stranica također sadrži odlična uputstva za rad sa robots txt datotekom, možete ih pogledati. U zaključku, predstavljam video koji pokazuje šta je robots txt fajl, kako ga pronaći, kako ga pogledati i preuzeti, kako raditi sa generatorom fajlova, kako sastaviti robots txt i prilagoditi ga za sebe, ostale informacije su pokazano:

    Zaključak

    Dakle, u ovom članku smo ispitali pitanje šta je robots txt fajl i otkrili da je ovaj fajl veoma važan za sajt. Naučili smo kako napraviti ispravan robots txt, kako prilagoditi robots txt fajl sa tuđe stranice sebi, kako ga postaviti na svoj blog, kako ga provjeriti.

    Iz članka je postalo jasno da je za početnike u početku bolje koristiti gotov i ispravan txt robota, ali ne smijemo zaboraviti zamijeniti domenu u direktoriju Host svojom, a također registrirati adresu vašeg bloga u mapama sajta. Ovdje možete preuzeti moj robots txt fajl. Sada kada ste to popravili, možete koristiti datoteku na svom blogu.

    Odvojeno, postoji web stranica za robots txt datoteku, možete otići na nju i saznati više informacija. Nadam se da ćete uspjeti i da će vaš blog biti dobro indeksiran. Sretno ti!

    Srdačan pozdrav, Ivan Kunpan.

    P.S. Za pravilnu promociju bloga, potrebno je da pravilno pišete o optimizaciji članaka na blogu, tada će on imati visok promet i rejting. U tome će vam pomoći moji informativni proizvodi u koje je uloženo moje trogodišnje iskustvo. Možete nabaviti sljedeće proizvode:

    • plaćena knjiga;
    • obavještajna kartica;
    • plaćeni video kurs "".

    Primajte nove članke na blogu direktno u inbox. Popunite formular, kliknite na dugme "Pretplati se".

    Zbunjena uputstva

    Jedna od najčešćih grešaka u robots.txt su zbunjujuće upute. Na primjer:

    Korisnički agent: /
    Disallow: Yandex

    Ispravno je pisati ovako:

    Korisnički agent: Yandex
    Disallow: /

    Određivanje više direktorija u jednoj naredbi Disallow

    Mnogi vlasnici stranica pokušavaju staviti sve direktorije kojima je zabranjeno indeksiranje u jednu naredbu Disallow.

    Disallow: / css / / cgi-bin / / slike /

    Takav unos krši standard i nemoguće je pretpostaviti kako će ga različiti roboti obraditi. Neki mogu "odbaciti" razmake i protumačiti ovaj unos kao "Disallow: / css / cgi-bin / images /". Neki mogu koristiti samo prvu ili posljednju mapu (/css / ili / images / respektivno). Neko može jednostavno potpuno odbaciti nerazumljivo uputstvo.

    Naravno, neki roboti mogu obraditi ovu strukturu upravo onako kako je webmaster očekivao, ali ne biste trebali računati na to. Tačno treba da napišete ovako:

    Disallow: / css /
    Disallow: / cgi-bin /
    Disallow: / slike /

    Ime datoteke sadrži velika slova

    Datoteka mora biti nazvana robots.txt, a ne Robots.txt ili ROBOTS.TXT.

    Korištenje robot.txt umjesto robots.txt

    Još jednom, datoteka se mora zvati robots .txt.

    Prazan niz u korisničkom agentu

    tako pogrešno:

    Korisnički agent:
    Disallow:

    Tako je:

    Korisnički agent: *
    Disallow:

    Url u Host direktivi

    Trebalo bi da pišete bez skraćenice Hypertext Transfer Protocol, odnosno bez http: // i bez završne kose crte /

    Nije ispravno:

    Korisnički agent: Yandex
    Disallow: / cgi-bin
    Domaćin: http://www.site.ru/

    desno:

    Korisnički agent: Yandex
    Disallow: / cgi-bin
    Domaćin: www.site.ru

    Host direktiva je važeća samo za

    Korištenje zamjenskih znakova u Disallow

    Ponekad poželite da napišete nešto poput:

    Korisnički agent: *
    Disallow: datoteka * .html

    da ispišete sve datoteke file1.html, file2.html, file3.html, itd. Nažalost, ne možete (neki roboti podržavaju zamjenske znakove).

    Loš stil

    Komentari u istom redu sa uputstvima

    Po standardu, takav zapis je sasvim moguć:

    Disallow: / cgi-bin / # zabrani robotima da indeksiraju cgi-bin

    U prošlosti, neki roboti nisu obrađivali takve nizove. Vjerovatno nijedan od glavnih pretraživača sada nema ovaj problem, ali da li je vrijedno rizika? Bolje je komentarisati odvojeno.

    Preusmjeravanje na stranicu s greškom 404:

    Vrlo često, na stranicama bez robots.txt datoteke, kada se traži ova datoteka, vrši se preusmjeravanje na drugu stranicu. Ponekad se takvo preusmjeravanje dogodi bez vraćanja statusa 404 Nije pronađeno. Pauk sam mora da shvati šta je dobio - robots.txt ili običan html fajl. Ova situacija vjerovatno neće stvoriti probleme, ali je ipak bolje uvijek staviti praznu datoteku robots.txt u korijen stranice.

    Velika slova su loš stil

    KORISNIČKI AGENT: GOOGLEBOT
    DISALOW:

    Iako robots.txt po standardu ne razlikuje velika i mala slova, nazivi datoteka i direktorija često razlikuju velika i mala slova. Takođe, pisanje robots.txt velikim slovima smatra se lošim stilom.

    Korisnički agent: googlebot
    Disallow:

    Navedite sve datoteke

    Druga greška je ispisivanje svih datoteka u direktoriju:

    Korisnički agent: *
    Disallow: /AL/Alabama.html
    Disallow: /AL/AR.html
    Disallow: /Az/AZ.html
    Disallow: /Az/bali.html
    Disallow: /Az/bed-breakfast.html

    Umjesto toga, možete jednostavno zatvoriti cijeli direktorij od indeksiranja:

    Korisnički agent: *
    Disallow: / AL /
    Disallow: / Az /

    Naredba Allow ne postoji! [prijevod zastario]

    Bilješka: Nije postojala u vrijeme prijevoda ovog teksta, sada ovu instrukciju podržavaju i Google i Yandex. Provjerite korištenje za druge robote.

    Ne postoji instrukcija Dozvoli, samo Disallow. Datoteka robots.txt ništa ne dozvoljava, samo zabranjuje!

    tako pogrešno:

    Korisnički agent: Yandex
    Disallow: / john /
    Dozvoli: / jane /

    Ali ovo je tačno:

    Korisnički agent: Yandex
    Disallow: / john /
    Disallow:

    Korištenje dodatnih direktiva u odjeljku *

    tako pogrešno:

    Korisnički agent: *
    Disallow: / css /
    Domaćin: www.example.com

    Ali ovo je tačno:

    Korisnički agent: *
    Disallow: / css /

    Korisnički agent: Yandex
    Disallow: / css /
    Domaćin: www.example.com

    Nedostatak instrukcija Disallow

    Čak i ako samo želimo koristiti dodatnu direktivu i ne želimo ništa zabraniti, najbolje je navesti prazan Disallow. Po standardu, instrukcija Disallow je obavezna, a robot vas može "pogrešno shvatiti".

    tako pogrešno:

    Korisnički agent: Yandex
    Domaćin: www.example.com

    Tako je:

    Korisnički agent: Yandex
    Disallow:
    Domaćin: www.example.com

    Odsustvo kosih crta prilikom navođenja direktorija

    Šta će robot učiniti u ovom slučaju?

    Korisnički agent: Yandex
    Disallow: John

    Podrazumevano, neće indeksirati datoteku pod nazivom “john” i direktorij pod nazivom “john”. Da biste naveli samo direktorij, morate napisati ovako:

    Korisnički agent: Yandex
    Disallow: / john /

    Nevažeće http zaglavlje

    Server mora vratiti u HTTP zaglavlje za robots.txt "Content-Type: text / plain", a ne, na primjer, "Content-Type: text / html". Neispravno zaglavlje može uzrokovati da neki roboti ne obrađuju datoteku.

    Top srodni članci