Yandex roboti. Kako urediti robots txt fajl Šta treba da bude robots txt fajl?

30.12.2023 Windows 8

Izdali smo novu knjigu, Marketing sadržaja društvenih medija: Kako ući u glave svojih pratilaca i natjerati ih da se zaljube u vaš brend.

Robots.txt je tekstualna datoteka koja sadrži informacije za robote za pretraživanje koji pomažu indeksirati stranice portala.

Više videa na našem kanalu - naučite internet marketing uz SEMANTICA

Zamislite da ste otišli na ostrvo po blago. Imate mapu. Tu je označena ruta: „Priđite velikom panju. Odatle napravite 10 koraka na istok, a zatim dođite do litice. Skrenite desno, pronađite pećinu.”

Ovo su uputstva. Prateći ih, slijedite rutu i pronalazite blago. Bot za pretragu radi na isti način kada počne indeksirati web lokaciju ili stranicu. Pronalazi datoteku robots.txt. Čita koje stranice treba indeksirati, a koje ne. I slijedeći ove naredbe, on indeksira portal i dodaje svoje stranice u indeks.

Čemu služi robots.txt?

Počinju posjećivati stranice i indeksirati stranice nakon što se stranica učita na hosting i registruje DNS. Oni rade svoj posao bez obzira da li imate bilo kakve tehničke fajlove ili ne. Roboti govore pretraživačima da prilikom indeksiranja web stranice moraju uzeti u obzir parametre koje ona sadrži.

Nedostatak datoteke robots.txt može dovesti do problema sa brzinom indeksiranja stranice i prisustvom smeća u indeksu. Neispravna konfiguracija datoteke može rezultirati isključenjem važnih dijelova resursa iz indeksa i prisustvom nepotrebnih stranica u izlazu.

Sve to, kao rezultat, dovodi do problema s promocijom.

Pogledajmo pobliže koje su upute sadržane u ovoj datoteci i kako one utječu na ponašanje bota na vašoj web lokaciji.

Kako napraviti robots.txt

Prvo provjerite da li imate ovu datoteku.

Unesite adresu stranice u adresnu traku pretraživača, a zatim kosu crtu naziv datoteke, na primjer, https://www.xxxxx.ru/robots.txt

Ako je datoteka prisutna, na ekranu će se pojaviti lista njenih parametara.

Ako nema fajla:

Datoteka se kreira u običnom uređivaču teksta kao što je Notepad ili Notepad++.
Morate postaviti ime robots, ekstenzija .txt. Unesite podatke uzimajući u obzir prihvaćene standarde dizajna.
Možete provjeriti ima li grešaka koristeći usluge kao što je Yandex Webmaster. Tamo trebate odabrati stavku “Robots.txt Analysis” u odjeljku “Alati” i slijediti upute.
Kada je datoteka spremna, otpremite je u korijenski direktorij stranice.

Postavljanje pravila

Pretraživači imaju više od jednog robota. Neki botovi indeksiraju samo tekstualni sadržaj, neki samo grafički sadržaj. Čak i među samim tražilicama, način rada indeksa može biti drugačiji. Ovo se mora uzeti u obzir prilikom sastavljanja datoteke.

Neki od njih mogu zanemariti neka pravila, na primjer, GoogleBot ne odgovara na informacije o tome koji se ogledalo stranice smatra glavnim. Ali općenito, oni percipiraju i vode se prema fajlu.

Sintaksa datoteke

Parametri dokumenta: ime robota (bota) “User-agent”, direktive: dozvoljavanje “Dozvoli” i zabrana “Disallow”.

Sada postoje dva ključna pretraživača: Yandex i Google, respektivno, važno je uzeti u obzir zahtjeve oba pri kreiranju web stranice.

Format za kreiranje unosa je sljedeći, imajte na umu potrebne razmake i prazne redove.

Direktiva korisnik-agent

Robot traži zapise koji počinju sa User-agent; trebalo bi da sadrži indikacije imena robota za pretragu. Ako nije navedeno, pristup botu se smatra neograničenim.

Disallow i Allow direktive

Ako trebate onemogućiti indeksiranje u robots.txt, koristite Disallow. Uz njegovu pomoć, botu je ograničen pristup stranici ili određenim dijelovima.

Ako robots.txt ne sadrži nikakve zabranjujuće direktive „Disallow“, smatra se da je indeksiranje cijele stranice dozvoljeno. Obično se banovi propisuju nakon svakog bota posebno.

Sve informacije koje se pojavljuju nakon znaka # su komentar i nisu strojno čitljive.

Dozvoli se koristi za omogućavanje pristupa.

Simbol zvjezdice služi kao indikacija onoga što se odnosi na sve: Korisnički agent: *.

Ova opcija, naprotiv, znači potpunu zabranu indeksiranja za sve.

Spriječite pregled cjelokupnog sadržaja određene mape direktorija

Da biste blokirali jednu datoteku, morate navesti njenu apsolutnu putanju

Sitemap, Host direktive

Za Yandex je uobičajeno naznačiti koje ogledalo želite označiti kao glavno. A Google, koliko se sjećamo, to ignorira. Ako nema ogledala, jednostavno zabilježite da li mislite da je ispravno napisati naziv vaše web stranice sa ili bez www.

Clean-param direktiva

Može se koristiti ako URL-ovi web stranica sadrže promjenjive parametre koji ne utječu na njihov sadržaj (to mogu biti korisnički ID-ovi, refereri).

Na primjer, u adresi stranice “ref” određuje izvor prometa, tj. označava odakle je posetilac došao na sajt. Stranica će biti ista za sve korisnike.

Možete to ukazati robotu i on neće preuzimati duple informacije. Ovo će smanjiti opterećenje servera.

Direktiva odgode puzanja

Koristeći ovo, možete odrediti koliko će često bot učitavati stranice za analizu. Ova komanda se koristi kada je server preopterećen i ukazuje na to da proces indeksiranja treba da se ubrza.

Robots.txt greške

Datoteka se ne nalazi u korijenskom direktoriju. Robot ga neće tražiti dublje i neće ga uzeti u obzir.
Slova u imenu moraju biti mala latinica.
Greška u nazivu, ponekad im nedostaje slovo S na kraju i pišu robot.
Ne možete koristiti ćirilične znakove u datoteci robots.txt. Ako trebate navesti domenu na ruskom, koristite format u posebnom kodiranju Punycode.
Ovo je metoda pretvaranja imena domena u niz ASCII znakova. Da biste to učinili, možete koristiti posebne pretvarače.

Ovo kodiranje izgleda ovako:
site.rf = xn--80aswg.xn--p1ai

Dodatne informacije o tome što zatvoriti u robots txt i o postavkama u skladu sa zahtjevima Google i Yandex pretraživača možete pronaći u dokumentima pomoći. Različiti cm-ovi takođe mogu imati svoje karakteristike, to treba uzeti u obzir.

Robots.txt je tekstualna datoteka koja sadrži posebne upute za robote pretraživača koji istražuju vašu web stranicu na Internetu. Ova uputstva se zovu direktive— može zabraniti indeksiranje nekih stranica web stranice, ukazati na ispravno „zrcaljenje“ domene, itd.

Za sajtove koji rade na platformi Nubex, datoteka sa direktivama se kreira automatski i nalazi se na domen.ru/robots.txt, gde je domen.ru naziv domena sajta..ru/robots.txt.

Možete promijeniti robots.txt i dodati dodatne direktive za tražilice u administrativnom dijelu stranice. Da biste to učinili, odaberite odjeljak na kontrolnoj ploči "Postavke", i u tome postoji poenta "SEO".

Pronađite polje "Tekst datoteke robots.txt" i u njega zapišite potrebne direktive. Preporučljivo je aktivirati potvrdni okvir „Dodaj link na automatski generiranu sitemap.xml datoteku u robots.txt“: na taj način će bot za pretraživanje moći učitati mapu stranice i pronaći sve stranice potrebne za indeksiranje.

Osnovne direktive za robots txt datoteku

Prilikom učitavanja robots.txt, robot za pretraživanje prvo traži unos koji počinje sa Korisnički agent: Vrijednost ovog polja mora biti ime robota čija se prava pristupa postavljaju u ovom unosu. One. Direktiva User-agent je vrsta poziva robotu.

1. Ako vrijednost polja User-agent sadrži simbol " * ", tada se prava pristupa navedena u ovom unosu primjenjuju na sve robote za pretraživanje koji traže /robots.txt datoteku.

2. Ako je u unosu navedeno više od jednog imena robota, tada se prava pristupa primjenjuju na sva navedena imena.

3. Velika ili mala slova nisu bitni.

4. Ako je otkriven niz User-agent: BotName, direktive za User-agent: * se ne uzimaju u obzir (ovo je slučaj ako napravite više unosa za različite robote). One. robot će prvo skenirati tekst za unos korisničkog agenta: MyName, i ako ga pronađe, slijedit će ove upute; ako ne, postupit će prema uputama unosa User-agent: * (za sve botove).

Uzgred, preporučljivo je umetnuti prazan red (Enter) prije svake nove direktive User-agent.

5. Ako nedostaju linije User-agent: BotName i User-agent: *, smatra se da pristup robotu nije ograničen.

Zabrana i dopuštanje indeksiranja web mjesta: direktive Disallow i Allow

Da bi se uskratio ili dozvolio pristup botovima za pretraživanje određenim stranicama stranice, koriste se direktive Disallow I Dopustiti respektivno.

Značenje ovih direktiva ukazuje na punu ili djelomičnu putanju do odjeljka:

Disallow: /admin/— zabranjuje indeksiranje svih stranica koje se nalaze unutar admin sekcije;
Disallow: /help— zabranjuje indeksiranje i /help.html i /help/index.html;
Disallow: /pomoć/ — zatvara samo /help/index.html;
Disallow: /— blokira pristup cijeloj web lokaciji.

Ako vrijednost Disallow nije navedena, tada pristup nije ograničen:

Zabraniti:— indeksiranje svih stranica sajta je dozvoljeno.

Možete koristiti direktivu dozvole za konfiguriranje izuzetaka Dopustiti. Na primjer, takav unos će zabraniti robotima da indeksiraju sve dijelove stranice osim onih čija putanja počinje sa /search:

Nije bitno kojim će redosljedom biti navedene direktive za zabranu i dopuštenje indeksiranja. Prilikom čitanja, robot će ih i dalje sortirati po dužini URL prefiksa (od najmanjeg do najvećeg) i primjenjivati ih uzastopno. Odnosno, gornji primjer u percepciji bota izgledat će ovako:

— samo stranice koje počinju sa /search su dozvoljene za indeksiranje. Dakle, redosled direktiva ni na koji način neće uticati na rezultat.

Host direktiva: kako odrediti glavni domen stranice

Ako je nekoliko imena domena povezano sa vašom web lokacijom (tehničke adrese, ogledala, itd.), pretraživač može odlučiti da su sve to različite stranice. I sa istim sadržajem. Rješenje? Ban! I jedan bot zna koji će domen biti "kažnjen" - glavni ili tehnički.

Da biste izbjegli ovaj problem, morate reći robotu za pretraživanje na kojoj adresi vaša stranica učestvuje u pretrazi. Ova adresa će biti označena kao glavna, a ostatak će činiti grupu ogledala vaše stranice.

To možete učiniti koristeći Host direktive. Mora se dodati unosu koji počinje sa User-Agent, odmah nakon direktiva Disallow i Allow. U vrijednosti direktive Host morate navesti glavnu domenu sa brojem porta (80 po defaultu). Na primjer:

Domaćin: test-o-la-la.ru

Takav unos znači da će stranica biti prikazana u rezultatima pretrage sa vezom na domenu test-o-la-la.ru, a ne www.test-o-la-la.ru i s10364.. screenshot iznad).

U Nubex konstruktoru, Host direktiva se automatski dodaje u tekst datoteke robots.txt kada na admin panelu navedete koja je domena glavna.

U tekstu robots.txt, host direktiva se može koristiti samo jednom. Ako ga napišete nekoliko puta, robot će prihvatiti samo prvi unos po redu.

Direktiva o kašnjenju indeksiranja: kako postaviti interval učitavanja stranice

Da robotu naznačite minimalni interval između završetka učitavanja jedne stranice i početka učitavanja sljedeće, koristite Direktiva odgode puzanja. Mora se dodati unosu koji počinje sa User-Agent, odmah nakon direktiva Disallow i Allow. U vrijednosti direktive navedite vrijeme u sekundama.

Korišćenje takvog kašnjenja prilikom obrade stranica biće zgodno za preopterećene servere.

Postoje i druge direktive za robote za pretraživanje, ali pet opisanih - User-Agent, Disallow, Allow, Host i Puzanje-kašnjenje - obično dovoljno da se sastavi tekst datoteke robots.txt.

Većina robota je dobro dizajnirana i ne stvara nikakve probleme vlasnicima web stranica. Ali ako je bot napisao amater ili je „nešto pošlo po zlu“, onda može stvoriti značajno opterećenje na web lokaciji koju indeksira. Inače, pauci uopće ne ulaze na server kao virusi - oni jednostavno traže stranice koje su im potrebne na daljinu (zapravo, to su analozi pretraživača, ali bez funkcije pregledavanja stranica).

Robots.txt - direktiva korisničkog agenta i botovi pretraživača

Robots.txt ima vrlo jednostavnu sintaksu, koja je vrlo detaljno opisana, na primjer, u Yandex pomoć I Google pomoć. Obično označava za koji bot za pretraživanje su namijenjene sljedeće direktive: ime bota (" Korisnički agent"), dozvoljavajući (" Dopustiti") i zabranjujući (" Disallow"), a "Sitemap" se također aktivno koristi za označavanje pretraživačima gdje se tačno nalazi datoteka mape.

Standard je nastao dosta davno i nešto je naknadno dodato. Postoje direktive i pravila dizajna koja će razumjeti samo roboti određenih pretraživača. U RuNetu su interesantni samo Yandex i Google, što znači da biste se trebali upoznati s njihovom pomoći pri kompajliranju robots.txt posebno detaljno (naveo sam veze u prethodnom paragrafu).

Na primjer, ranije je bilo korisno za Yandex tražilicu da naznači da je vaš web projekat glavni u posebnoj direktivi „Host“, koju samo ova tražilica razumije (pa, i Mail.ru, jer je njihova pretraga iz Yandexa ). Istina, početkom 2018 Yandex je i dalje otkazao Host i sada njegove funkcije, kao i one drugih pretraživača, obavlja 301 preusmjeravanje.

Čak i ako vaš resurs nema ogledala, bit će korisno naznačiti koja je opcija pravopisa glavna - .

Hajde sada da pričamo malo o sintaksi ove datoteke. Smjernice u robots.txt izgledaju ovako:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Ispravan kod bi trebao sadržavati barem jedna direktiva “Disallow”. nakon svakog unosa "Korisnički agent". Prazan fajl pretpostavlja dozvolu za indeksiranje cijele stranice.

Korisnički agent

Direktiva "korisnički agent". mora sadržavati ime bota za pretraživanje. Koristeći ga, možete postaviti pravila ponašanja za svaku određenu tražilicu (na primjer, stvoriti zabranu indeksiranja zasebne mape samo za Yandex). Primjer pisanja "User-agent" upućenog svim botovima koji posjećuju vaš resurs izgleda ovako:

Korisnički agent: *

Ako želite postaviti određene uvjete u "User-agent" samo za jednog bota, na primjer, Yandex, onda morate napisati ovo:

Korisnički agent: Yandex

Naziv robota pretraživača i njihova uloga u datoteci robots.txt

Bot svakog pretraživača ima svoje ime (na primjer, za rambler je StackRambler). Ovdje ću dati listu najpoznatijih od njih:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Veliki pretraživači ponekad imaju osim glavnih botova, postoje i zasebne instance za indeksiranje blogova, vijesti, slika itd. Možete dobiti mnogo informacija o vrstama botova (za Yandex) i (za Google).

Kako biti u ovom slučaju? Ako treba da napišete pravilo za zabranu indeksiranja, kojeg moraju poštovati svi tipovi Google robota, onda koristite ime Googlebot i svi ostali pauci ovog pretraživača će se takođe pridržavati. Međutim, možete zabraniti samo, na primjer, indeksiranje slika tako što ćete navesti bota Googlebot-Image kao korisničkog agenta. Sada ovo nije baš jasno, ali sa primjerima, mislim da će biti lakše.

Primjeri korištenja direktiva Disallow i Allow u robots.txt

Daću vam nekoliko jednostavnih. primjeri korištenja direktiva sa objašnjenjem njegovih postupaka.

Kod u nastavku omogućava svim botovima (označenim zvjezdicom u korisničkom agentu) da indeksiraju sav sadržaj bez ikakvih izuzetaka. Ovo je dato prazna direktiva Disallow. Korisnički agent: * Disallow:
Sljedeći kod, naprotiv, u potpunosti zabranjuje svim pretraživačima da dodaju stranice ovog resursa u indeks. Postavlja ovo na Disallow sa "/" u polju vrijednosti. Korisnički agent: * Disallow: /
U ovom slučaju, svim botovima će biti zabranjeno da gledaju sadržaj direktorija /image/ (http://mysite.ru/image/ je apsolutna putanja do ovog direktorija) User-agent: * Disallow: /image/
Da biste blokirali jednu datoteku, dovoljno je registrirati njenu apsolutnu putanju do nje (čitati): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Gledajući malo unaprijed, reći ću da je lakše koristiti simbol zvjezdice (*) kako ne biste pisali punu putanju:
Disallow: /*private_file.html
U primjeru ispod, direktorijum “image” će biti zabranjen, kao i svi fajlovi i direktoriji koji počinju znakovima “image”, odnosno fajlovi: “image.htm”, “images.htm”, direktoriji: “image”, “ images1”, “image34” itd.): User-agent: * Disallow: /image Činjenica je da se po defaultu na kraju unosa nalazi zvjezdica, koja zamjenjuje sve znakove, uključujući i njihovo odsustvo. Pročitajte o tome u nastavku.
Korišćenjem Dozvoli direktive dozvoljavamo pristup. Dopunjuje Disallow dobro. Na primjer, ovim uvjetom zabranjujemo Yandex robotu za pretraživanje da preuzima (indeksira) sve osim web stranica čija adresa počinje sa /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /
Pa, ili ovaj očigledan primjer korištenja kombinacije Allow i Disallow:
Korisnički agent: * Disallow: /catalog Dozvoli: /catalog/auto
Kada opisujete putanje za direktive Allow-Disallow, možete koristiti simbole "*" i "$", definišući određene logičke izraze.
1. Simbol "*" (zvjezdica) znači bilo koji (uključujući prazan) niz znakova. Sljedeći primjer zabranjuje svim pretraživačima da indeksiraju datoteke sa ekstenzijom “.php”: User-agent: * Disallow: *.php$
2. Zašto je to potrebno na kraju? znak $? Činjenica je da se, prema logici kompajliranja datoteke robots.txt, na kraju svake direktive dodaje zadana zvjezdica (nije tu, ali izgleda da postoji). Na primjer, pišemo: Disallow: /images
  Podrazumijevajući da je ovo isto kao:
  Disallow: /images*
  One. ovo pravilo zabranjuje indeksiranje svih fajlova (web stranica, slika i drugih tipova fajlova) čija adresa počinje sa /images, a zatim sledi bilo šta (vidi primer iznad). dakle, simbol $ jednostavno poništava zadanu zvjezdicu na kraju. Na primjer:
  Disallow: /images$
  Sprečava samo indeksiranje datoteke /images, ali ne i /images.html ili /images/primer.html. Pa, u prvom primjeru, zabranili smo indeksiranje samo datoteka koje završavaju na .php (koji imaju takvu ekstenziju), kako ne bismo uhvatili ništa nepotrebno:
  Disallow: *.php$

U mnogim mašinama, korisnici (ljudski čitljivi URL-ovi), dok sistemski generisani URL-ovi imaju znak pitanja "?" na adresi. Možete iskoristiti ovo i napisati sljedeće pravilo u robots.txt: Korisnički agent: * Disallow: /*?

Zvjezdica iza upitnika se nameće sama po sebi, ali, kako smo maloprije saznali, već se podrazumijeva na kraju. Stoga ćemo zabraniti indeksiranje stranica za pretraživanje i drugih servisnih stranica koje kreira motor, do kojih robot za pretraživanje može doći. Neće biti suvišno, jer znak pitanja CMS najčešće koristi kao identifikator sesije, što može dovesti do uvrštavanja duplikata u indeks.

Sitemap i Host direktive (za Yandex) u Robots.txt

Kako bi se izbjegli neugodni problemi sa zrcalima web mjesta, ranije je preporučeno da se robots.txt doda direktiva Host, koja je upućivala Yandex bot na glavno ogledalo.

Direktiva o hostu - označava glavno ogledalo stranice za Yandex

Na primjer, ranije ako ste još nisu prešli na siguran protokol, bilo je potrebno u Hostu navesti ne puni URL, već naziv domene (bez http://, tj..ru). Ako ste se već prebacili na https, tada ćete morati navesti puni URL (kao što je https://myhost.ru).

Predivan alat za borbu protiv duplog sadržaja - pretraživač jednostavno neće indeksirati stranicu ako je drugi URL registrovan u Canonical-u. Na primjer, za takvu stranicu mog bloga (stranica sa paginacijom), Canonical ukazuje na https://site i ne bi trebalo biti problema s dupliranjem naslova.

Ali skrećem pažnju...
Ako je vaš projekat kreiran na osnovu bilo kojeg motora, onda Doći će do duplog sadržaja sa velikom vjerovatnoćom, što znači da se morate boriti protiv toga, uključujući i uz pomoć zabrane u robots.txt, a posebno u meta oznaci, jer u prvom slučaju Google može zanemariti zabranu, ali više neće moći da je briga za meta tag (tako vaspitan).
Na primjer, u WordPressu, stranice sa vrlo sličnim sadržajem mogu biti indeksirane od strane pretraživača ako je dozvoljeno indeksiranje sadržaja kategorije, sadržaja arhive oznaka i sadržaja privremenog arhiva. Ali ako, koristeći gore opisanu meta oznaku Robots, kreirate zabranu arhive oznaka i privremene arhive (možete ostaviti oznake i zabraniti indeksiranje sadržaja kategorija), tada neće doći do dupliciranja sadržaja. Kako to učiniti opisano je na linku datom gore (na dodatak OlInSeoPak)
Da rezimiramo, reći ću da je datoteka Robots namijenjena postavljanju globalnih pravila za zabranu pristupa cijelim direktorijima stranice, odnosno datotekama i folderima čija imena sadrže određene znakove (po maski). Primjere postavljanja takvih zabrana možete vidjeti odmah iznad.
Pogledajmo sada konkretne primjere robota dizajniranih za različite mašine - Joomla, WordPress i SMF. Naravno, sve tri opcije kreirane za različite CMS će se značajno (ako ne i radikalno) razlikovati jedna od druge. Istina, svi će imati jednu zajedničku stvar, a ovaj trenutak je povezan s tražilicom Yandex.
Jer U RuNetu Yandex ima prilično veliku težinu, tada moramo uzeti u obzir sve nijanse njegovog rada, a ovdje Host direktiva će pomoći. Ovom pretraživaču će eksplicitno naznačiti glavno ogledalo vaše stranice.
Za to se preporučuje korištenje zasebnog bloga User-agent, namijenjenog samo Yandexu (User-agent: Yandex). To je zbog činjenice da drugi pretraživači možda ne razumiju Host i, shodno tome, njegovo uključivanje u zapis User-agent namijenjen svim pretraživačima (User-agent: *) može dovesti do negativnih posljedica i pogrešnog indeksiranja.
Teško je reći kakva je situacija zaista, jer su algoritmi pretraživanja stvar za sebe, pa je bolje učiniti kako vam je savjetovano. Ali u ovom slučaju, morat ćemo duplicirati u User-agent: Yandex direktivi sva pravila koja postavljamo User-agent: *. Ako ostavite User-agent: Yandex s praznim Disallow:, tada ćete na ovaj način dopustiti Yandexu da ode bilo gdje i prevuče sve u indeks.
Roboti za WordPress
Neću davati primjer datoteke koju preporučuju programeri. Možete ga i sami gledati. Mnogi blogeri uopće ne ograničavaju Yandex i Google botove u svojim šetnjama kroz sadržaj WordPress motora. Najčešće na blogovima možete pronaći robote koji se automatski popunjavaju dodatkom.
Ali, po mom mišljenju, ipak bismo trebali pomoći potrazi u teškom zadatku prosijavanja pšenice od kukolja. Prvo, Yandex i Google botovima će trebati dosta vremena da indeksiraju ovo smeće, a možda neće ostati vremena za dodavanje web stranica s vašim novim člancima u indeks. Drugo, botovi koji puze kroz fajlove motora smeća će stvoriti dodatno opterećenje na serveru vašeg hosta, što nije dobro.
Možete sami vidjeti moju verziju ovog fajla. Star je i dugo nije menjan, ali se trudim da se držim principa „ne popravljaj ono što nije pokvareno“, a na vama je da odlučite: upotrebite ga, napravite svoj ili ukradete neko drugi. Takođe sam donedavno imao zabranu indeksiranja stranica sa paginacijom (Disallow: */page/), ali sam je nedavno uklonio, oslanjajući se na Canonical, o čemu sam pisao gore.
Ali generalno, jedini ispravan fajl jer WordPress vjerovatno ne postoji. Možete, naravno, u njega implementirati bilo koje preduslove, ali ko je rekao da će oni biti tačni. Postoji mnogo opcija za idealne robots.txt na Internetu.
Daću dva ekstrema:
možete pronaći megafajl sa detaljnim objašnjenjima (simbol # odvaja komentare koje bi bilo bolje obrisati u stvarnom fajlu): User-agent: * # opća pravila za robote, osim Yandexa i Googlea, # jer za njih su pravila ispod Disallow: /cgi-bin # folder na hostingu Disallow: /? # svi parametri zahtjeva na glavnoj stranici Disallow: /wp- # svi WP fajlovi: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # ako postoji poddirektorij /wp/ gdje CMS je instaliran (ako nije, # pravilo se može izbrisati) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # arhiva autora Disallow: /users/ # arhiva autora Disallow: */ trackback # trackbacks, obavještenja u komentarima o pojavljivanju otvorenog # linka na članak Disallow: */feed # svi feedovi Disallow: */rss # rss feed Disallow: */embed # sve ugradnje Disallow : */wlwmanifest.xml # manifest xml datoteka Windows Live Writer (ako ga ne koristite, # pravilo se može izbrisati) Disallow: /xmlrpc.php # WordPress API datoteka Disallow: *utm= # veze sa utm tagovima Disallow : *openstat= # linkovi sa openstat tagovima Dozvoli: */uploads # otvorite folder sa fajlovima uploads User-agent: GoogleBot # pravila za Google (ne dupliram komentare) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Dozvoli: */uploads Dozvoli: /*/*.js # otvorite js skripte unutar /wp - (/*/ - za prioritet) Dozvoli: /*/*.css # otvori css datoteke unutar /wp- (/*/ - za prioritet) Dozvoli: /wp-*.png # slike u dodacima, keš folderu itd. Dozvoli: /wp-*.jpg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.jpeg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.gif # slike u dodacima, keš folderu, itd. Dozvoli: /wp-admin/admin-ajax.php # koriste dodaci kako ne bi blokirali JS i CSS Korisnički agent: Yandex # pravila za Yandex (ne dupliram komentare) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Dozvoli: */uploads Dozvoli: /*/*.js Dozvoli: /*/*.css Dozvoli: /wp-*.png Dozvoli: /wp-*.jpg Dozvoli: /wp-*.jpeg Dozvoli: /wp-*.gif Dozvoli: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex preporučuje ne blokiranje # od indeksiranja, već brisanje tag parametri, # Google ne podržava takva pravila Clean-Param: openstat # slično # Navedite jednu ili više datoteka Sitemap (nema potrebe za dupliranjem za svaki User-agent #). Google XML Sitemap kreira 2 sitemapa kao u primjeru ispod. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Navedite glavno ogledalo stranice, kao u primjeru ispod (sa WWW / bez WWW-a, ako HTTPS # zatim napišite protokol, ako trebate navesti port, navedite ga). Naredbu Host razumiju # Yandex i Mail.RU, Google je ne uzima u obzir. Domaćin: www.site.ru
Ali možete koristiti primjer minimalizma: User-agent: * Disallow: /wp-admin/ Dozvoli: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site. ru/sitemap.xml

Istina je vjerovatno negdje na sredini. Također, ne zaboravite dodati Robots meta tag za "dodatne" stranice, na primjer, koristeći divan dodatak - . Takođe će vam pomoći da postavite Canonical.
Ispravi robots.txt za Joomla
Korisnički agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /biblioteke/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
U principu, ovdje se uzima u obzir gotovo sve i dobro funkcionira. Jedina stvar je da biste trebali dodati zasebno User-agent: Yandex pravilo da biste umetnuli Host direktivu, koja definira glavni ogledalo za Yandex, a također odredite putanju do datoteke Sitemap.
Stoga bi u svom konačnom obliku ispravni roboti za Joomla, po mom mišljenju, trebali izgledati ovako:
Korisnički agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Disallow: /index.php Host: vash_sait.ru (ili www.vash_sait.ru) Korisnički agent: * Dozvoli: /*.css?*$ Dozvoli: /*.js?*$ Dozvoli: /* .jpg?*$ Dozvoli: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://puta do vaše mape XML formata
Da, također imajte na umu da u drugoj opciji postoje direktive Dozvoli, dozvoljavajući indeksiranje stilova, skripti i slika. Ovo je napisano posebno za Google, jer se njegov Googlebot ponekad žali da je indeksiranje ovih fajlova, na primjer, iz foldera s korištenom temom, zabranjeno u robotima. On čak prijeti da će sniziti svoj rang zbog toga.
Stoga dozvoljavamo da se cijela ova stvar unaprijed indeksira pomoću Allow. Usput, ista stvar se dogodila u primjeru datoteke za WordPress.

Sretno ti! Vidimo se uskoro na stranicama blog stranice
Možda ste zainteresovani
Domene sa i bez www - istorija njihovog pojavljivanja, upotreba 301 preusmjeravanja da ih zalijepimo
Ogledala, duple stranice i Url adrese - revizija Vaše web stranice ili šta bi mogao biti uzrok neuspjeha tokom njene SEO promocije SEO za početnike: 10 glavnih tačaka tehničke revizije web stranice
Bing webmaster - centar za webmastere iz Bing pretraživača
Google webmaster - alati Search Console (Google Webmaster)
Kako izbjeći uobičajene greške prilikom promocije web stranice
Kako sami promovirati web stranicu poboljšanjem interne optimizacije ključnih riječi i uklanjanjem dupliciranog sadržaja
Yandex Webmaster - indeksiranje, veze, vidljivost stranice, odabir regije, autorstvo i provjera virusa u Yandex Webmasteru

Robots.txt je tekstualna datoteka koja sadrži parametre indeksiranja web stranica za robote pretraživača.

Yandex podržava sljedeće direktive:

Direktiva	Šta on radi
Korisnički agent *
Disallow
Sitemap
Clean-param
Dopustiti
Puzanje-kašnjenje

Direktiva	Šta on radi
Korisnički agent *	Označava robota za kojeg se primjenjuju pravila navedena u robots.txt.
Disallow	Zabranjuje indeksiranje sekcija ili pojedinačnih stranica stranice.
Sitemap	Određuje putanju do datoteke Sitemap koja se nalazi na web lokaciji.
Clean-param	Ukazuje robotu da URL stranice sadrži parametre (na primjer, UTM oznake) koje ne treba uzeti u obzir prilikom indeksiranja.
Dopustiti	Omogućava indeksiranje sekcija ili pojedinačnih stranica stranice.
Puzanje-kašnjenje	Postavlja minimalni vremenski period (u sekundama) za robota između završetka učitavanja jedne stranice i početka učitavanja sljedeće.

* Obavezna direktiva.

Najčešće direktive koje vam mogu zatrebati su Disallow, Sitemap i Clean-param. Na primjer:

User-agent: * #specificiraj za koje su direktive robota instalirane\nZabrani: /bin/ # zabranjuje linkove iz \"Kopa za kupovinu\".\nZabrani: /pretraži/ # zabranjuje linkove na stranice ugrađene u web stranicu za pretraživanje\nZabrani: /admin / # zabranjuje linkove sa administrativnog panela\nSitemap: http://example.com/sitemap # usmjerite robota na datoteku mape web lokacije\nClean-param: ref /some_dir/get_book.pl

Roboti drugih pretraživača i servisa mogu drugačije tumačiti direktive.

Bilješka. Robot uzima u obzir velika i mala slova pri pisanju podnizova (ime ili putanja do datoteke, ime robota) i ne uzima u obzir velika i mala slova u nazivima direktiva.

Koristeći ćirilično pismo

Upotreba ćirilice je zabranjena u datoteci robots.txt i HTTP zaglavljima servera.

Robots.txt je tekstualna datoteka koja sadrži parametre indeksiranja stranice za robote tražilice.

Preporuke o sadržaju datoteke

Yandex podržava sljedeće direktive:

Direktiva	Šta radi
Korisnički agent *
Disallow
Sitemap
Clean-param
Dopustiti
Puzanje-kašnjenje

Direktiva	Šta radi
Korisnički agent *	Označava robota na kojeg se primjenjuju pravila navedena u robots.txt.
Disallow	Zabranjuje indeksiranje sekcija sajta ili pojedinačnih stranica.
Sitemap	Određuje putanju do datoteke Sitemap koja je objavljena na web lokaciji.
Clean-param	Ukazuje robotu da URL stranice sadrži parametre (kao što su UTM oznake) koje treba zanemariti prilikom indeksiranja.
Dopustiti	Omogućava indeksiranje sekcija web mjesta ili pojedinačnih stranica.
Puzanje-kašnjenje	Određuje minimalni interval (u sekundama) da robot za pretragu čeka nakon učitavanja jedne stranice, prije nego što počne učitavati drugu.

* Obavezna direktiva.

Najčešće će vam trebati direktive Disallow, Sitemap i Clean-param. Na primjer:

Korisnički agent: * # navedite robote za koje su direktive postavljene za Disallow: /bin/ # onemogućava veze iz korpe. Disallow: /search/ # onemogućava linkove stranice za pretragu ugrađene na sajt Disallow: /admin/ # onemogućava veze sa admin panela Sitemap: http://example.com/sitemap # navedite za robota fajl mape sajta Clean-param: ref /some_dir/get_book.pl

Roboti iz drugih pretraživača i servisa mogu tumačiti direktive na drugačiji način.robots.txt datoteku da bi robot uzeo u obzir, mora se nalaziti u korijenskom direktoriju stranice i odgovoriti HTTP 200 kodom. Robot za indeksiranje ne podržava upotrebu datoteka koje se nalaze na drugim stranicama.

Pomoću alata možete provjeriti odgovor servera i dostupnost robots.txt robotu.

Ako vaša datoteka robots.txt preusmjerava na drugu datoteku robots.txt (na primjer, kada premještate web lokaciju), dodajte ciljno mjesto za preusmjeravanje na Yandex.Webmaster i provjerite prava za upravljanje ovom web lokacijom.

Yandex roboti. Kako urediti robots txt fajl Šta treba da bude robots txt fajl?

Čemu služi robots.txt?

Kako napraviti robots.txt

Postavljanje pravila

Sintaksa datoteke

Direktiva korisnik-agent

Disallow i Allow direktive

Sitemap, Host direktive

Clean-param direktiva

Direktiva odgode puzanja

Robots.txt greške

Osnovne direktive za robots txt datoteku

Zabrana i dopuštanje indeksiranja web mjesta: direktive Disallow i Allow

Host direktiva: kako odrediti glavni domen stranice

Direktiva o kašnjenju indeksiranja: kako postaviti interval učitavanja stranice

Robots.txt - direktiva korisničkog agenta i botovi pretraživača

Korisnički agent

Naziv robota pretraživača i njihova uloga u datoteci robots.txt

Primjeri korištenja direktiva Disallow i Allow u robots.txt

Sitemap i Host direktive (za Yandex) u Robots.txt

Direktiva o hostu - označava glavno ogledalo stranice za Yandex

Roboti za WordPress

Ispravi robots.txt za Joomla

Koristeći ćirilično pismo

Preporuke o sadržaju datoteke

Najbolji članci na ovu temu