Šta je napisano u robot txt datoteci. Format i izgled

11.05.2019 Savjet

Kako konfigurirati ispravno indeksiranje stranice od strane robota za pretraživanje? Kako blokirati pristup robotima koji indeksiraju tehničkim stranicama?

Datoteka robots.txt ograničava pristup robota za pretraživanje datotekama na serveru - datoteka sadrži upute za indeksiranje robota. Robot za pretraživanje provjerava mogućnost indeksiranja sljedeće stranice stranice - da li postoji odgovarajući izuzetak. Da bi roboti za pretraživanje imali pristup robots.txt, on mora biti dostupan u korijenu stranice na adresi mysite.ru/robots.txt .

Primjer pun pristup za indeksiranje stranica bez ograničenja:

Korisnički agent: *
Dopustiti: /

Primjena u SEO-u

Prema zadanim postavkama, roboti za pretraživanje indeksiraju sve stranice na web lokaciji kojoj imaju pristup. Dođite do stranice robot za pretragu možda sa mape sajta, linka na drugoj stranici, prisutnosti saobraćaja na datoj stranici itd. Ne bi se sve stranice koje je pronašao robot za pretragu trebale prikazati u rezultatima pretrage.

Datoteka robots.txt vam omogućava da blokirate indeksiranje duplikata stranica, tehničkih datoteka, filtriranja i pretraživanja stranica. Bilo koja stranica na stranici može se zatvoriti od indeksiranja ako je potrebno.

Pravila sintakse robots.txt

Logika i struktura robots file.txt se mora striktno pridržavati i ne sadrži nepotrebne podatke:

Svaka nova direktiva počinje u novom redu.
Na početku reda ne bi trebalo biti razmaka.
Sve vrijednosti jedne direktive moraju biti postavljene u isti red.
Nemojte koristiti navodnike za parametre direktive.
Nemojte koristiti zareze ili zareze za određivanje parametara.
Svi komentari su napisani iza simbola #.
Prazan red označava kraj trenutnog korisničkog agenta.
Svaka direktiva zatvaranja ili otvaranja indeksiranja sadrži samo jedan parametar.
Ime datoteke mora biti napisano velikim slovima, Robots.txt ili ROBOTS.TXT datoteke su druge datoteke i roboti za pretraživanje ih ignoriraju.
Ako se direktiva odnosi na kategoriju, tada je naziv kategorije formatiran kosim crtama “/categorya/”.
Veličina datoteke robots.txt ne bi trebala prelaziti 32 kb, inače se tumači kao da dozvoljava da se sve indeksira.
Smatra se da prazna datoteka robots.txt omogućava indeksiranje cijele stranice.
Ako navedete nekoliko korisničkih agenata bez praznog reda između njih, samo će prvi biti obrađen

Provjera robots.txt

Pretraživači Yandex i Google omogućavaju provjeru ispravnosti robots.txt:

U Webmaster.Yandex - analiza robots.txt.
IN Google pretraga konzola- veza, prvo morate dodati stranicu u sistem.

Primjeri postavki robots.txt

Prvi red u robots.txt je direktiva koja pokazuje za kojeg robota su napisani izuzeci.

Direktiva korisnik-agent

# Svi roboti za skeniranje
Korisnički agent: *
# Svi Yandex roboti
Korisnički agent: Yandex
# Glavni Yandex robot za indeksiranje
Korisnički agent: YandexBot
# Svi Google roboti
Korisnički agent: Googlebot

Sve direktive koje slijede User-agent primjenjuju se samo na navedenog robota. Da biste specificirali podatke drugom robotu, trebali biste ponovo napisati direktivu User-agent. Primjer sa više korisničkih agenata:

Korištenje više korisničkih agenata

# Koristiće ga glavni Yandex robot
Korisnički agent: YandexBot
Disallow: *request_* # Koristit će ga svi Google roboti
Korisnički agent: Googlebot
Disallow: *elem_id* # Koristiće ga svi Mail.ru roboti
Korisnički agent: Mail.Ru
Dozvoli: *SORT_*

Odmah nakon navođenja User-agenta, trebate napisati upute za odabranog robota. Ne možete specificirati prazne pojmove između naredbi u robots.txt, to neće biti ispravno shvaćeno od strane robota koji indeksiraju.

Dopuštajuće i zabranjujuće direktive

Da biste zabranili indeksiranje, koristite direktivu "Disallow", da biste omogućili indeksiranje "Allow":

Korisnički agent: *
Dozvoli: /abc/
Disallow: /blog/

Navedena je dozvola za indeksiranje /abc/ sekcije i zabrana indeksiranja /bloga/. Prema zadanim postavkama, sve stranice web-mjesta su dozvoljene za indeksiranje i nema potrebe za specificiranjem direktive Allow za sve mape. Direktiva Allow je potrebna kada otvarate pododjeljak za indeksiranje. Na primjer, otvorite indeksiranje za pododjeljak sa komprimiranim slikama, ali ne otvarajte pristup drugim datotekama u mapi:

Korisnički agent: *
Disallow: /upload/
Dozvoli: /upload/resize_image/

Bitan je redosled kojim su direktive napisane. Prvo se cijeli folder zatvara od indeksiranja, a zatim se otvara njegov pododjeljak.

Zabrana indeksiranja - Disallow

Direktiva za zabranu skeniranja je Disallow; indeksiranje je zabranjeno ovisno o parametrima navedenim u direktivi.

Potpuna zabrana indeksiranja

Korisnički agent: *
Disallow: /

Svi roboti blokiraju web lokaciju od puzanja.

Postoji Posebni simboli"*" i "$", koji omogućavaju finiju kontrolu indeksiranja:

Disallow: /cat*
Disallow: /cat

Simbol zvjezdice označava bilo koji broj bilo kojeg simbola koji može uslijediti. Druga direktiva ima isto značenje.

Disallow: *section_id*

Onemogućuje indeksiranje svih URL-ova na kojima se pojavljuje vrijednost unutar zvjezdica.

Disallow: /section/

Blokira indeksiranje odjeljka i svih priloženih datoteka i pododjeljaka.

Dozvola za indeksiranje - Dozvoli

Svrha direktive Allow je otvaranje URL-ova koji ispunjavaju uslov za indeksiranje. Sintaksa Allow je slična sintaksi Disallow.

Korisnički agent: *
Disallow: /
Dozvoli: /fuf/

Cijeli sajt je zatvoren od indeksiranja, osim /fuf/ sekcije.

Direktiva o hostu

Ova direktiva je potrebna za robote Yandex pretraživača. Označava glavno ogledalo stranice. Ako je stranica dostupna na nekoliko domena, to omogućava tražilici da identificira duplikate i ne uključi ih u indeks pretraživanja.

Korisnički agent: *
Disallow: /bitrix/
Domaćin: mysite.ru

U datoteci robots.txt, direktiva Host bi se trebala koristiti samo jednom; naknadne upute se zanemaruju.

Ako web lokacija radi korištenjem sigurnog https protokola, tada trebate navesti domenu s punom adresom:

Korisnički agent: *
Disallow: /bitrix/
Host: https://domain.ru

Sitemap Directive

Da biste ubrzali indeksiranje stranica web stranice, možete poslati mapu web-lokacije u xml formatu robotima za pretraživanje. Direktiva Sitemap navodi adresu na kojoj je mapa sajta dostupna za preuzimanje.

Korisnički agent: *
Disallow: /bitrix/
Mapa sajta: http://domain.ru/sitemap.xml

Isključujući stranice sa dinamičkim parametrima

Direktiva Clean-param vam omogućava da se bavite dinamičkim dupliranim stranicama kada se sadržaj stranice ne promijeni, ali dodavanje parametra Get čini URL jedinstvenim. Kada sastavljate direktivu, prvo navedite naziv parametra, a zatim opseg ove direktive:

Clean-param: get1[&get2&get3&get4&..&getN] [Putanja]

Jednostavan primjer za stranicu http://domain.ru/catalog/?&get1=1&get2=2&get3=3. Direktiva će izgledati ovako:

Clean-param: get1&get2&get3 /katalog/

Ova direktiva će raditi za /katalog/ odeljak; možete odmah podesiti efekat direktive na celom sajtu:

Clean-param: get1&get2&get3 /

Smanjenje opterećenja - Kašnjenje puzanja

Ako server ne može izdržati česte zahtjeve robota za pretraživanje, onda će direktiva o kašnjenju indeksiranja pomoći smanjiti opterećenje servera. Yandex pretraživač podržava ovu direktivu od 2008.

Korisnički agent: *
Zabraniti: /traži/
Kašnjenje puzanja: 4

Pokretač će napraviti jedan zahtjev, zatim pričekati 4 sekunde i ponovo napraviti zahtjev.

Tipičan robots.txt za web lokaciju na Bitrixu

U zaključku, punopravna datoteka robots.txt za 1C-Bitrix sistem, koja uključuje sve standardne odjeljke:

Korisnički agent: *
Disallow: /bitrix/
Disallow: /admin/
Disallow: /auth/
Disallow: /osobno/
Disallow: /cgi-bin/
Zabraniti: /traži/
Disallow: /upload/
Dozvoli: /upload/resize_cache/
Dozvoli: /upload/iblock/
Disallow: *bxajaxid*
Mapa sajta: http://domain.ru/sitemap.xml
Host: domain.ru

Jedna od faza optimizacije sajta za pretraživače je kompajliranje datoteke robots.txt. Korišćenjem ovaj fajl Možete spriječiti neke ili sve robote za pretraživanje da indeksiraju vašu web lokaciju ili određene njene dijelove koji nisu namijenjeni za indeksiranje. Konkretno, možete spriječiti da se duplirani sadržaj indeksira, kao što su verzije stranica za štampanje.

Prije početka indeksiranja, roboti za pretraživanje uvijek upućuju na datoteku robots.txt u korijenskom direktoriju vaše stranice, na primjer, http://site.ru/robots.txt, kako bi znali koji su dijelovi web stranice robotu zabranjeni od indeksiranja. Ali čak i ako nećete ništa zabraniti, ipak se preporučuje da kreirate ovu datoteku.

Kao što možete vidjeti iz proširenja robots.txt, ovo je tekstualnu datoteku. Za kreiranje ili uređivanje ove datoteke, bolje je koristiti najjednostavnije uređivače teksta kao što je Notepad. robots.txt mora biti smješten u korijenskom direktoriju stranice i ima sopstveni format, koje ćemo pogledati u nastavku.

Format datoteke Robots.txt

Datoteka robots.txt mora sadržavati najmanje dva potrebna unosa. Prva je direktiva User-agent koja pokazuje koji robot za pretragu treba da prati sledeća uputstva. Vrijednost može biti ime robota (googlebot, Yandex, StackRambler) ili simbol * ako pristupate svim robotima odjednom. Na primjer:

Korisnički agent: googlebot

Naziv robota možete pronaći na web stranici odgovarajuće tražilice. Zatim bi trebala postojati jedna ili više Disallow direktiva. Ove direktive govore robotu koje datoteke i foldere nije dozvoljeno indeksirati. Na primjer, sledeći redovi spriječiti robote da indeksiraju datoteku feedback.php i cgi-bin direktorij:

Disallow: /feedback.php Disallow: /cgi-bin/

Također možete koristiti samo početne znakove datoteka ili foldera. Red Disallow: /forum zabranjuje indeksiranje svih fajlova i fascikli u korenu sajta čije ime počinje sa forum, na primer, fajl http://site.ru/forum.php i folder http://site. ru/forum/ sa svim sadržajem. Ako je Disallow prazan, to znači da robot može indeksirati sve stranice. Ako je vrijednost Disallow simbol /, to znači da je čitava web stranica zabranjena za indeksiranje.

Za svako polje User-agent mora postojati barem jedno Disallow polje. Odnosno, ako nećete ništa zabraniti za indeksiranje, onda bi datoteka robots.txt trebala sadržavati sljedeće unose:

Korisnički agent: * Disallow:

Dodatne direktive

Osim regularni izrazi Yandex i Google dozvoljavaju upotrebu direktive Allow, koja je suprotna od Disallow, odnosno označava koje stranice mogu biti indeksirane. IN sljedeći primjer Yandexu je zabranjeno da indeksira sve osim adresa stranica koje počinju sa /articles:

Korisnički agent: Yandex Dozvoli: /articles Disallow: /

U ovom primjeru, direktiva Allow mora biti napisana prije Disallow, inače će Yandex ovo shvatiti kao potpunu zabranu indeksiranja stranice. Prazna direktiva Allow također potpuno onemogućuje indeksiranje stranice:

Korisnički agent: Yandex Dozvoli:

ekvivalentno

Korisnički agent: Yandex Disallow: /

Nestandardne direktive moraju biti specificirane samo za one pretraživače koji ih podržavaju. Inače robot ne razumije ovaj unos možda neće ispravno obraditi njega ili cijelu datoteku robots.txt. Više informacija o dodatnim direktivama i općenito o razumijevanju naredbi u datoteci robots.txt od strane pojedinačnog robota može se pronaći na web stranici odgovarajuće tražilice.

Regularni izrazi u robots.txt

Većina tražilice uzeti u obzir samo eksplicitno navedena imena datoteke i mape, ali postoje i napredniji pretraživači. Google Robot i Yandex Robot podržavaju upotrebu jednostavnih regularnih izraza u robots.txt, što značajno smanjuje količinu posla za webmastere. Na primjer, sljedeće naredbe onemogućuju Google robot indeksiraj sve datoteke sa ekstenzijom .pdf:

Korisnički agent: googlebot Disallow: *.pdf$

U gornjem primjeru, * je bilo koji niz znakova, a $ označava kraj veze.

Korisnički agent: Yandex Dozvoli: /articles/*.html$ Disallow: /

Gore navedene direktive dozvoljavaju Yandexu da indeksira samo datoteke sa ekstenzijom ".html" koje se nalaze u folderu /articles/. Sve ostalo je zabranjeno za indeksiranje.

Mapa sajta

Možete odrediti lokaciju XML sitemapa u datoteci robots.txt:

Korisnički agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Ako imate jako veliki broj stranica na vašoj web lokaciji i morali ste podijeliti sitemap na dijelove, tada morate navesti sve dijelove mape u datoteci robots.txt:

Korisnički agent: Yandex Disallow: Mapa sajta: http://mysite.ru/my_sitemaps1.xml Mapa sajta: http://mysite.ru/my_sitemaps2.xml

Site mirrors

Kao što znate, obično se istom sajtu može pristupiti na dve adrese: i sa www i bez njega. Za robota za pretragu, site.ru i www.site.ru su različite stranice, ali sa istim sadržajem. Zovu se ogledala.

Zbog činjenice da postoje veze ka stranicama stranice i sa i bez www, težina stranica se može podijeliti između www.site.ru i site.ru. Da se to ne bi dogodilo, pretraživač treba da naznači glavno ogledalo stranice. Kao rezultat "lijepljenja", sva težina će pripadati jednom glavnom ogledalu i stranica će moći zauzeti višu poziciju u Rezultati pretrage.

Možete odrediti glavno ogledalo za Yandex direktno u datoteci robots.txt koristeći Host direktivu:

Korisnički agent: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Host: www.site.ru

Nakon lijepljenja, ogledalo www.site.ru će imati svu težinu i zauzet će višu poziciju u rezultatima pretraživanja. I tražilica uopće neće indeksirati site.ru.

Za druge pretraživače, izbor glavnog ogledala je trajno preusmeravanje na strani servera (šifra 301) sa dodatnih ogledala na glavno. Ovo se radi pomoću datoteke .htaccess i modula mod_rewrite. Da biste to učinili, stavite .htaccess datoteku u korijen stranice i tamo napišite sljedeće:

RewriteEngine On Opcije +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Kao rezultat toga, svi zahtjevi sa site.ru ići će na www.site.ru, odnosno site.ru/page1.php će biti preusmjereni na www.site.ru/page1.php.

Metoda preusmjeravanja će raditi za sve pretraživače i pretraživače, ali se i dalje preporučuje dodavanje direktive Host u datoteku robots.txt za Yandex.

Komentari u robots.txt

Također možete dodati komentare u datoteku robots.txt - oni počinju simbolom # i završavaju se novim redom. Komentare je preporučljivo pisati u posebnom redu, ili ih je bolje uopće ne koristiti.

Primjer korištenja komentara:

User-agent: StackRambler Disallow: /garbage/ # nema ništa korisno u ovoj fascikli Disallow: /doc.xhtml # i na ovoj stranici # i svi komentari u ovoj datoteci su takođe beskorisni

Primjeri datoteka robots.txt

1. Dozvolite svim robotima da indeksiraju sve dokumente stranice:

Korisnički agent: * Disallow:
Korisnički agent: * Disallow: /

3. Zabranjujemo robota Google pretraživač indeksirajte datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Dozvoljavamo svim robotima da indeksiraju cijelu stranicu i zabranjujemo robotu Yandex tražilice da indeksira datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru Korisnički agent: * Disallow:

5. Dozvoljavamo svim robotima da indeksiraju cijelu stranicu, a Yandex robotu dozvoljavamo da indeksira samo dio stranice namijenjen za njega:

Korisnički agent: Yandex Dozvoli: /yandex Disallow: / Host: www.site.ru Korisnički agent: * Disallow:

Prazne linije razdvajaju ograničenja za različite robote. Svaki blok ograničenja mora početi redom s poljem User-Agent, koji označava robota na kojeg se primjenjuju ova pravila indeksiranja web mjesta.

Uobičajene greške

To je potrebno uzeti u obzir prazan red u datoteci robots.txt je separator između dva unosa za različite robote. Također ne možete specificirati više direktiva u jednoj liniji. Kada sprječavaju indeksiranje datoteke, webmasteri često izostavljaju / ispred naziva datoteke.

Nema potrebe da u robots.txt navedete zabranu indeksiranja sajta za razni programi, koji su dizajnirani za potpuno preuzimanje stranice, na primjer, TeleportPro. Ni programi za preuzimanje ni pretraživači nikada ne gledaju ovu datoteku i ne izvršavaju uputstva koja su tamo zapisana. Namijenjen je isključivo pretraživačima. Također ne biste trebali blokirati admin panel svoje stranice u robots.txt, jer ako nigdje ne postoji link do njega, onda neće biti indeksiran. Samo ćete otkriti lokaciju admin područja ljudima koji ne bi trebali znati za to. Također je vrijedno zapamtiti da pretraživač robots.txt koji je prevelik može zanemariti. Ako imate previše stranica koje nisu namijenjene za indeksiranje, onda je bolje da ih jednostavno uklonite sa stranice ili ih premjestite u poseban direktorij i spriječite indeksiranje ovog direktorija.

Provjera grešaka u fajlu robots.txt

Obavezno provjerite kako pretraživači razumiju vašu datoteku robota. Za provjeru Google-a možete koristiti Google alati za webmastere. Ako želite saznati kako Yandex razumije vašu datoteku robots.txt, možete koristiti uslugu Yandex.Webmaster. To će vam omogućiti da na vrijeme ispravite sve greške. Također na stranicama ovih servisa možete pronaći preporuke za kreiranje datoteke robots.txt i mnoge druge korisne informacije.

Kopiranje članka je zabranjeno.

Prvo ću vam reći šta je robots.txt.

Robots.txt– fajl koji se nalazi u root folderu sajta na kojem su registrovani specialne instrukcije za robote za pretragu. Ove upute su neophodne kako robot prilikom ulaska na stranicu ne bi uzeo u obzir stranicu/odjeljak, drugim riječima, zatvorili stranicu iz indeksiranja.

Zašto nam treba robots.txt?

Datoteka robots.txt smatra se ključnim zahtjevom za SEO optimizaciju apsolutno bilo koje web stranice. Nedostatak ove datoteke može negativno utjecati na opterećenje robota i sporo indeksiranje, a osim toga, stranica neće biti u potpunosti indeksirana. Shodno tome, korisnici neće moći pristupiti stranicama putem Yandexa i Googlea.

Utjecaj robots.txt na pretraživače?

Pretraživači(V Google funkcije) će indeksirati stranicu, ali ako nema datoteke robots.txt, onda, kao što sam rekao, ne sve stranice. Ako postoji takva datoteka, onda se roboti rukovode pravilima koja su navedena u ovoj datoteci. Štoviše, postoji nekoliko vrsta robota za pretraživanje; neki mogu uzeti u obzir pravilo, dok ga drugi zanemaruju. Konkretno, robot GoogleBot ne uzima u obzir direktive Host i Crawl-Delay, robot YandexNews je nedavno prestao da uzima u obzir direktivu Crawl-Delay, a roboti YandexDirect i YandexVideoParser zanemaruju općenito prihvaćene direktive u robots.txt (ali uzeti u obzir one koji su napisani posebno za njih).

Stranica se najviše učitava od strane robota koji učitavaju sadržaj sa vaše stranice. Shodno tome, ako kažemo robotu koje stranice da indeksira, a koje da ignoriše, kao i u kojim vremenskim intervalima da učitava sadržaj sa stranica (ovo se više odnosi na velike sajtove koji imaju više od 100.000 stranica u indeksu pretraživača). To će robotu znatno olakšati indeksiranje i preuzimanje sadržaja sa stranice.

Datoteke koje su nepotrebne pretraživačima uključuju datoteke koje pripadaju CMS-u, na primjer, u Wordpress-u – /wp-admin/. Osim toga, ajax, json skripte odgovorne za iskačuće forme, banere, captcha izlaz i tako dalje.

Za većinu robota također preporučujem zatvaranje svega od indeksiranja Javascript fajlovi i CSS. Ali za GoogleBot i Yandex, bolje je indeksirati takve datoteke, jer ih pretraživači koriste za analizu pogodnosti stranice i njenog rangiranja.

Šta je direktiva robots.txt?

Direktive– ovo su pravila za robote za pretraživanje. Prvi standardi za pisanje robots.txt i, shodno tome, pojavili su se 1994. godine, a prošireni standard 1996. godine. Međutim, kao što već znate, ne podržavaju svi roboti određene direktive. Stoga sam u nastavku opisao čime se rukovode glavni roboti prilikom indeksiranja web stranica.

Šta znači korisnički agent?

Ovo je najvažnija direktiva koja određuje koji će roboti za pretraživanje slijediti daljnja pravila.

Za sve robote:

Za određenog bota:

Korisnički agent: Googlebot

Registar u robots.txt nije važan, možete pisati i Googlebot i googlebot

Google roboti za pretragu

Yandex roboti za pretragu


	Yandexov glavni robot za indeksiranje
	Koristi se u usluzi Yandex.Images
	Koristi se u usluzi Yandex.Video
	Multimedijalni podaci
	Pretraga blogova
	Robot za pretraživanje koji pristupa stranici kada je dodaje putem obrasca „Dodaj URL“.
	robot koji indeksira ikone web stranice (favicons)
	Yandex.Direct
	Yandex.Metrica
	Koristi se u usluzi Yandex.Catalog
	Koristi se u usluzi Yandex.News
YandexImageResizer	Robot za pretragu mobilnih usluga

Roboti za pretragu Bing, Yahoo, Mail.ru, Rambler

Disallow i Allow direktive

Disallow blokira indeksiranje odjeljaka i stranica vaše web stranice. Shodno tome, Allow ih, naprotiv, otvara.

Postoje neke posebnosti.

prvo, dodatni operateri- *, $ i #. Za šta se koriste?

“*” – ovo je bilo koji broj znakova i njihovo odsustvo. Podrazumevano, već je na kraju reda, tako da nema smisla ponovo ga stavljati.

“$” – označava da bi lik prije trebao biti posljednji.

“#” – komentar, robot ne uzima u obzir sve što dolazi nakon ovog simbola.

Primjeri korištenja Disallow:

Disallow: *?s=

Disallow: /kategorija/

U skladu s tim, robot za pretraživanje će zatvoriti stranice kao što su:

Ali stranice poput ove će biti otvorene za indeksiranje:

Sada morate razumjeti kako se izvršavaju pravila gniježđenja. Redosled kojim su direktive napisane je apsolutno važan. Nasljeđivanje pravila je određeno prema tome koji direktoriji su specificirani, odnosno ako želimo blokirati stranicu/dokument od indeksiranja, dovoljno je napisati direktivu. Pogledajmo primjer

Ovo je naš robots.txt fajl

Disallow: /template/

Ova direktiva se takođe može navesti bilo gde, a može se navesti i nekoliko fajlova mape sajta.

Direktiva hosta u robots.txt

Ova direktiva je neophodna za označavanje glavnog ogledala stranice (često sa ili bez www). Imajte na umu da je host direktiva navedena bez http protokol://, ali sa https:// protokolom. Direktivu uzimaju u obzir samo pretraživači Yandex i Mail.ru, a drugi roboti, uključujući GoogleBot, neće uzeti u obzir pravilo. Host treba jednom navesti u datoteci robots.txt

Primjer sa http://

Domaćin: website.ru

Primjer sa https://

Direktiva odgode puzanja

Postavlja vremenski interval za indeksiranje stranica web stranice od strane robota za pretraživanje. Vrijednost je prikazana u sekundama i milisekundama.

primjer:

Koristi se uglavnom na velikim internet prodavnicama, informativnim sajtovima, portalima, gde je posećenost sajta od 5.000 dnevno. Neophodno je da robot za pretraživanje izvrši zahtjev za indeksiranje u određenom vremenskom periodu. Ako ova direktiva nije navedena, može stvoriti ozbiljno opterećenje na serveru.

Optimalna vrijednost kašnjenja indeksiranja je različita za svaku lokaciju. Za pretraživače Mail, Bing, Yahoo, vrijednost se može podesiti na minimalnu vrijednost od 0,25, 0,3, pošto ovi roboti pretraživača mogu indeksirati vašu stranicu jednom mjesečno, 2 mjeseca i tako dalje (vrlo rijetko). Za Yandex je bolje postaviti višu vrijednost.

Ako je opterećenje vaše stranice minimalno, onda nema smisla specificirati ovu direktivu.

Clean-param direktiva

Pravilo je zanimljivo jer govori pretraživaču da stranice sa određenim parametrima ne moraju biti indeksirane. Propisana su 2 argumenta: URL stranice i parametar. Ovu direktivu podržava Yandex pretraživač.

primjer:

Disallow: /admin/

Disallow: /plugins/

Zabraniti: /traži/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Korisnički agent: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Zabraniti: /traži/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Dozvoli: /plugins/*.css

Dozvoli: /plugins/*.js

Dozvoli: /plugins/*.png

Dozvoli: /plugins/*.jpg

Dozvoli: /plugins/*.gif

Korisnički agent: Yandex

Disallow: /admin/

Disallow: /plugins/

Zabraniti: /traži/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Dozvoli: /plugins/*.css

Dozvoli: /plugins/*.js

Dozvoli: /plugins/*.png

Dozvoli: /plugins/*.jpg

Dozvoli: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

U primjeru smo zapisali pravila za 3 različita bota.

Gdje dodati robots.txt?

Dodano u korijenski folder stranice. Osim toga, tako da možete pratiti link:

Kako provjeriti robots.txt?

Yandex webmaster

Na kartici Alati odaberite Robots.txt Analiza, a zatim kliknite na provjeri

Google Search Console

Na kartici Skeniranje izabrati Alat za pregled datoteka Robots.txt a zatim kliknite na provjeri.

zaključak:

Datoteka robots.txt mora biti prisutna na svakoj web stranici koja se promovira, a samo njena ispravna konfiguracija će vam omogućiti da dobijete potrebno indeksiranje.

I na kraju, ako imate bilo kakvih pitanja, postavite ih u komentarima ispod članka i također se pitam, kako se piše robots.txt?

Ovaj članak sadrži primjer optimalnog, po mom mišljenju, koda za datoteku robots.txt za WordPress, koju možete koristiti na svojim web stranicama.

Za početak, prisjetimo se zašto vam treba robots.txt- datoteka robots.txt je potrebna isključivo za robote za pretraživanje kako bi im "rekao" koje sekcije/stranice stranice da posjete, a koje ne bi trebali posjetiti. Stranice koje su zatvorene od posjeta neće biti uključene u indeks pretraživača (Yandex, Google, itd.).

Opcija 1: Optimalni robots.txt kod za WordPress

Korisnički agent: * Disallow: /cgi-bin # classic... Disallow: /? # svi parametri upita na glavnoj stranici Disallow: /wp- # svi WP fajlovi: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # pretraga Disallow: /search # search Disallow: /author/ # arhiva autora Disallow: *?attachment_id= # stranica privitka. Zapravo, postoji preusmjeravanje na njemu... Disallow: */feed # all feeds Disallow: */rss # rss feed Disallow: */embed # all embeddings Disallow: */page/ # sve vrste paginacije Dozvoli: */ uploads # otvori uploads Dozvoli: /*/*.js # unutar /wp- (/*/ - za prioritet) Dozvoli: /*/*.css # unutar /wp- (/*/ - za prioritet) Dozvoli: /wp -*. png # slike u dodacima, keš folderu itd. Dozvoli: /wp-*.jpg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.jpeg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.gif # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.svg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.pdf # datoteke u dodacima, keš folderu, itd. #Disallow: /wp/ # kada je WP instaliran u wp poddirektorijum Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap2.xml # drugi fajl #Sitemap: http:/ / site.ru/sitemap.xml.gz # komprimirana verzija (.gz) Host: site.ru # za Yandex i Mail.RU. (poprečni presjek) # Verzija koda: 1.0 # Ne zaboravite promijeniti `site.ru` na svoju stranicu.

Analiza koda:

U redu User-agent: * označavamo da će sva pravila u nastavku raditi za sve robote za pretraživanje *. Ako vam je potrebno da ova pravila rade samo za jednog određenog robota, tada umjesto * navodimo ime robota (Korisnički agent: Yandex, Korisnički agent: Googlebot).

U redu Dozvoli: */uploads, namjerno dozvoljavamo indeksiranje stranica koje sadrže /uploads. Ovo pravilo je obavezno, jer iznad zabranjujemo indeksiranje stranica koje počinju sa /wp- i /wp- uključeno u /wp-content/uploads. Stoga, da biste poništili Disallow: /wp- pravilo, potrebna vam je linija Allow: */uploads , jer za veze kao što je /wp-content/uploads/... Možda imamo slike koje treba indeksirati, a mogu biti i neke preuzete datoteke koje nema potrebe za skrivanjem. Dozvoli: može biti "prije" ili "poslije" Disallow: .

Preostale linije zabranjuju robotima da "prate" veze koje počinju sa:

Disallow: /cgi-bin - zatvara direktorij skripti na serveru
Disallow: /feed - zatvara RSS feed bloga
Disallow: /trackback - zatvara obavještenja
Disallow: ?s= ili Disallow: *?s= - zatvara stranice za pretraživanje
Disallow: */page/ - zatvara sve tipove paginacije

Pravilo Sitemap-a: http://site.ru/sitemap.xml upućuje robota na fajl sa mapom sajta u XML format. Ako imate takvu datoteku na svojoj web lokaciji, napišite punu putanju do nje. Takvih datoteka može biti nekoliko, a zatim označavamo put do svake od njih posebno.

U redu Host: site.ru označavamo glavno ogledalo stranice. Ako web-mjesto ima ogledala (kopije web-mjesta na drugim domenima), tada da bi ih Yandex sve jednako indeksirao, morate navesti glavno ogledalo. Direktiva domaćina: samo Yandex razumije, Google ne razumije! Ako web lokacija radi ispod https protokol, tada se mora navesti u Host: Host: https://site.ru

Iz Yandex dokumentacije: “Host je nezavisna direktiva i radi bilo gdje u datoteci (presjek).” Stoga ga stavljamo na vrh ili na sam kraj datoteke, kroz prazan red.

Ovo je važno: pravila sortiranja prije obrade

Yandex i Google obrađuju direktive Allow i Disallow ne onim redoslijedom kojim su navedene, već ih prvo sortiraju od kratkog do dugog pravila, a zatim obrađuju posljednje podudarno pravilo:

Korisnički agent: * Dozvoli: */uploads Disallow: /wp-

će se čitati kao:

Korisnički agent: * Disallow: /wp- Dozvoli: */uploads

Da biste brzo razumjeli i primijenili funkciju sortiranja, zapamtite ovo pravilo: „što je duže pravilo u robots.txt, to ima veći prioritet. Ako je dužina pravila ista, onda se prioritet daje direktivi Allow."

Opcija 2: Standardni robots.txt za WordPress

Ne znam zašto, ali ja sam za prvu opciju! Zato što je logičnije - nema potrebe za potpuno dupliranje odeljka da bi se naznačila Host direktiva za Yandex, koja je intersekcijska (razumije je robot bilo gdje u predlošku, bez navođenja na kojeg se robota odnosi). Što se tiče nestandardne direktive Allow, ona radi za Yandex i Google, a ako ne otvori mapu za otpremanje za druge robote koji je ne razumiju, onda u 99% slučajeva to neće značiti ništa opasno. Još nisam primijetio da prvi roboti ne rade kako bi trebali.

Gornji kod je malo netačan. Hvala komentatoru " " što je ukazao na netačnost, iako sam morao sam da shvatim šta je to. I evo šta sam smislio (možda grešim):

Neki roboti (ne Yandex i Google) ne razumiju više od 2 direktive: User-agent: i Disallow:

Direktiva Yandex Host: mora se koristiti nakon Disallow:, jer je neki roboti (ne Yandex i Google) možda neće razumjeti i općenito odbijaju robots.txt. Sam Yandex, sudeći po dokumentaciji, apsolutno ne mari gdje i kako koristiti Host:, čak i ako generalno kreirate robots.txt sa samo jednom linijom Host: www.site.ru kako biste zalijepili sva ogledala stranice.

3. Sitemap: intersekcijska direktiva za Yandex i Google i očigledno za mnoge druge robote također, tako da je napišemo na kraju sa praznim redom i radit će za sve robote odjednom.

Na osnovu ovih izmjena, ispravan kod bi trebao izgledati ovako:

Korisnički agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */feed Disallow: /cgi-bin Disallow: *?s= Dozvoli: /wp-admin/admin-ajax.php Host: site.ru Korisnički agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */feed Disallow: /cgi- bin Disallow: *?s= Dozvoli: /wp-admin/admin-ajax.php Mapa sajta: http://site.ru/sitemap.xml

Dodajmo to za sebe

Ako trebate blokirati bilo koje druge stranice ili grupe stranica, možete dodati pravilo (direktivu) ispod Zabraniti:. Na primjer, moramo zatvoriti sve unose u kategoriji iz indeksiranja vijesti, zatim prije Sitemap: dodaj pravilo:

Disallow: /news

To sprječava robote da slijede takve linkove:

http://site.ru/news
http://site.ru/news/drugoe-nazvanie/

Ako trebate zatvoriti bilo koje pojavljivanje /news , onda napišite:

Disallow: */news

http://site.ru/news
http://site.ru/my/news/drugoe-nazvanie/
http://site.ru/category/newsletter-nazvanie.html

Možete detaljnije proučiti direktive robots.txt na stranici pomoći Yandexa (ali imajte na umu da ne funkcioniraju sva pravila koja su tamo opisana za Google).

Robots.txt provjera i dokumentacija

Da li propisana pravila funkcionišu ispravno možete provjeriti na sljedećim linkovima:

Servis za kreiranje i provjeru robots.txt: https://seolib.ru/tools/generate/robots/

Google dokumentacija (engleski)

Puzanje-kašnjenje - vremensko ograničenje za lude robote (ne uzima se u obzir od 2018.)

Yandex

Analizirajući pisma naše podrške u protekle dvije godine u vezi s problemima indeksiranja, otkrili smo da je jedan od glavnih razloga sporog preuzimanja dokumenata pogrešno konfigurisana direktiva o kašnjenju indeksiranja u robots.txt […] Tako da vlasnici stranica više ne moram brinuti o ovome i da sve bude stvarno potrebne stranice stranice su se pojavile i brzo su ažurirane u pretrazi, odlučili smo da odbijemo da uzmemo u obzir direktivu o odlaganju indeksiranja.

Kada Yandex robot skenira stranicu kao lud i to stvara nepotrebno opterećenje na serveru. Možete zamoliti robota da "uspori".

Da biste to učinili, trebate koristiti direktivu Crawl-delay. Označava vrijeme u sekundama koje robot mora u mirovanju (čekati) da skenira svaku narednu stranicu stranice.

Za kompatibilnost sa robotima koji ne prate dobro standard robots.txt, odlaganje indeksiranja mora biti navedeno u grupi (u odjeljku User-Agent) odmah nakon Disallow i Allow

Yandex Robot razumije razlomke vrijednosti, na primjer, 0,5 (pola sekunde). Ovo ne garantuje da će robot za pretraživanje posjećivati vašu stranicu svake pola sekunde, ali vam omogućava da ubrzate indeksiranje stranice.

Korisnički agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Odlaganje indeksiranja: 1,5 # timeout 1,5 sekundi Korisnički agent: * Disallow: /wp-admin Disallow: /wp-includes Dozvoli: /wp-* . gif Kašnjenje puzanja: 2 # timeout 2 sekunde

Google

Googlebot ne razumije direktivu o kašnjenju indeksiranja. Vremensko ograničenje za njegove robote može se odrediti na panelu webmastera.

Pitao sam Yandex...

Postavio sam pitanje u tehnici. Yandex podrška u vezi sa intersekcionalnom upotrebom direktiva Host i Sitemap:

Pitanje:

Zdravo!
Pišem članak o robots.txt na svom blogu. Želio bih da dobijem odgovor na ovo pitanje (nisam našao jasno "da" u dokumentaciji):

Ako trebam zalijepiti sva ogledala i za to koristim Host direktivu na samom početku datoteke robots.txt:
Host: site.ru Korisnički agent: * Disallow: /asd
Hoće li Host: site.ru ispravno raditi u ovom primjeru? Hoće li robotima ukazati da je site.ru glavno ogledalo? One. Koristim ovu direktivu ne u odeljku, već odvojeno (na početku datoteke) bez navođenja na koji se User-agent odnosi.

Takođe sam želeo da znam da li se direktiva Sitemap mora koristiti unutar sekcije ili se može koristiti van: na primer, kroz prazan red, posle odeljka?
Korisnički agent: Yandex Disallow: /asd Korisnički agent: * Disallow: /asd Sitemap: http://site.ru/sitemap.xml
Hoće li robot razumjeti Sitemap direktivu u ovom primjeru?

Nadam se da ću od vas dobiti odgovor koji će okončati moje sumnje.

odgovor:

Zdravo!

Direktive Host i Sitemap su međusobno povezane, tako da će ih robot koristiti bez obzira na mjesto u datoteci robots.txt gdje su specificirane.

--
S poštovanjem, Platon Shchukin
Yandex usluga podrške

Zaključak

Važno je zapamtiti da će promjene u robots.txt na web-stranici koja već radi biti primjetna tek nakon nekoliko mjeseci (2-3 mjeseca).

Postoje glasine da Google ponekad može zanemariti pravila u robots.txt i uzeti stranicu u indeks ako smatra da je stranica vrlo jedinstvena i korisna i da jednostavno mora biti u indeksu. Međutim, druge glasine pobijaju ovu hipotezu činjenicom da neiskusni optimizatori mogu pogrešno specificirati pravila u robots.txt i tako zatvoriti potrebne stranice od indeksiranja i ostaviti nepotrebne. Skloniji sam drugoj pretpostavci...

Na servisu avi1.ru sada možete kupiti SMM promocija u više od 7 najpopularnijih na društvenim mrežama. Istovremeno, obratite pažnju na dovoljno jeftino sve usluge sajta.

Pozdrav, dragi čitaoci Pingo SEO bloga. U ovom članku želim izložiti svoju ideju o tome kako pravilno sastaviti robots.txt za web stranicu. Svojevremeno me je jako nerviralo što su informacije na internetu o ovom pitanju bile prilično fragmentarne. Zbog toga sam morao puzati okolo veliki broj resurse, stalno filtriranje informacija koje se ponavljaju i identificiranje novih informacija.

Stoga ću ovdje pokušati odgovoriti na većinu pitanja počevši od definicije do primjera stvarni problemi riješeno ovim alatom. Ako nešto zaboravim, napišite o tome u komentarima - istražit ću problem i dodati materijalu.

Robots.txt - šta je to, zašto je potreban i gdje živi?

Dakle, prvo, edukativni program za one koji ovu temu potpuno nepoznato.

Robots.txt je tekstualni fajl koji sadrži uputstva za indeksiranje sajta za robote pretraživača. U ovoj datoteci webmaster može definirati parametre indeksiranja svoje stranice kako za sve robote odjednom, tako i za svaku tražilicu posebno (na primjer, za Google).

Gdje se nalazi robots.txt? Nalazi se u korijenskom folderu FTP stranice, i zapravo je običan dokument u txt formatu, koji se može uređivati bilo kojim uređivač teksta(lično više volim Notepad++). Sadržaj datoteke robots može se vidjeti unosom adresna traka pretraživač http://www.your-site.ru/robots.txt. Ako, naravno, postoji.

Kako napraviti robots.txt za web stranicu? Dovoljno je napraviti običan tekstualni fajl sa istim imenom i postaviti ga na sajt. Kako ga pravilno konfigurirati i sastaviti bit će razmotreno u nastavku.

Struktura i ispravna konfiguracija datoteke robots.txt

Kako bi trebalo da izgleda ispravan fajl robots txt za sajt? Struktura se može opisati na sljedeći način:

1. Direktiva korisnik-agent

Šta upisati ovaj odeljak? Ova direktiva određuje kojem robotu su sljedeće upute namijenjene. Na primjer, ako su namijenjeni svim robotima, dovoljan je sljedeći dizajn:

U sintaksi datoteke robots.txt, znak “*” je ekvivalentan frazi “bilo što”. Ako trebate navesti upute za određenu tražilicu ili robota, tada se njegovo ime upisuje umjesto zvjezdice iz prethodnog primjera, na primjer:

Korisnički agent: YandexBot

Svaka tražilica ima čitav skup robota koji obavljaju određene funkcije. Opisani su roboti pretraživača Yandex. Uopšteno govoreći, postoji sljedeće:

Yandex - referenca na Yandex robote.
GoogleBot je glavni robot za indeksiranje.
MSNBot je Bingov primarni robot za indeksiranje.
Aport - Aport roboti.
Mail.Ru - PS Mail roboti.

Ako postoji direktiva za određenu tražilicu ili robota, onda se općenite zanemaruju.

2. Dozvoli direktivu

Dozvoljava pojedinačne stranice dio ako je, recimo, prethodno bio potpuno zatvoren od indeksiranja. Na primjer:

Korisnički agent: *
Disallow: /
Dozvoli: /open-page.html

U ovom primjeru zabranjujemo indeksiranje cijele stranice, osim stranice poni.html

Ova direktiva služi u određenoj mjeri da ukaže na izuzetke od pravila specificiranih direktivom Disallow. Ako nema takvih situacija, onda se direktiva uopće ne može koristiti. Ne dozvoljava vam da otvorite stranicu za indeksiranje, kao što mnogi misle, jer ako nema zabrane kao što je Disallow: /, onda je ona otvorena po defaultu.

2. Disallow direktiva

To je antipod direktive Allow i blokira indeksiranje pojedinačnih stranica, sekcija ili cijele stranice. Analogno je noindex oznaci. Na primjer:

Korisnički agent: *
Disallow: /closed-page.html

3. Host direktiva

Koristi se samo za Yandex i pokazuje na glavno ogledalo stranice. To izgleda ovako.

Glavno ogledalo bez www:

Glavno ogledalo sa www:

Domaćin: www.site.ru

Web stranica na https:

Domaćin: https://site.ru

Ne možete dvaput napisati direktivu hosta u datoteku. Ako se to dogodi zbog neke greške, tada se obrađuje prva direktiva, a druga se ignorira.

4. Sitemap Direktiva

Koristi se za određivanje putanje do XML sitemap sitemap.xml (ako postoji). Sintaksa je sljedeća:

Mapa sajta: http://www.site.ru/sitemap.xml

5. Clean-param direktiva

Koristi se za blokiranje stranica s parametrima koji mogu biti duplikati od indeksiranja. Vrlo korisna direktiva, po mom mišljenju, koja odsiječe parametarski rep URL-ova, ostavljajući samo okosnicu, koja je originalna adresa stranice.

Ovaj problem je posebno čest pri radu s katalozima i online trgovinama.

Recimo da imamo stranicu:

http://www.site.ru/index.php

I ova stranica u procesu rada može zarasti u klonove vrste.

http://www.site.ru/index.php?option=com_user_view=remind
http://www.site.ru/index.php?option=com_user_view=reset
http://www.site.ru/index.php?option=com_user_view=login

Da biste se riješili svih mogućih varijanti ove neželjene pošte, dovoljno je naznačiti sljedeću konstrukciju:

Clean-param: opcija /index.php

Mislim da je sintaksa iz primjera jasna:

Clean-param: # specificirajte direktivu
opcija # specificirajte parametar neželjene pošte
/index.php # specificira okosnicu URL-a sa parametrom neželjene pošte

Ako postoji nekoliko parametara, jednostavno ih navodimo pomoću ampersanda (&):

http://www.site.ru/index.php?option=com_user_view=remind&size=big # URL sa dva parametra
Clean-param: option&big /index.php # dva parametra su specificirana pomoću ampersanda

Uzet je jednostavan primjer koji objašnjava suštinu. Posebno bih se zahvalio ovom parametru kada radite sa CMS Bitrix.

Direktiva o kašnjenju puzanja

Omogućava vam da postavite vremensko ograničenje za učitavanje stranica web stranice pomoću Yandex robota. Koristi se kada je server jako opterećen i jednostavno nema vremena da brzo vrati sadržaj. Po mom mišljenju, ovo je anahronizam koji se više ne uzima u obzir i koji se ne može koristiti.

Kašnjenje puzanja: 3,5 #timeout 3,5 sekundi

Sintaksa

# - koristi se za pisanje komentara:

Korisnički agent: * Direktiva # primjenjuje se na sve robote

* - označava bilo koji niz znakova, što znači:

Disallow: /page* # zabrani sve stranice koje počinju sa stranicom

Disallow: /*stranica # zabranjuje sve stranice koje završavaju sa stranicom

Disallow: /cgi-bin/*.aspx # zabrani sve aspx stranice u cgi-bin folderu

$ - skraćenje pravila, antipod znaka zvjezdice:

Disallow: /page$ # će zatvoriti samo /page, ne /page.html ili pageline.html

Primjer datoteke robots.txt

Kako bismo konsolidirali razumijevanje gore opisane strukture i pravila, predstavljamo standardni robotski txt za CMS Data Life Engine.

Korisnički agent: *# direktive su namijenjene svim pretraživačima
Disallow: /engine/go.php # onemogućava određene sekcije i stranice
Disallow: /engine/download.php #
Disallow: /user/ #
Disallow: /newposts/ #
Disallow: /*subaction=userinfo # zatvaranje stranica sa pojedinačnim parametrima
Disallow: /*subaction=newposts #
Disallow: /*do=lastcomments #
Disallow: /*do=feedback #
Disallow: /*do=register #
Disallow: /*do=lostpassword #
Host: www.site # označava glavno ogledalo stranice
Sitemap: https://site/sitemap.xml # označava putanju do sitemapa
Korisnički agent: Aport # označava smjer pravila na PS Aportu
Disallow: / # pretpostavimo da ne želimo biti prijatelji s njima

Provjera robots.txt

Kako provjeriti ispravnost robots txt-a? Standardna opcija- Yandex validator - http://webmaster.yandex.ru/robots.xml. Unesite putanju do datoteke robota ili odmah zalijepite njen sadržaj u tekstualno polje. Unosimo listu URL-ova koje želimo provjeriti - da li su zatvoreni ili otvoreni prema datim direktivama - kliknite na “Provjeri” i voila! Profit.

Prikazuje se status stranice - da li je otvorena za indeksiranje ili zatvorena. Ako je zatvoreno, onda je naznačeno kojim pravilom. Da biste omogućili indeksiranje takve stranice, morate modificirati pravilo na koje je ukazao validator. Ako datoteka sadrži sintaksne greške, onda će validator također to prijaviti.

Robots.txt generator - kreiranje na mreži

Ako nemate želje ili vremena da proučavate sintaksu, ali postoji potreba da zatvorite neželjene stranice na stranici, onda možete koristiti bilo koji besplatni online generator koji će vam omogućiti da kreirate robote txt za stranicu u samo nekoliko minuta. par klikova. Zatim sve što treba da uradite je da preuzmete datoteku i da je postavite na svoju veb lokaciju. Kada radite s njim, samo trebate provjeriti očigledne postavke, a također naznačiti stranice koje želite blokirati od indeksiranja. Generator će učiniti ostalo za vas.

Gotovi fajlovi za popularni CMS

Robots.txt datoteka za web lokaciju na 1C Bitrix

Korisnički agent: *
Disallow: /bitrix/
Disallow: /osobno/
Disallow: /upload/
Disallow: /*login*
Disallow: /*auth*
Disallow: /*pretraga
Disallow: /*?sort=
Disallow: /*gclid=
Disallow: /*register=
Disallow: /*?per_count=
Disallow: /*forgot_password=
Disallow: /*promjena_lozinke=
Disallow: /*logout=
Disallow: /*back_url_admin=
Disallow: /*print=
Disallow: /*backurl=
Disallow: /*BACKURL=
Disallow: /*back_url=
Disallow: /*BACK_URL=
Disallow: /*ADD2BSKET
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*DELETE_FROM_COMPARE_LIST
Disallow: /*action=BUY
Disallow: /*set_filter=y
Disallow: /*?mode=matrix
Disallow: /*?mode=listitems
Disallow: /*openstat
Disallow: /*from=adwords
Disallow: /*utm_source
Domaćin: www.site.ru

Robots.txt za DataLife Engine (DLE)

Korisnički agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /engine/classes/highslide/
Disallow: /korisnik/
Disallow: /tags/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*do=search
Domaćin: www.site.ru
Mapa sajta: http://www.site.ru/sitemap.xml

Robots.txt za Joomla

Korisnički agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /uključuje/
Disallow: /instalacija/
Disallow: /jezik/
Disallow: /biblioteke/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: *print
Disallow: /*utm_source
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*feed*
Disallow: /*traži*
Disallow: /*korisnici*
Domaćin: www.site.ru
Mapa sajta: http://www.site.ru/sitemap.xml

Robots.txt za Wordpress

Korisnički agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /wp-login.php
Disallow: /wp-register.php
Domaćin: www.site.ru
Mapa sajta: http://www.site.ru/sitemap.xml

Robots.txt za Ucoz

Korisnički agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /sigurno/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=
Disallow: /google
Disallow: /

Šta je napisano u robot txt datoteci. Format i izgled

Primjena u SEO-u

Pravila sintakse robots.txt

Provjera robots.txt

Primjeri postavki robots.txt

Direktiva korisnik-agent

Korištenje više korisničkih agenata

Dopuštajuće i zabranjujuće direktive

Zabrana indeksiranja - Disallow

Potpuna zabrana indeksiranja

Dozvola za indeksiranje - Dozvoli

Direktiva o hostu

Sitemap Directive

Isključujući stranice sa dinamičkim parametrima

Smanjenje opterećenja - Kašnjenje puzanja

Tipičan robots.txt za web lokaciju na Bitrixu

Format datoteke Robots.txt

Dodatne direktive

Regularni izrazi u robots.txt

Mapa sajta

Site mirrors

Komentari u robots.txt

Primjeri datoteka robots.txt

Uobičajene greške

Provjera grešaka u fajlu robots.txt

Zašto nam treba robots.txt?

Utjecaj robots.txt na pretraživače?

Šta je direktiva robots.txt?

Šta znači korisnički agent?

Google roboti za pretragu

Yandex roboti za pretragu

Roboti za pretragu Bing, Yahoo, Mail.ru, Rambler

Disallow i Allow direktive

Direktiva hosta u robots.txt

Direktiva odgode puzanja

Clean-param direktiva

Kako provjeriti robots.txt?

zaključak:

Opcija 1: Optimalni robots.txt kod za WordPress

Ovo je važno: pravila sortiranja prije obrade

Opcija 2: Standardni robots.txt za WordPress

Na osnovu ovih izmjena, ispravan kod bi trebao izgledati ovako:

Dodajmo to za sebe

Robots.txt provjera i dokumentacija

Puzanje-kašnjenje - vremensko ograničenje za lude robote (ne uzima se u obzir od 2018.)

Yandex

Google

Pitao sam Yandex...

Pitanje:

odgovor:

Zaključak

Robots.txt - šta je to, zašto je potreban i gdje živi?

Struktura i ispravna konfiguracija datoteke robots.txt

1. Direktiva korisnik-agent

2. Dozvoli direktivu

2. Disallow direktiva

3. Host direktiva

4. Sitemap Direktiva

5. Clean-param direktiva

Direktiva o kašnjenju puzanja

Sintaksa

Primjer datoteke robots.txt

Provjera robots.txt

Robots.txt generator - kreiranje na mreži

Gotovi fajlovi za popularni CMS

Robots.txt datoteka za web lokaciju na 1C Bitrix

Robots.txt za DataLife Engine (DLE)

Robots.txt za Joomla

Robots.txt za Wordpress

Robots.txt za Ucoz

Najbolji članci na ovu temu