Robot txt ne sprečava indeksiranje. A sada sa pojašnjenjem

05.04.2019 Iron

Robots.txt je servisni fajl koji služi kao preporuka za ograničavanje pristupa sadržaju web dokumenata za pretraživače. U ovom članku ćemo analizirati postavku Robots.txt, opis direktiva i kompajliranje za popularni CMS.

Ova datoteka robota nalazi se u korijenskom direktoriju vaše stranice i otvara se/uređuje jednostavna beležnica, preporučujem Notepad++. Za one koji ne vole da čitaju - postoji VIDEO, pogledajte na kraju članka 😉

Zašto je robots.txt potreban

Kao što sam već rekao, pomoću datoteke robots.txt možemo ograničiti pristup botova za pretragu dokumentima, tj. direktno utičemo na indeksiranje sajta. Najčešće zatvoreno od indeksiranja:

CMS servisni fajlovi i folderi
duplikati
Dokumenti koji nisu korisni za korisnika
Ne jedinstvene stranice

Uzmimo konkretan primjer:

Internet prodavnica koja prodaje cipele i implementirana na jednom od popularnih CMS-a, i to ne na najbolji način. Mogu odmah reći koje će stranice za pretragu, paginacija, košarica, neki fajlovi motora, itd. biti u rezultatima. Sve će to biti duplikati i servisni fajlovi koji su beskorisni za korisnika. Stoga ih treba zatvoriti od indeksiranja, a ako i dalje postoji rubrika “Vijesti” u kojoj se razlikuju zanimljivi članci sa stranica konkurenata - onda ne morate razmišljati, odmah ga zatvaramo.

Stoga moramo nabaviti datoteku robots.txt kako smeće ne bi ušlo u problem. Ne zaboravite da se datoteka mora otvoriti na http://site.ru/robots.txt.

robots.txt direktive i pravila prilagođavanja

korisnički agent. Ovo je apel na određenog robota tražilice ili na sve robote. Ako je propisano specifično ime robota, na primjer "YandexMedia", onda se za njega ne koriste opće upute user-agent. Primjer pisanja:

Korisnički agent: YandexBot Disallow: /cart # će koristiti samo Yandexov glavni robot za indeksiranje

Disallow/Allow. Ovo je zabrana / dozvola za indeksiranje određenog dokumenta ili odjeljka. Redoslijed pisanja nije bitan, ali sa 2 direktive i istim prefiksom, "Dozvoli" ima prednost. Robot za pretragu ih čita po dužini prefiksa, od najmanjeg do najvećeg. Ako trebate onemogućiti indeksiranje stranica, samo unesite relativnu putanju do nje (Disallow: /blog/post-1).

Korisnički agent: Yandex Disallow: / Dozvoli: /articles # Onemogući indeksiranje stranice, osim za 1 odjeljak članaka

Regularni izrazi sa * i $. Zvjezdica označava bilo koji niz znakova (uključujući prazne). Znak dolara znači prekid. Primjeri korištenja:

Disallow: /page* # zabrani sve stranice, konstrukcije http://site.ru/page Disallow: /arcticles$ # zabrani samo stranicu http://site.ru/articles, dozvoljavajući stranice http://site.ru/ članci /novo

Sitemap direktiva. Ako koristite - onda u robots.txt treba biti naznačeno ovako:

Mapa sajta: http://site.ru/sitemap.xml

host direktiva. Kao što znate, sajtovi imaju ogledala (čitaj,). Ovo pravilo usmjerava bot za pretraživanje na glavno ogledalo vašeg resursa. Odnosi se na Yandex. Ako imate ogledalo bez WWW-a, onda pišemo:

Domaćin: site.ru

Puzanje-kašnjenje. Postavlja kašnjenje (u sekundama) između botova preuzimanja vaših dokumenata. Piše se nakon direktiva Disallow/Allow.

Kašnjenje puzanja: 5 # vremensko ograničenje od 5 sekundi

Clean param. Ukazuje botu za pretragu da ne treba da preuzima dodatne duplirane informacije (sesija, referer, korisnički ID-ovi). Clean-param treba napisati za dinamičke stranice:

Clean-param: ref /category/books # označava da je naša stranica glavna, a http://site.ru/category/books?ref=yandex.ru&id=1 je ista stranica, ali sa parametrima

Glavno pravilo: robots.txt mora biti upisan mala slova i leže u korijenu stranice. Primjer strukture fajla:

Korisnički agent: Yandex Disallow: /cart Dozvoli: /cart/images Mapa sajta: http://site.ru/sitemap.xml Host: site.ru Odlaganje indeksiranja: 2

Meta oznaka robota i kako je napisana

Ovu opciju zabrane stranica pretraživač bolje uzima u obzir. Google sistem. Yandex podjednako dobro uzima u obzir obje opcije.

Ima 2 direktive: follow/nofollow I index/noindex. To su dozvola/zabrana praćenja linkova i dozvola/zabrana indeksiranja dokumenata. Direktive se mogu pisati zajedno, pogledajte primjer u nastavku.

Za bilo koje odvojena stranica možete napisati u tag sljedeće:

Ispravite robots.txt datoteke za popularni CMS

Robots.txt primjer za WordPress

Ispod možete vidjeti moju verziju sa ovog Seo bloga.

Korisnički agent: Yandex Disallow: /wp-content/uploads/ Dozvoli: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallo w: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.xml

Zabranjujem trackback jer duplira dio članka u komentarima. A ako ima puno trackbackova, dobićete gomilu istih komentara.

Pokušavam da zatvorim servisne fascikle i fajlove bilo kog CMS-a. Ne želim da uđu u indeks (iako ih pretraživači ionako ne uzimaju, ali neće biti gore).

Feeds (feed) treba zatvoriti, jer. ovo su djelomične ili pune duplikate stranica.

Oznake se zatvaraju ako ih ne koristimo ili smo previše lijeni da ih optimiziramo.

Primjeri za druge CMS

Preuzimanje ispravni roboti za željeni CMS, jednostavno kliknite na odgovarajući link.

Kako zatvoriti sajt, link, stranicu iz indeksiranja?

Nije uvijek neophodno da pretraživači indeksiraju sve informacije na stranici.

Ponekad webmasteri čak moraju potpuno zatvoriti web stranicu od indeksiranja, ali početnici ne znaju kako to učiniti. Ako želite, možete sakriti bilo koji sadržaj, resurs ili njegove pojedinačne stranice od pretraživača.

Kako zatvoriti sajt, link, stranicu iz indeksiranja? Ima nekih jednostavne funkcije, koji možete koristiti za zatvaranje bilo koje informacije od Yandexa i Googlea. U ovom članku ćemo predložiti kako blokirati web stranicu od indeksiranja putem robota, i pokazati vam koji kod dodati ovoj datoteci.

Sprečavanje indeksiranja pretraživača

Prije nego što počnemo govoriti o metodi koja koristi robots.txt, pokazat ćemo kako blokirati indeksiranje stranice na WordPress-u preko admin panela. U postavkama (odjeljak za čitanje) postoji zgodna funkcija:

Možete ukloniti vidljivost stranice, ali obratite pažnju na savjet. Kaže da pretraživači i dalje mogu indeksirati resurs, pa je bolje koristiti provjerenu metodu i dodati željeni kod u robots.txt.

Tekstualni fajl robota nalazi se u , a ako ga nema, kreirajte ga putem notepada.

Sljedeći kod će pomoći da se web lokacija zatvori od indeksiranja:

Samo ga dodajte u prvi red (zamijenite postojeće redove). Ako trebate zatvoriti stranicu samo iz Yandexa, navedite Yandex umjesto zvjezdice, ako zatvorite resurs iz Google-a, umetnite Googlebot.

Ako ne možete koristiti ovu metodu, samo dodajte red u kod web-mjesta .

Kada uradite ove korake, sajt više neće biti indeksiran, ovo je najviše Najbolji način da zatvorite resurs iz roboti za pretragu.

Kako zatvoriti stranicu iz indeksiranja?

Ako trebate sakriti samo jednu stranicu, morat ćete napisati drugi kod u datoteci robots:

Disallow: /category/kak-nachat-zarabatyvat

U drugom redu potrebno je navesti adresu stranice, ali bez naziva domene. Alternativno, možete zatvoriti stranicu od indeksiranja ako upišete u njen kod:

Gotovo je teška opcija, ali ako nema želje za dodavanjem linija u robots.txt, onda je ovo odličan izlaz. Ako ste došli na ovu stranicu tražeći način da spriječite indeksiranje duplikata, najlakši način je da dodate sve veze na robote.

Kako zatvoriti link ili tekst iz indeksiranja?

I ovdje nema ništa komplikovano, samo treba dodati posebne oznake u kod linka ili ga okružite njima:

sidro

Koristeći isto noindex oznake, možete se sakriti od pretraživača drugačiji tekst. Da biste to učinili, morate registrirati ovu oznaku u uređivaču članaka.

Nažalost, Google nema takvu oznaku, tako da sakrivanje dijela teksta od nje neće uspjeti. Najlakši način da to učinite je da dodate sliku s tekstom.

Jedna od faza optimizacije sajta za pretraživače je kreiranje datoteke robots.txt. Via dati fajl možete spriječiti neke ili sve pretraživače da indeksiraju vašu web lokaciju ili određene njene dijelove koji nisu namijenjeni za indeksiranje. Konkretno, možete onemogućiti indeksiranje dupliciranog sadržaja kao što su verzije stranica za štampanje.

Prije indeksiranja, roboti za pretraživanje uvijek upućuju na datoteku robots.txt u korijenskom direktoriju vaše stranice, na primjer, http://site.ru/robots.txt, kako bi znali koji dijelovi web stranice robotu nije dozvoljen indeksirati. Ali čak i ako nećete ništa zabraniti, preporučuje se kreiranje ove datoteke.

Kao što možete vidjeti iz proširenja robots.txt, ovo je tekstualni fajl. Za kreiranje ili uređivanje ove datoteke, bolje je koristiti najjednostavniji uređivači teksta kao Notepad. robots.txt mora biti smješten u korijenski direktorij stranice i ima sopstveni format, o čemu ćemo govoriti u nastavku.

Format datoteke Robots.txt

Datoteka robots.txt mora sadržavati najmanje dva potrebna unosa. Prvo dolazi direktiva User-agent, koja specificira koji pretraživač treba da prati uputstva u nastavku. Vrijednost može biti ime robota (googlebot, Yandex, StackRambler) ili simbol * ako se obraćate svim robotima odjednom. Na primjer:

Korisnički agent: googlebot

Naziv robota možete pronaći na web stranici odgovarajuće tražilice. Sljedeće mora biti jedna ili više Disallow direktiva. Ove direktive govore robotu koje datoteke i foldere nije dozvoljeno indeksirati. Na primjer, sledeći redovi spriječiti robote da indeksiraju datoteku feedback.php i cgi-bin direktorij:

Disallow: /feedback.php Disallow: /cgi-bin/

Također možete koristiti samo vodeće znakove datoteka ili foldera. Red Disallow: /forum zabranjuje indeksiranje svih fajlova i fascikli u korenu sajta čije ime počinje sa forum, na primer, http://site.ru/forum.php fajl i http://site.ru /forum/ folder sa svim njegovim sadržajem. Ako je Disallow prazan, to znači da robot može indeksirati sve stranice. Ako je Disallow vrijednost simbol /, to znači da nije dozvoljeno indeksiranje cijele stranice.

Mora postojati najmanje jedno Disallow polje za svako polje User-agent. Odnosno, ako nećete ništa zabraniti za indeksiranje, tada bi datoteka robots.txt trebala sadržavati sljedeće unose:

Korisnički agent: * Disallow:

Dodatne direktive

osim regularni izrazi Yandex i Google dozvoljavaju upotrebu direktive Allow, koja je suprotna od Disallow, odnosno određuje koje stranice mogu biti indeksirane. IN sljedeći primjer Yandexu je zabranjeno da indeksira sve osim adresa stranica koje počinju sa /articles:

Korisnički agent: Yandex Dozvoli: /articles Disallow: /

IN ovaj primjer Direktiva Allow mora biti napisana prije Disallow, inače će Yandex ovo shvatiti kao potpunu zabranu indeksiranja stranice. Prazna direktiva Allow također potpuno onemogućuje indeksiranje stranice:

Korisnički agent: Yandex Dozvoli:

je jednako

Korisnički agent: Yandex Disallow: /

Nestandardne direktive moraju biti specificirane samo za one pretraživače koji ih podržavaju. U suprotnom, robot ne razumije ovaj unos možda neće pravilno obraditi njega ili cijelu datoteku robots.txt. Možete saznati više o dodatnim direktivama i općenito o razumijevanju komandi datoteke robots.txt od strane zasebnog robota na web stranici odgovarajuće tražilice.

Regularni izrazi u robots.txt

Većina pretraživača uzima u obzir samo eksplicitno data imena datoteke i mape, ali postoje napredniji pretraživači. Googlebot i Yandexbot podržavaju upotrebu jednostavnih regularnih izraza u robots.txt, što značajno smanjuje količinu posla za webmastere. Na primjer, sljedeće naredbe onemogućuju Google robot indeksiraj sve datoteke sa ekstenzijom .pdf:

Korisnički agent: googlebot Disallow: *.pdf$

U gornjem primjeru, simbol * je bilo koji niz znakova, a $ označava kraj veze.

Korisnički agent: Yandex Dozvoli: /articles/*.html$ Disallow: /

Gore navedene direktive dozvoljavaju Yandexu da indeksira samo datoteke u folderu /articles/ sa ekstenzijom ".html". Sve ostalo je zabranjeno za indeksiranje.

mapa lokacije

Možete odrediti lokaciju XML sitemapa u datoteci robots.txt:

Korisnički agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Ako imate vrlo veliki broj stranice na web stranici i morali ste razbiti sitemap na dijelove, tada morate navesti sve dijelove mape u datoteci robots.txt:

Korisnički agent: Yandex Disallow: Mapa sajta: http://mysite.ru/my_sitemaps1.xml Mapa sajta: http://mysite.ru/my_sitemaps2.xml

Site mirrors

Kao što znate, obično se istom sajtu može pristupiti na dve adrese: i sa www i bez njega. Za robota za pretragu, site.ru i www.site.ru su različite stranice, ali sa istim sadržajem. Zovu se ogledala.

Zbog činjenice da stranice stranice imaju veze i sa www i bez njih, težina stranica se može podijeliti između www.site.ru i site.ru. Da se to ne bi dogodilo, tražilica mora navesti glavno ogledalo stranice. Kao rezultat "lijepljenja" sva težina će pripadati jednom glavnom ogledalu i stranica će moći zauzeti višu poziciju u Rezultati pretrage.

Možete odrediti glavno ogledalo za Yandex direktno u datoteci robots.txt koristeći Host direktivu:

Korisnički agent: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Host: www.site.ru

Nakon lijepljenja, ogledalo www.site.ru će imati svu težinu i zauzet će višu poziciju u rezultatima pretrage. I site.ru uopće neće biti indeksiran od strane tražilice.

Za druge pretraživače, izbor glavnog ogledala je trajno preusmeravanje na strani servera (šifra 301) sa dodatnih ogledala na glavno. Ovo se radi pomoću datoteke .htaccess i modula mod_rewrite. Da bismo to učinili, .htaccess datoteku stavljamo u korijen stranice i tamo upisujemo sljedeće:

RewriteEngine On Opcije +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Kao rezultat toga, svi zahtjevi sa site.ru ići će na www.site.ru, odnosno site.ru/page1.php će biti preusmjereni na www.site.ru/page1.php.

Metoda preusmjeravanja će raditi za sve pretraživače i pretraživače, ali se i dalje preporučuje dodavanje direktive Host u datoteku robots.txt za Yandex.

Komentari u robots.txt

Također možete dodati komentare datoteci robots.txt - oni počinju simbolom # i završavaju se linijom. Poželjno je komentare pisati u posebnom redu, ali ih je bolje uopće ne koristiti.

Primjer korištenja komentara:

User-agent: StackRambler Disallow: /garbage/ # ništa korisno u ovoj fascikli Disallow: /doc.xhtml # takođe na ovoj stranici # i svi komentari u ovoj datoteci su takođe beskorisni

Uzorci robots.txt datoteka

1. Dozvoljavamo svim robotima da indeksiraju sve dokumente stranice:

Korisnički agent: * Disallow:
Korisnički agent: * Disallow: /

3. Zabranjujemo robota Google pretraživač indeksirajte datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Dozvoljavamo svim robotima da indeksiraju cijelu stranicu i zabranjujemo robotu Yandex pretraživača da indeksira datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru Korisnički agent: * Disallow:

5. Dozvoljavamo svim robotima da indeksiraju cijelu stranicu, a Yandex robotu dozvoljavamo da indeksira samo dio stranice namijenjen za njega:

Korisnički agent: Yandex Dozvoli: /yandex Disallow: / Host: www.site.ru Korisnički agent: * Disallow:

Prazne linije razdvajaju granice za različite robote. Svaki blok ograničenja mora početi redom s poljem User-Agent, koji označava robota na kojeg se primjenjuju ova pravila indeksiranja web mjesta.

Uobičajene greške

To se mora uzeti u obzir prazan red u datoteci robots.txt je separator između dva zapisa za različite robote. Također, ne možete specificirati više direktiva na istoj liniji. Kada onemogućuju indeksiranje datoteke, webmasteri često izostavljaju / prije naziva datoteke.

Nije potrebno u robots.txt propisivati zabranu indeksiranja stranice za razni programi, koji su dizajnirani za potpuno preuzimanje stranice, na primjer, TeleportPro. Ni preuzimači ni pretraživači nikada ne gledaju ovu datoteku i ne slijede upute napisane tamo. Namijenjen je isključivo pretraživačima. Također ne biste trebali blokirati admin područje svoje stranice u robots.txt, jer ako nigdje nema veze na nju, onda neće biti indeksirana. Otkrit ćete lokaciju admin panela samo ljudima koji ne bi trebali znati za to. Također je vrijedno zapamtiti da pretraživač može zanemariti preveliki robots.txt. Ako imate previše stranica koje nisu namijenjene za indeksiranje, onda ih je bolje jednostavno ukloniti sa stranice ili premjestiti u poseban direktorij i zabraniti indeksiranje ovog direktorija.

Provjeravam greške u fajlu robots.txt

Obavezno provjerite kako pretraživači razumiju vašu datoteku robota. Za provjeru Google-a možete koristiti Google alati za webmastere. Ako želite znati kako Yandex razumije vašu datoteku robots.txt, možete koristiti uslugu Yandex.Webmaster. To će vam omogućiti da na vrijeme ispravite učinjene greške. Također na stranicama ovih usluga možete pronaći preporuke za sastavljanje datoteke robots.txt i puno drugih korisnih informacija.

Kopiranje članka je zabranjeno.

Tehnički aspekti kreirane stranice ne igraju ništa manje važnu ulogu promovirati web stranicu u tražilicama nego njen sadržaj. Jedan od najvažnijih tehnički aspekti je indeksiranje stranice, tj. određivanje područja stranice (datoteke i direktorije) koje mogu, ali ne moraju biti indeksirane od strane robota tražilice. U ove svrhe se koristi robots.txt - to je poseban fajl, koji sadrži komande za robote pretraživača. Ispravan fajl robots.txt za Yandex i Google pomoći će da se izbjegnu mnoge neugodne posljedice povezane s indeksiranjem stranice.

2. Koncept datoteke robots.txt i zahtjevi za nju

Datoteka /robots.txt je namijenjena da uputi sve robote za pretraživanje (paukove) da indeksiraju informacioni serveri kako je definisano u ovom fajlu, tj. samo one direktorije i serverske datoteke koje nisu opisane u /robots.txt. Ova datoteka mora sadržavati 0 ili više unosa koji su povezani s određenim robotom (kako je određeno vrijednošću polja agent_id) i naznačiti za svakog robota ili za sve odjednom šta ih točno ne treba indeksirati.

Sintaksa datoteke vam omogućava da postavite ograničena područja indeksiranja, kako za sve tako i za određene robote.

Postoje posebni zahtjevi za datoteku robots.txt, koji, ako se ne poštuju, mogu dovesti do pogrešnog čitanja od strane robota tražilice ili čak do nesposobnosti ove datoteke.

Primarni zahtjevi:

sva slova u nazivu datoteke moraju biti velika, tj. moraju biti mala:
robots.txt je ispravan
Robots.txt ili ROBOTS.TXT je pogrešan;
datoteka robots.txt mora biti kreirana u tekstualni format Unix. Prilikom kopiranja ove datoteke na lokaciju, ftp klijent mora biti konfiguriran na tekstualni mod dijeljenje datoteka;
datoteka robots.txt mora biti smještena u korijenski direktorij stranice.

3. Sadržaj datoteke robots.txt

Datoteka robots.txt uključuje dva unosa: "User-agent" i "Disallow". Imena ovih unosa ne razlikuju velika i mala slova.

Neki pretraživači takođe podržavaju dodatni unosi. Tako, na primjer, Yandex tražilica koristi zapis Host za određivanje glavnog ogledala stranice (glavno ogledalo stranice je stranica koja se nalazi u indeksu tražilice).

Svaki unos ima svoju svrhu i može se pojaviti nekoliko puta, ovisno o broju stranica i/ili direktorija zatvorenih od indeksiranja i broju robota kojima pristupate.

Pretpostavlja se sljedeći format redovi datoteke robots.txt:

record_name[opciono

razmaci] : [opciono

razmaci] značenje[neobavezni razmaci]

Da bi se datoteka robots.txt smatrala valjanom, najmanje jedna "Disallow" direktiva mora biti prisutna nakon svakog unosa "User-agent".

Potpuno prazan fajl robots.txt je ekvivalentno da ga nemate, što implicira dozvolu za indeksiranje cijele stranice.

Unos "korisničkog agenta".

Unos "User-agent" mora sadržavati ime pretraživača. U ovom unosu možete odrediti za svakog konkretnog robota koje stranice web stranice treba indeksirati, a koje ne.

Primjer unosa "Korisnički agent", gdje se pristupa svima tražilice bez izuzetaka i koristi se simbol "*":

Primjer unosa "User-agent", gdje se pristupa samo robotu tražilice Rambler:

Korisnički agent: StackRambler

Robot svake tražilice ima svoje ime. Postoje dva glavna načina da ga prepoznate (ime):

na stranicama mnogih pretraživača postoji specijalizovani § odjeljak "pomoć webmasteru", koji često označava ime robota za pretraživanje;

kada pregledavate logove web servera, odnosno kada gledate pozive na datoteku robots.txt, možete vidjeti mnogo imena koja sadrže nazive pretraživača ili dio njih. Stoga samo trebate odabrati željeno ime i unijeti ga u datoteku robots.txt.

"Zabrani" unos

Unos "Disallow" mora sadržavati recepte koji pokazuju indeksiranju iz unosa "User-agent" koje datoteke i/ili direktorije je zabranjeno indeksirati.

Razmislite razni primjeri"Disallow" unose.

Primjer unosa u robots.txt (dopusti sve za indeksiranje):

Zabraniti:

Primjer (sajtu je potpuno zabranjeno . Za ovo se koristi simbol “/”): Disallow: /

Primjer (datoteka “page.htm” koja se nalazi u korijenskom direktoriju i datoteka “page2.htm” koja se nalazi u direktoriju “dir” nisu dozvoljene za indeksiranje):

Disallow: /page.htm

Disallow: /dir/page2.htm

Primjer (za indeksiranje su zabranjeni direktoriji "cgi-bin" i "forum", a samim tim i sav sadržaj ovog direktorija):

Disallow: /cgi-bin/

Disallow: /forum/

Moguće je blokirati indeksiranje većeg broja dokumenata i (ili) direktorija koji počinju istim znakovima, koristeći samo jedan "Disallow" unos. Da biste to učinili, morate napisati početne identične znakove bez završne kose crte.

Primjer (za indeksiranje je zabranjen direktorij "dir", kao i svi fajlovi i direktoriji koji počinju slovima "dir", tj. fajlovi: "dir.htm", "direct.htm", direktoriji: "dir", "direktorij1", "direktorij2", itd.):

Snimi "Dozvoli"

Opcija "Dozvoli" se koristi za označavanje isključenja iz neindeksiranih direktorija i stranica koje su specificirane unosom "Disallow".

Na primjer, postoji ovakav unos:

Disallow: /forum/

Ali u isto vrijeme, stranica1 treba biti indeksirana u /forum/ direktoriju. Tada će u datoteci robots.txt biti potrebni sljedeći redovi:

Disallow: /forum/

Dozvoli: /forum/page1

Unos u Sitemapu

Ovaj unos ukazuje na lokaciju mape sajta u xml format, koji koriste roboti za pretraživanje. Ovaj unos specificira putanju do date datoteke.

Mapa sajta: http://site.ru/sitemap.xml

Snimi "Host"

Zapis "host" koristi Yandex pretraživač. Potrebno je odrediti glavno ogledalo stranice, odnosno da li stranica ima ogledala (ogledalo je djelomično ili puna kopija site. Prisustvo duplikata resursa može biti potrebno vlasnicima vrlo posjećenih stranica kako bi se povećala pouzdanost i dostupnost njihove usluge), a zatim pomoću direktive "Host" možete odabrati ime pod kojim želite da budete indeksirani. U suprotnom, "Yandex" će sam odabrati glavno ogledalo, a drugim imenima će biti zabranjeno indeksiranje.

Za kompatibilnost sa pretraživačima koji ne prihvataju direktivu Host prilikom obrade datoteke robots.txt, morate dodati unos "Host" odmah nakon unosa Disallow.

Primjer: www.site.ru - glavno ogledalo:

Domaćin: www.site.ru

Zabilježite "Cawl-dey"

Yandex prihvata ovaj unos. To je naredba za robota da napravi intervale zadanog vremena (u sekundama) između indeksiranja stranica. Ponekad je to neophodno kako bi se stranica zaštitila od preopterećenja.

Dakle, zapis sljedećeg tipa znači da Yandex robot mora preći s jedne stranice na drugu ne prije nego nakon 3 sekunde:

Komentari

Svaki red u robots.txt koji počinje znakom "#" smatra se komentarom. Dozvoljeno je koristiti komentare na kraju redova sa direktivama, ali neki roboti možda neće ispravno prepoznati ovu liniju.

Primjer (komentar je na istoj liniji kao i direktiva):

Disallow: /cgi-bin/ #comment

Komentar je preporučljivo staviti u poseban red. Razmak na početku reda je dozvoljen, ali se ne preporučuje.

4. Uzorci robots.txt datoteka

Primjer (komentar je u posebnom redu):
Disallow: /cgi-bin/#comment

Primjer datoteke robots.txt koja omogućava svim robotima da indeksiraju cijelu web lokaciju:

Domaćin: www.site.ru

Primjer datoteke robots.txt koja zabranjuje svim robotima da indeksiraju stranicu:

Domaćin: www.site.ru

Primjer datoteke robots.txt koja zabranjuje svim robotima indeksiranje "abc" direktorija, kao i svih direktorija i datoteka koje počinju znakovima "abc".

Domaćin: www.site.ru

Primjer datoteke robots.txt koja zabranjuje indeksiranje stranice "page.htm", koja se nalazi u korijenskom direktoriju stranice, od strane robota za pretraživanje "googlebot":

Korisnički agent: googlebot

Disallow: /page.htm

Domaćin: www.site.ru

Primjer datoteke robots.txt koja onemogućuje indeksiranje:

– robotu “googlebot” – stranica “page1.htm” koja se nalazi u direktoriju “directory”;

- do "Yandex" robota - svi direktoriji i stranice koje počinju znakovima "dir" (/dir/, /direct/, dir.htm, direction.htm, itd.) i nalaze se u korijenskom direktoriju stranice.

Korisnički agent: googlebot

Disallow: /directory/page1.htm

Korisnički agent: Yandex

5. Greške vezane za datoteku robots.txt

Jedna od najčešćih grešaka je obrnuta sintaksa.

Nije tačno:

Disallow: Yandex

desno:

Korisnički agent: Yandex

Nije tačno:

Disallow: /dir/ /cgi-bin/ /forum/

desno:

Disallow: /cgi-bin/

Disallow: /forum/

Ako prilikom obrade greške 404 (dokument nije pronađen) web server izda posebnu stranicu, a datoteka robots.txt nedostaje, onda je moguće da robot za pretraživanje, kada zatraži datoteku robots.txt, dobije isto posebna stranica, koji nije kontrolna datoteka za indeksiranje.

Greška u vezi s nepravilnim korištenjem velikih i malih slova u datoteci robots.txt. Na primjer, ako trebate zatvoriti direktorij "cgi-bin", tada ne možete napisati ime direktorija velikim slovima "cgi-bin" u unosu "Disallow".

Nije tačno:

Disallow: /CGI-BIN/

desno:

Disallow: /cgi-bin/

Greška koja se odnosi na odsustvo otvorne kose crte prilikom zatvaranja direktorija iz indeksiranja.

Nije tačno:

Disallow: page.HTML

desno:

Disallow: /page.HTML

Da biste izbjegli najčešće greške, datoteka robots.txt se može provjeriti pomoću Yandex.Webmastera ili Alati za Google webmasteri. Provjera se vrši nakon učitavanja datoteke.

6. Zaključak

Dakle, prisustvo datoteke robots.txt, kao i njena kompilacija, može uticati na promociju stranice u pretraživačima. Bez poznavanja sintakse datoteke robots.txt, možete zabraniti indeksiranje mogućih promoviranih stranica, kao i cijele stranice. I, naprotiv, kompetentna kompilacija ove datoteke može uvelike pomoći u promociji resursa, na primjer, možete zatvoriti dokumente koji ometaju promociju potrebnih stranica iz indeksiranja.

Od autora: Imate li na svojoj web stranici stranice koje ne biste željeli prikazati pretraživačima? Iz ovog članka ćete detaljno naučiti kako onemogućiti indeksiranje stranica u robots.txt, da li je ispravno i kako općenito blokirati pristup stranicama.

Dakle, trebate spriječiti indeksiranje nekih određene stranice. Najlakši način da to učinite je u samoj datoteci robots.txt, dodajući joj potrebne linije. Želim napomenuti da smo registrovali adrese foldera relativno, url-adrese određene stranice označite na isti način, ili možete napisati apsolutni put.

Recimo da moj blog ima nekoliko stranica: kontakte, o meni i mojim uslugama. Ne bih volio da budu indeksirani. Shodno tome, pišemo:

User-agent: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/

Druga varijanta

Odlično, ali nije jedini način blokira pristup određenim stranicama za robota. Drugi je postavljanje posebne meta oznake u html kod. Naravno, stavljajte samo u one zapise koje treba zatvoriti. izgleda ovako:

< meta name = "robots" content = "noindex,nofollow" >

Oznaka mora biti postavljena u head kontejner u html dokumentu za ispravan rad. Kao što vidite, ima dva parametra. Ime je navedeno kao robot i navodi da su ove upute za indeksiranje.

Parametar sadržaja mora imati dvije vrijednosti odvojene zarezima. Prvi je zabrana ili dozvola za indeksiranje tekstualne informacije na stranici, drugi je indikacija da li indeksirati veze na stranici.

Dakle, ako želite da se stranica uopće ne indeksira, navedite vrijednosti noindex, nofollow, odnosno nemojte indeksirati tekst i zabraniti prijelaz na veze, ako ih ima. Postoji takvo pravilo da ako nema teksta na stranici, onda neće biti indeksirana. Odnosno, ako je sav tekst zatvoren u noindex, onda nema ništa za indeksiranje, tako da ništa neće pasti u indeks.

Osim toga, postoje sljedeće vrijednosti:

noindex, follow - zabrana indeksiranja teksta, ali dozvola za praćenje linkova;

index, nofollow - može se koristiti kada sadržaj treba da se indeksira, ali sve veze u njemu treba da budu zatvorene.

index, follow je zadana vrijednost. Sve je dozvoljeno.

Robot txt ne sprečava indeksiranje. A sada sa pojašnjenjem

Zašto je robots.txt potreban

robots.txt direktive i pravila prilagođavanja

Meta oznaka robota i kako je napisana

Ispravite robots.txt datoteke za popularni CMS

Robots.txt primjer za WordPress

Primjeri za druge CMS

Kako zatvoriti sajt, link, stranicu iz indeksiranja?

Sprečavanje indeksiranja pretraživača

Kako zatvoriti stranicu iz indeksiranja?

Kako zatvoriti link ili tekst iz indeksiranja?

Format datoteke Robots.txt

Dodatne direktive

Regularni izrazi u robots.txt

mapa lokacije

Site mirrors

Komentari u robots.txt

Uzorci robots.txt datoteka

Uobičajene greške

Provjeravam greške u fajlu robots.txt

2. Koncept datoteke robots.txt i zahtjevi za nju

3. Sadržaj datoteke robots.txt

Unos "korisničkog agenta".

"Zabrani" unos

Snimi "Dozvoli"

Unos u Sitemapu

Snimi "Host"

Zabilježite "Cawl-dey"

Komentari

4. Uzorci robots.txt datoteka

5. Greške vezane za datoteku robots.txt

6. Zaključak

Druga varijanta

Top Related Articles