Kako postaviti pametne telefone i računala. Informativni portal
  • Dom
  • Željezo
  • Robot txt ne zabranjuje indeksiranje. A sada s pojašnjenjima

Robot txt ne zabranjuje indeksiranje. A sada s pojašnjenjima

Robots.txt je servisna datoteka koja služi kao preporuka za ograničavanje pristupa sadržaju web dokumenata za tražilice. U ovom članku analizirat ćemo konfiguraciju Robots.txt, opis direktiva i njegovu kompilaciju za popularni CMS.

Ova datoteka robota nalazi se u korijenskom direktoriju vaše stranice i otvara se/uređuje jednostavna bilježnica, preporučujem Notepad ++. Za one koji ne vole čitati - postoji VIDEO, pogledajte kraj članka 😉

Zašto je robots.txt potreban

Kao što sam već rekao, pomoću datoteke robots.txt možemo ograničiti pristup botova za pretraživanje dokumentima, t.j. izravno utječemo na indeksiranje stranice. Najčešće se zatvaraju iz indeksiranja:

  • Servisne datoteke i CMS mape
  • Duplikati
  • Dokumenti koji nisu korisni korisniku
  • Nejedinstvene stranice

Pogledajmo konkretan primjer:

Online trgovina za prodaju cipela i implementirana na jednom od popularnih CMS-a, i to ne na najbolji način. Mogu odmah reći što će biti na stranici rezultata pretraživanja, paginaciji, košarici za kupnju, nekim datotekama motora itd. Sve će to biti duplikati i servisne datoteke koje su beskorisne za korisnika. Stoga ih treba zatvoriti iz indeksiranja, a ako još uvijek postoji odjeljak "Vijesti" u koji se različite kopije i lijepljenje zanimljivi članci sa stranica konkurenata - onda ne trebate razmišljati, odmah ga zatvaramo.

Stoga ga svakako nabavite s robots.txt datotekom kako smeće ne bi ušlo u rezultate. Ne zaboravite da se datoteka mora otvoriti na http://site.ru/robots.txt.

Robots.txt direktive i pravila prilagodbe

Korisnički agent. Ovo je apel na određenog robota tražilice ili na sve robote. Ako je propisano specifično ime robota, na primjer "YandexMedia", tada se za njega ne koriste opće direktive korisničkog agenta. Primjer pisanja:

Korisnički agent: YandexBot Disallow: / košarica # će koristiti samo glavni Yandex robot za indeksiranje

Disallow/Allow. Ovo je zabrana / dopuštenje indeksiranja određenog dokumenta ili odjeljka. Redoslijed pisanja nije bitan, ali s 2 direktive i istim prefiksom, prioritet ima "Dopusti". Robot za pretraživanje ih čita prema duljini prefiksa, od najmanjeg do najvećeg. Ako trebate zabraniti indeksiranje stranice, samo unesite relativni put do nje (Disallow: / blog / post-1).

Korisnički agent: Yandex Disallow: / Allow: / articles # Zabrana indeksiranja web-mjesta, osim članaka s 1 odjeljkom

Regularni izrazi sa * i $. Zvjezdica označava bilo koji niz znakova (uključujući prazne). Znak dolara znači prekid. Primjeri korištenja:

Disallow: / page * # zabranjuje sve stranice, konstrukcije http://site.ru/page Disallow: / arcticles $ # zabranjuje samo stranicu http://site.ru/articles, dopuštajući stranice http://site.ru/ članci / novo

Sitemap direktiva. Ako ga koristite, onda bi u robots.txt trebao biti naznačen ovako:

Mapa stranice: http://site.ru/sitemap.xml

Direktiva o hostu. Kao što znate, web stranice imaju ogledala (čitaj,). Ovo pravilo usmjerava bot za pretraživanje na glavno ogledalo vašeg resursa. Odnosi se na Yandex. Ako imate ogledalo bez WWW, onda napišite:

Domaćin: site.ru

Puzanje-kašnjenje. Određuje kašnjenje (u sekundama) između bot preuzimanja vaših dokumenata. Registrira se nakon direktiva Disallow/Allow.

Odgoda indeksiranja: 5 # vrijeme isteka za 5 sekundi

Clean-param. Botu za pretraživanje ukazuje da nema potrebe za preuzimanjem dodatnih duplikata informacija (identifikatori sesija, preporuke, korisnici). Clean-param treba propisati za dinamičke stranice:

Clean-param: ref / category / books # označavamo da je naša stranica glavna, a http://site.ru/category/books?ref=yandex.ru&id=1 je ista stranica, ali s parametrima

Glavno pravilo: robots.txt mora biti upisan mala slova i leže u korijenu stranice. Primjer strukture datoteke:

Korisnički agent: Yandex Disallow: / cart Allow: / cart / images Mapa web-mjesta: http://site.ru/sitemap.xml Host: site.ru Odgoda indeksiranja: 2

Meta oznaka robots i kako je napisana

Ovu opciju blokiranja stranica tražilica bolje uzima u obzir Googleov sustav... Yandex jednako dobro uzima u obzir obje opcije.

Ima 2 direktive: prati / nofollow i index / noindex... To su dopuštenje/zabrana praćenja poveznica i dopuštenje/zabrana indeksiranja dokumenta. Smjernice se mogu pisati zajedno, pogledajte primjer u nastavku.

Za bilo koje zasebna stranica možete napisati u tag sljedeće:

Ispravite datoteke robots.txt za popularni CMS

Primjer robots.txt za WordPress

Ispod možete vidjeti moju verziju s ovog Seo bloga.

Korisnički agent: Yandex Disallow: / wp-content / uploads / Allow: / wp-content / uploads / * / * / Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / wp-trackback Disallow: / wp-feed Disallow: / wp-comments Disallow: * / trackback Disallow: * / feed Disallow: * / comments Disallow: / tag Disallow: / arhiva Disallow: * / trackback / Disallow: * / feed / Disallow: * / comments / Disallow: /? Feed = Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / wp-trackback Disallow: / wp-feed Disallow: / wp-comments Disallow: * / trackback Disallow: * / feed Disallow: * / comments Disallow: / tag Disallow: / arhiva Disallow: * / trackback / Disallo w: * / feed / Disallow: * / komentari / Disallow: /? feed = Disallow: /?.xml

Zabranjujem trackback jer duplira dio članka u komentarima. A ako ima mnogo trackbackova, dobit ćete hrpu identičnih komentara.

Pokušavam zatvoriti servisne mape i datoteke bilo kojeg CMS-a, jer Ne želim da budu uključeni u indeks (iako tražilice to ionako ne prihvaćaju, neće biti gore).

Feedove treba zatvoriti jer ovo su djelomične ili potpune duplikate stranica.

Oznake zatvaramo ako ih ne koristimo ili smo previše lijeni da ih optimiziramo.

Primjeri za druge CMS

Preuzeti ispravni roboti za traženi CMS samo kliknite na odgovarajuću poveznicu.

Kako zatvoriti stranicu, link, stranicu iz indeksiranja?

Nije uvijek potrebno da tražilice indeksiraju sve informacije na stranici.


Ponekad webmasteri čak trebaju potpuno zatvoriti web mjesto od indeksiranja, ali početnici ne znaju kako to učiniti. Ako želite, možete sakriti bilo koji sadržaj, resurs ili njegove pojedinačne stranice od tražilica.

Kako zatvoriti stranicu, link, stranicu iz indeksiranja? Ima ih nekoliko jednostavne funkcije koje možete upotrijebiti za zatvaranje svih informacija s Yandexa i Googlea. U ovom članku ćemo vam pokazati kako blokirati indeksiranje stranice putem robota, i pokazati vam koji kod treba dodati ovoj datoteci.

Zatvaranje tražilica iz indeksiranja

Prije nego što počnemo govoriti o metodi korištenja robots.txt, pokazat ćemo vam kako blokirati indeksiranje stranice na WordPressu putem administratorske ploče. U postavkama (čitanje odjeljka) postoji zgodna funkcija:

Možete ukloniti vidljivost stranice, ali obratite pozornost na savjet. Kaže da tražilice još uvijek mogu indeksirati resurs, pa je bolje koristiti provjerenu metodu i dodati potreban kod u robots.txt.

Tekstualna datoteka robota je unutra, a ako je nema, stvorite je putem bilježnice.

Sljedeći kod pomoći će vam da zatvorite stranicu od indeksiranja:

Samo ga dodajte u prvi redak (zamijenite postojeće retke). Ako trebate zatvoriti web-mjesto samo iz Yandexa, navedite Yandex umjesto zvjezdice; ako zatvorite resurs s Googlea, umetnite Googlebot.

Ako ne možete koristiti ovu metodu, samo dodajte redak u kod web-mjesta .

Kada dovršite ove korake, stranica više neće biti indeksirana, ovo je najviše Najbolji način zatvoriti resurs iz roboti za pretraživanje.

Kako zatvoriti stranicu iz indeksiranja?

Ako želite sakriti samo jednu stranicu, morat ćete registrirati drugi kod u datoteci robots:

Disallow: / kategorija / kak-nachat-zarabatyvat

U drugom retku morate navesti adresu stranice, ali bez naziva domene. Alternativno, možete zatvoriti stranicu od indeksiranja ako upišete u njen kod:

Gotovo je teška opcija, ali ako ne želite dodavati retke u robots.txt, onda je ovo izvrsno rješenje. Ako ste došli na ovu stranicu tražeći način da blokirate duplikate od indeksiranja, onda je najlakši način da dodate sve veze na robote.

Kako zatvoriti link ili tekst iz indeksiranja?

Ni tu nema ništa komplicirano, samo treba dodati posebne oznake u kod veze ili ga okružite njima:

Sidro

Koristeći isto noindex oznake možete se sakriti od tražilica drugačiji tekst... Da biste to učinili, morate registrirati ovu oznaku u uređivaču članaka.

Nažalost, Google nema takvu oznaku, tako da ne možete sakriti dio teksta iz nje. Najlakši način za to je dodavanje slike s tekstom.

Jedna od faza optimizacije web stranice za tražilice je sastavljanje datoteke robots.txt. Preko ove datoteke možete spriječiti neke ili sve robote za pretraživanje da indeksiraju vašu stranicu ili određene njezine dijelove koji nisu namijenjeni za indeksiranje. Konkretno, možete spriječiti indeksiranje dupliciranog sadržaja kao što su ispisne verzije stranica.

Prije početka indeksiranja, roboti za pretraživanje uvijek upućuju na datoteku robots.txt u korijenskom direktoriju vaše stranice, na primjer, http://site.ru/robots.txt, kako bi znali koji su odjeljci stranice robotu zabranjeni od indeksiranja. Ali čak i ako ne namjeravate ništa zabraniti, ipak se preporučuje stvaranje ove datoteke.

Kao što možete vidjeti iz proširenja robots.txt, ovo je tekstualnu datoteku... Da biste stvorili ili uredili ovu datoteku, bolje je koristiti najjednostavniji uređivači teksta kao Notepad. robots.txt mora se nalaziti u korijenskom direktoriju stranice i ima vlasnički format koje ćemo pogledati u nastavku.

Format datoteke robots.txt

Datoteka robots.txt mora sadržavati najmanje dva potrebna unosa. Prva je direktiva User-agent koja pokazuje koji alat za indeksiranje treba slijediti upute koje slijede. Vrijednost može biti naziv robota (googlebot, Yandex, StackRambler) ili simbol * ako se obraćate svim robotima odjednom. Na primjer:

Korisnički agent: googlebot

Naziv robota može se pronaći na web stranici odgovarajuće tražilice. Jedna ili više Disallow direktiva treba slijediti. Ove direktive govore robotu koje datoteke i mape je zabranjeno indeksirati. Na primjer, sljedeće redove spriječiti robote da indeksiraju datoteku feedback.php i cgi-bin direktorij:

Disallow: /feedback.php Disallow: / cgi-bin /

Također možete koristiti samo vodeće znakove datoteka ili mapa. Redak Disallow: / forum zabranjuje indeksiranje svih datoteka i mapa u korijenu stranice čiji naziv počinje s forum, na primjer, datoteka http://site.ru/forum.php i mapa http://site. ru/forum/ sa svim sadržajem. Ako je Disallow prazan, to znači da robot može indeksirati sve stranice. Ako je vrijednost Disallow simbol /, to znači da nije dopušteno indeksiranje cijele stranice.

Svako polje korisničkog agenta mora imati najmanje jedno polje Disallow. Odnosno, ako nećete ništa zabraniti za indeksiranje, tada bi datoteka robots.txt trebala sadržavati sljedeće unose:

Korisnički agent: * Disallow:

Dodatne direktive

osim regularni izrazi Yandex i Google dopuštaju korištenje direktive Allow, koja je suprotna od Disallow, odnosno određuje koje se stranice mogu indeksirati. V sljedeći primjer Yandexu je zabranjeno indeksirati sve osim adresa stranica koje počinju s / articles:

Korisnički agent: Yandex Dopusti: / članci Disallow: /

V ovaj primjer direktiva Allow mora biti napisana prije Disallow, inače će Yandex to shvatiti kao potpunu zabranu indeksiranja web mjesta. Prazna direktiva Allow također potpuno onemogućuje indeksiranje web mjesta:

Korisnički agent: Yandex Dopusti:

jednako

Korisnički agent: Yandex Disallow: /

Nestandardne direktive treba navesti samo za one tražilice koje ih podržavaju. Inače, robot ne razumije ovaj unos možda neće ispravno rukovati njime ili cijelom datotekom robots.txt. Za više informacija o dodatnim direktivama i, općenito, o razumijevanju naredbi datoteke robots.txt od strane pojedinog robota, pogledajte web stranicu odgovarajuće tražilice.

Regularni izrazi u robots.txt

Većina tražilica samo eksplicitno razmatra navedena imena datoteke i mape, ali postoje i naprednije tražilice. Google Robot i Yandex Robot podržavaju upotrebu jednostavnih regularnih izraza u robots.txt, što značajno smanjuje količinu posla za webmastere. Na primjer, sljedeće naredbe onemogućuju google robotu indeksiraj sve datoteke s nastavkom .pdf:

Korisnički agent: googlebot Disallow: * .pdf $

U ovom primjeru, znak * je bilo koji niz znakova, a $ označava kraj veze.

Korisnički agent: Yandex Dopusti: /articles/*.html$ Disallow: /

Gore navedene direktive dopuštaju Yandexu da indeksira samo datoteke s nastavkom ".html" koja se nalazi u mapi / articles /. Sve ostalo je zabranjeno za indeksiranje.

mapa stranice

Možete odrediti lokaciju svoje XML karte web-lokacije u datoteci robots.txt:

Korisnički agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Ako imate jako veliki broj stranice na web-mjestu i morali ste podijeliti kartu web-stranice na dijelove, tada morate navesti sve dijelove karte u datoteci robots.txt:

Korisnički agent: Yandex Disallow: Sitemap: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml

Ogledala web stranice

Kao što znate, obično se istoj stranici može pristupiti na dvije adrese: i s www i bez njega. Za robota za pretraživanje, site.ru i www.site.ru su različite stranice, ali s istim sadržajem. Zovu se ogledala.

Zbog činjenice da stranice stranice imaju veze i s www i bez njih, težina stranica može se podijeliti između www.site.ru i site.ru. Kako se to ne bi dogodilo, tražilica treba navesti glavno ogledalo stranice. Kao rezultat "lijepljenja" sva težina će pripadati jednom glavnom zrcalu i stranica će moći zauzeti višu poziciju u Rezultati pretraživanja.

Možete odrediti glavni zrcalo za Yandex izravno u datoteci robots.txt pomoću direktive Host:

Korisnički agent: Yandex Disallow: /feedback.php Disallow: / cgi-bin / Host: www.site.ru

Nakon lijepljenja, zrcalo www.site.ru će imati svu težinu i zauzet će višu poziciju u rezultatima pretraživanja. I tražilica uopće neće indeksirati site.ru.

Za ostale tražilice, izbor glavnog zrcala je trajno preusmjeravanje na strani poslužitelja (kod 301) s dodatnih zrcala na glavno. To se radi pomoću datoteke .htaccess i modula mod_rewrite. Da biste to učinili, stavite .htaccess datoteku u korijen stranice i tamo upišite sljedeće:

RewriteEngine On Opcije + FollowSymlinks RewriteBase / RewriteCond% (HTTP_HOST) ^ site.ru $ RewriteRule ^ (. *) $ Http://www.site.ru/$1

Kao rezultat toga, svi zahtjevi s site.ru ići će na www.site.ru, odnosno site.ru/page1.php bit će preusmjereni na www.site.ru/page1.php.

Metoda preusmjeravanja će raditi za sve tražilice i preglednike, ali se i dalje preporučuje dodavanje direktive Host za Yandex u datoteku robots.txt.

Komentari za robots.txt

Također možete dodati komentare u svoju robots.txt datoteku - oni počinju s # i završavaju s prijevodom reda. Komentare je preporučljivo pisati u zasebnom retku, a bolje ih je uopće ne koristiti.

Primjer korištenja komentara:

User-agent: StackRambler Disallow: / garbage / # nema ništa korisno u ovoj mapi Disallow: /doc.xhtml # i na ovoj stranici također # i svi komentari u ovoj datoteci su također beskorisni

Primjeri datoteka robots.txt

1. Svim robotima dopuštamo da indeksiraju sve dokumente web-mjesta:

Korisnički agent: * Disallow:
Korisnički agent: * Disallow: /

3. Zabranjujemo robota google tražilica indeksirajte datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: googlebot Disallow: / cgi-bin / Disallow: /feedback.php

4. Svim robotima dopuštamo indeksiranje cijele stranice i zabranjujemo robotu tražilice Yandex da indeksira datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: Yandex Disallow: / cgi-bin / Disallow: /feedback.php Host: www.site.ru Korisnički agent: * Disallow:

5. Svim robotima dopuštamo indeksiranje cijele stranice, a Yandex robotu dopuštamo da indeksira samo dio stranice namijenjen za to:

Korisnički agent: Yandex Dopusti: / yandex Disallow: / Host: www.site.ru Korisnički agent: * Disallow:

Prazne linije razdvajaju ograničenja za različite robote. Svaki blok ograničenja mora započeti redom s poljem User-Agent koji označava robota na kojeg se primjenjuju ova pravila indeksiranja web-mjesta.

Uobičajene pogreške

Mora se imati na umu da prazan redak u datoteci robots.txt je separator između dva zapisa za različite robote. Također, ne možete navesti više direktiva u jednom retku. Kada zabranjuju indeksiranje datoteke, webmasteri često preskaču / prije naziva datoteke.

Ne morate se registrirati u robots.txt za zabranu indeksiranja stranice razni programi, koji su namijenjeni za potpuno preuzimanje stranice, na primjer TeleportPro. Ni "programi za ljuljanje" niti preglednici nikada ne gledaju u ovu datoteku i ne slijede upute napisane tamo. Namijenjen je isključivo za tražilice. Također ne biste trebali blokirati administratorsku ploču svoje stranice u robots.txt, jer ako nema veze na nju, onda neće biti indeksirana. Lokacija administrativnog područja otkrit ćete samo ljudima koji za to ne bi trebali znati. Također je vrijedno zapamtiti da tražilica može zanemariti preveliki robots.txt. Ako imate previše stranica koje nisu namijenjene za indeksiranje, onda ih je bolje jednostavno izbrisati sa stranice ili premjestiti u poseban direktorij i zabraniti indeksiranje ovog direktorija.

Provjeravamo pogreške u datoteci robots.txt

Svakako provjerite kako tražilice razumiju vašu datoteku robota. Da biste provjerili Google, možete koristiti Google Alati za webmastere. Ako želite znati kako Yandex razumije vašu datoteku robots.txt, možete koristiti uslugu Yandex.Webmaster. To će vam omogućiti da na vrijeme ispravite učinjene pogreške. Također na stranicama ovih usluga možete pronaći preporuke za sastavljanje datoteke robots.txt i puno drugih korisnih informacija.

Zabranjeno je kopiranje članka.

Tehnički aspekti stvorene stranice ne igraju ništa manje važna uloga za promociju web stranice u tražilicama nego njezin sadržaj. Jedan od najvažnijih tehnički aspekti je indeksiranje web-mjesta, odnosno definicija područja stranice (datoteke i direktorije) koja mogu, ali i ne moraju biti indeksirana od strane robota tražilice. U te svrhe koristi se robots.txt - to jest posebna datoteka koji sadrži naredbe za robote tražilice. Ispravna datoteka robots.txt za Yandex i Google pomoći će u izbjegavanju mnogih neugodnih posljedica povezanih s indeksiranjem web mjesta.

2. Koncept datoteke robots.txt i zahtjevi za nju

Datoteka /robots.txt namijenjena je da uputi sve pauke da indeksiraju informacijski poslužitelji kako je definirano u ovoj datoteci, tj. samo one direktorije i datoteke poslužitelja koji nisu opisani u /robots.txt. Ova datoteka mora sadržavati 0 ili više zapisa koji su pridruženi jednom ili drugom robotu (kako je određeno vrijednošću polja agent_id) i naznačiti za svakog robota ili za sve odjednom što ih točno ne treba indeksirati.

Sintaksa datoteke omogućuje vam postavljanje zabranjenih područja indeksiranja, kako za sve tako i za određene robote.

Postoje posebni zahtjevi za datoteku robots.txt, nepoštovanje kojih može dovesti do pogrešnog čitanja od strane robota tražilice ili čak do neoperabilnosti ove datoteke.

Primarni zahtjevi:

  • sva slova u nazivu datoteke moraju biti velika, odnosno moraju biti mala:
  • robots.txt - ispravan,
  • Robots.txt ili ROBOTS.TXT je pogrešan;
  • datoteka robots.txt mora biti generirana u tekstualni format Unix. Prilikom kopiranja ove datoteke na web-mjesto, ftp klijent mora biti konfiguriran na tekstualni način dijeljenje datoteka;
  • datoteka robots.txt mora se nalaziti u korijenskom direktoriju stranice.

3. Sadržaj datoteke robots.txt

Datoteka robots.txt uključuje dva unosa: "User-agent" i "Disallow". Nazivi ovih zapisa ne razlikuju velika i mala slova.

Neke tražilice također podržavaju dodatni unosi... Na primjer, Yandex tražilica koristi Host zapis za određivanje glavnog ogledala web-mjesta (glavno zrcalo stranice je stranica koja se nalazi u indeksu tražilica).

Svaki unos ima svoju svrhu i može se susresti nekoliko puta, ovisno o broju stranica i/ili direktorija koje treba zatvoriti iz indeksiranja i broju robota kojima pristupate.

Trebalo sljedećem formatu redovi datoteke robots.txt:

naziv_upisa[neobavezno

razmaci] : [neobavezno

razmaci] značenje[neobavezni razmaci]

Da bi se datoteka robots.txt smatrala valjanom, najmanje jedna direktiva "Disallow" mora biti prisutna nakon svakog unosa "User-agent".

Potpuno prazna datoteka robots.txt je ekvivalent no robots.txt, što podrazumijeva dopuštenje za indeksiranje cijele stranice.

Unos korisničkog agenta

Zapis "User-agent" mora sadržavati naziv robota za pretraživanje. U ovom unosu možete svakom konkretnom robotu reći koje stranice web-mjesta treba indeksirati, a koje ne.

Primjer zapisa "User-agent", gdje se poziv javlja svima tražilice nema izuzetaka i koristi se simbol "*":

Primjer zapisa "User-agent", gdje se poziv upućuje samo robotu tražilice Rambler:

Korisnički agent: StackRambler

Svaki robot tražilice ima svoje ime. Postoje dva glavna načina da ga prepoznate (ime):

na web stranicama mnogih tražilica postoji specijalizirani odjeljak "pomoć webmasteru", u kojem se često navodi ime robota za pretraživanje;

Kada gledate zapise web poslužitelja, odnosno kada gledate reference na datoteku § robots.txt, možete vidjeti mnoga imena koja sadrže nazive tražilica ili dio njih. Stoga samo trebate odabrati željeni naziv i unijeti ga u datoteku robots.txt.

Zabrani snimanje

Zapis "Disallow" mora sadržavati upute koje robotu za pretraživanje iz zapisa "User-agent" pokazuju koje datoteke i/ili direktorije je zabranjeno indeksirati.

Smatrati razni primjeri Zabrani zapise.

Primjer unosa robots.txt (dopusti sve za indeksiranje):

Zabraniti:

Primjer (stranici je potpuno zabranjeno. Za to koristite simbol "/"): Disallow: /

Primjer (datoteka "page.htm" koja se nalazi u korijenskom direktoriju i datoteka "page2.htm" koja se nalazi u direktoriju "dir" zabranjene su za indeksiranje):

Disallow: /page.htm

Disallow: /dir/page2.htm

Primjer (direktoriji "cgi-bin" i "forum" i stoga cijeli sadržaj ovog direktorija zabranjeni su za indeksiranje):

Zabraniti: / cgi-bin /

Disallow: / forum /

Moguće je zatvoriti indeksiranjem većeg broja dokumenata i (ili) direktorija koji počinju istim znakovima koristeći samo jedan "Disallow" unos. Da biste to učinili, morate napisati početne identične znakove bez završne kose crte.

Primjer (direktorij "dir" je zabranjen za indeksiranje, kao i sve datoteke i direktorije koji počinju slovima "dir", odnosno datoteke: "dir.htm", "direct.htm", direktorije: "dir", "imenik1 "," Direktorij2 ", itd.):

Dopusti ulaz

Opcija "Dopusti" se koristi za označavanje izuzimanja iz neindeksiranih direktorija i stranica koje su specificirane unosom "Disallow".

Na primjer, postoji unos koji izgleda ovako:

Disallow: / forum /

Ali u isto vrijeme, stranicu 1 potrebno je indeksirati u / forum / direktoriju. Zatim su vam potrebne sljedeće linije u datoteci robots.txt:

Disallow: / forum /

Dopusti: / forum / stranica1

Zapis Sitemapa

Ovaj unos ukazuje na lokaciju karte web-lokacije u xml formatu koju koriste roboti za pretraživanje. Ovaj unos označava put do ove datoteke.

Mapa stranice: http://site.ru/sitemap.xml

Zapis domaćina

Unos "host" koristi tražilica Yandex. Potrebno je odrediti glavno zrcalo stranice, odnosno ako stranica ima ogledala (zrcalo je djelomično ili cijeli primjerak mjesto. Prisutnost dupliciranih resursa ponekad je neophodna vlasnicima vrlo posjećenih stranica kako bi povećali pouzdanost i dostupnost njihove usluge), a zatim pomoću direktive "Host" možete odabrati naziv pod kojim želite biti indeksirani. Inače će Yandex sam odabrati glavno ogledalo, a ostalim imenima bit će zabranjeno indeksiranje.

Radi kompatibilnosti s alatima za indeksiranje koji ne prihvaćaju direktivu Host prilikom obrade datoteke robots.txt, dodajte unos "Host" odmah nakon unosa Disallow.

Primjer: www.site.ru - glavno ogledalo:

Domaćin: www.site.ru

Unos s odgodom puzanja

Ovaj unos percipira Yandex. To je naredba za robota da napravi intervale od određenog vremena (u sekundama) između indeksiranja stranica. Ponekad je potrebno zaštititi mjesto od preopterećenja.

Dakle, sljedeći unos znači da Yandex robot mora prijeći s jedne stranice na drugu ne prije 3 sekunde kasnije:

Komentari (1)

Svaki redak u robots.txt koji počinje znakom "#" smatra se komentarom. Dopušteno je koristiti komentare na kraju redaka s direktivama, ali neki roboti možda neće ispravno prepoznati ovaj redak.

Primjer (komentar je u istom retku zajedno s direktivom):

Disallow: / cgi-bin / # komentar

Komentar je preporučljivo staviti u poseban redak. Bijeli prostor na početku retka je dopušten, ali se ne preporučuje.

4. Uzorak datoteka robots.txt

Primjer (komentar je u zasebnom retku):
Disallow: / cgi-bin / # komentar

Primjer datoteke robots.txt koja svim robotima omogućuje indeksiranje cijele stranice:

Domaćin: www.site.ru

Primjer datoteke robots.txt koja svim robotima zabranjuje indeksiranje web-mjesta:

Domaćin: www.site.ru

Primjer datoteke robots.txt koja svim robotima zabranjuje indeksiranje direktorija "abc", kao i svih direktorija i datoteka koje počinju znakovima "abc".

Domaćin: www.site.ru

Primjer datoteke robots.txt koja zabranjuje indeksiranje stranice "page.htm" koja se nalazi u korijenskom direktoriju stranice od strane robota za pretraživanje "googlebot":

Korisnički agent: googlebot

Disallow: /page.htm

Domaćin: www.site.ru

Primjer datoteke robots.txt koja onemogućuje indeksiranje:

- za robota "googlebot" - stranica "page1.htm" koja se nalazi u direktoriju "imenik";

- za Yandex robota - svi direktoriji i stranice koji počinju sa simbolima "dir" (/ dir /, / direct /, dir.htm, direction.htm, itd.) i nalaze se u korijenskom direktoriju web-mjesta.

Korisnički agent: googlebot

Disallow: /directory/page1.htm

Korisnički agent: Yandex

5. Pogreške povezane s datotekom robots.txt

Jedna od najčešćih pogrešaka je obrnuta sintaksa.

Nije ispravno:

Zabraniti: Yandex

Pravo:

Korisnički agent: Yandex

Nije ispravno:

Disallow: / dir / / cgi-bin / / forum /

Pravo:

Zabraniti: / cgi-bin /

Disallow: / forum /

Ako pri obradi greške 404 (dokument nije pronađen) web poslužitelj izda posebnu stranicu, a datoteka robots.txt nedostaje, tada je moguća situacija kada se robotu za pretraživanje pri zahtjevu za datoteku robots.txt da ista posebna stranica koja ni na koji način nije kontrolna datoteka indeksiranja.

Pogreška u vezi s slučajem robots.txt. Na primjer, ako trebate zatvoriti direktorij "cgi-bin", tada u unosu "Disallow" ne možete napisati naziv direktorija velikim slovima "cgi-bin".

Nije ispravno:

Zabraniti: / CGI-BIN /

Pravo:

Zabraniti: / cgi-bin /

Pogreška povezana s izostankom otvorne kose crte prilikom zatvaranja direktorija iz indeksiranja.

Nije ispravno:

Disallow: page.HTML

Pravo:

Disallow: /page.html

Kako biste izbjegli najčešće pogreške, možete provjeriti datoteku robots.txt pomoću Yandex.Webmaster alata ili Alata za Google webmasteri... Provjera se provodi nakon preuzimanja datoteke.

6. Zaključak

Dakle, prisutnost datoteke robots.txt, kao i njezina kompilacija, može utjecati na promociju stranice u tražilicama. Bez poznavanja sintakse datoteke robots.txt, možete zabraniti indeksiranje mogućih promoviranih stranica, kao i cijele stranice. I obrnuto, kompetentna kompilacija ove datoteke može uvelike pomoći u promicanju resursa, na primjer, možete zatvoriti dokumente od indeksiranja koji ometaju promociju željenih stranica.

Od autora: Imate li na svojoj web stranici stranice koje ne biste željeli prikazati tražilicama? U ovom članku ćete detaljno naučiti kako spriječiti indeksiranje stranice u robots.txt, je li to ispravno i općenito kako pravilno blokirati pristup stranicama.

Dakle, trebate spriječiti indeksiranje nekih određene stranice... Najlakši način da to učinite bit će u samoj datoteci robots.txt, dodajući joj potrebne retke. Želim napomenuti da smo registrirali adrese mapa u odnosu na url-adrese određene stranice navedite na isti način, ali možete napisati apsolutni put.

Recimo da moj blog ima par stranica: kontakte, o meni i mojim uslugama. Ne bih volio da se indeksiraju. U skladu s tim pišemo:

Korisnički agent: * Disallow: / kontakty / Disallow: / about / Disallow: / uslugi /

Druga varijanta

Super, ali nije jedini način zatvorite pristup robotu određenim stranicama. Drugi je postavljanje posebne meta oznake u html-kod. Naravno, stavite samo u one zapise koje je potrebno zatvoriti. izgleda ovako:

< meta name = "robots" content = "noindex,nofollow" >

Oznaka se mora postaviti u spremnik za glavu u html dokumentu za ispravan rad... Kao što vidite, ima dva parametra. Naziv je naveden kao alat za indeksiranje i navodi da su ove indikacije za indekse.

Parametar sadržaja mora imati dvije vrijednosti odvojene zarezima. Prvi je zabrana ili dopuštenje za indeksiranje tekstualne informacije na stranici, drugi je pokazatelj treba li indeksirati veze na stranici.

Dakle, ako želite da se stranica uopće ne indeksira, navedite vrijednosti noindex, nofollow, odnosno nemojte indeksirati tekst i zabraniti praćenje veza, ako ih ima. Postoji pravilo da ako nema teksta na stranici, onda neće biti indeksirana. Odnosno, ako je sav tekst zatvoren u noindexu, onda nema ništa za indeksiranje, tako da ništa neće ući u indeks.

Osim toga, postoje takve vrijednosti:

noindex, follow - zabrana indeksiranja teksta, ali dopuštenje za praćenje linkova;

index, nofollow - može se koristiti kada sadržaj treba prenijeti u indeks, ali sve poveznice u njemu treba zatvoriti.

index, follow - zadana vrijednost. Sve je dopušteno.

Vrhunski povezani članci