Kako postaviti pametne telefone i računala. Informativni portal

Ispravna robots txt datoteka. Yandex roboti

Svaki blog daje svoj odgovor na ovo pitanje. Stoga su novopridošlice u optimizaciji za tražilice često zbunjene, poput ovoga:

Kakvi ste vi roboti?

Datoteka robots.txt ili indeksnu datoteku- običan tekstualni dokument kodiran u UTF-8, važeći za http, https i FTP protokole. Datoteka daje indeksima preporuke o tome koje stranice/datoteke se isplati indeksirati. Ako datoteka sadrži znakove koji nisu u UTF-8, već u drugom kodiranju, roboti za pretraživanje ih možda neće ispravno obraditi. Pravila navedena u datoteci robots.txt vrijede samo za host, protokol i broj porta na kojem se datoteka nalazi.

Datoteka bi se trebala nalaziti u korijenskom direktoriju kao običan tekstualni dokument i biti dostupna na: https://site.com.ua/robots.txt.

U drugim datotekama uobičajeno je staviti oznaku PTO (Byte Order Mark). To je Unicode znak koji se koristi za određivanje slijeda u bajtovima prilikom čitanja informacija. Njegova kodna točka je U + FEFF. Na početku datoteke robots.txt oznaka bajta se zanemaruje.

Google je postavio ograničenje na veličinu datoteke robots.txt – ne bi smjela težiti više od 500 KB.

U redu, ako vas zanimaju tehnički detalji, datoteka robots.txt je opis Backus Naur Form (BNF). Ovo koristi pravila RFC 822.

Prilikom obrade pravila u datoteci robots.txt, alati za indeksiranje primaju jednu od tri upute:

  • djelomični pristup: dostupno je skeniranje pojedinih elemenata stranice;
  • puni pristup: možete skenirati bilo što;
  • potpuna zabrana: robot ne može ništa skenirati.

Prilikom indeksiranja datoteke robots.txt, roboti dobivaju sljedeće odgovore:

  • 2xx - skeniranje je bilo uspješno;
  • 3xx - alat za indeksiranje prati preusmjeravanje sve dok ne dobije drugi odgovor. Najčešće postoji pet pokušaja da robot primi odgovor koji nije 3xx, a zatim se bilježi greška 404;
  • 4xx - robot za pretraživanje vjeruje da je moguće indeksirati cijeli sadržaj stranice;
  • 5xx - ocjenjuju se kao privremene pogreške poslužitelja, skeniranje je potpuno zabranjeno. Robot će se pozivati ​​na datoteku dok ne primi drugi odgovor. Googleov alat za indeksiranje može utvrditi je li odgovor stranica koje nedostaju ispravno ili pogrešno konfiguriran, odnosno ako umjesto pogreške 404 stranica vraća odgovor 5xx , u ovom slučaju stranica će biti obrađena s kodom odgovora 404.

Još nije poznato kako se obrađuje datoteka robots.txt, koja nije dostupna zbog problema s poslužiteljem s pristupom Internetu.

Zašto vam je potrebna datoteka robots.txt

Na primjer, ponekad roboti ne bi trebali posjetiti:

  • stranice s osobnim podacima korisnika na stranici;
  • stranice s raznim oblicima slanja informacija;
  • zrcalna mjesta;
  • stranice s rezultatima pretraživanja.

Važno: čak i ako se stranica nalazi u datoteci robots.txt, postoji šansa da će se pojaviti u rezultatima pretraživanja ako je veza na nju pronađena unutar stranice ili negdje na vanjskom resursu.

Ovako roboti tražilice vide stranicu sa i bez datoteke robots.txt:

Bez robots.txt, informacije koje bi trebale biti skrivene od znatiželjnih očiju mogu ući u rezultate pretraživanja, a zbog toga ćete patiti i vi i stranica.

Ovako robot tražilice vidi datoteku robots.txt:

Google je pronašao robots.txt datoteku na web-mjestu i pronašao pravila za indeksiranje stranica web-lokacije

Kako stvoriti robots.txt datoteku

Korištenje notepad-a, Notepad-a, Sublime-a ili bilo kojeg drugog uređivača teksta.

User-agent - posjetnica za robote

Korisnički agent — Pravilo za koje roboti trebaju vidjeti upute opisane u datoteci robots.txt. Trenutno su poznata 302 robota za pretraživanje

Kaže da navodimo pravila u robots.txt za sve robote za pretraživanje.

Googlebot je glavni robot za Google. Ako samo to želimo uzeti u obzir, unos u datoteci će biti ovakav:

U tom će slučaju svi ostali roboti indeksirati sadržaj na temelju svojih uputa za obradu prazne datoteke robots.txt.

Za Yandex, glavni robot je ... Yandex:

Ostali specijalni roboti:

  • Googlebot-Vijesti- za traženje vijesti;
  • Mediapartners-Google- za uslugu Adsense;
  • AdsBot-Google- provjeriti kvalitetu odredišne ​​stranice;
  • Yandex slike- Yandex.Image indexer;
  • Googlebot-slika- za slike;
  • Yandexmetric- robot Yandex.Metrica;
  • YandexMedia- robot indeksiranje multimedijskih podataka;
  • YaDirectFetcher- robot Yandex.Direct;
  • Googlebot-Video- za video;
  • Googlebot-Mobile- za mobilnu verziju;
  • YandexDirectDyn- robot za generiranje dinamičkih bannera;
  • Yandex Blogovi- robot za pretraživanje bloga koji indeksira postove i komentare;
  • YandexMarket- robot Yandex.Market;
  • YandexNews- robot Yandex.Vijesti;
  • YandexDirect- preuzima informacije o sadržaju partnerskih stranica Mreže za oglašavanje kako bi se razjasnile njihove teme za odabir relevantnog oglašavanja;
  • YandexPagechecker- validator mikro oznaka;
  • Yandex kalendar- Yandex.Calendar robot.

Disallow - postavljanje "cigli"

Treba ga koristiti ako je stranica u procesu poboljšanja i ne želite da se pojavljuje u SERP-u u svom trenutnom stanju.

Važno je ukloniti ovo pravilo čim stranica bude spremna da ga korisnici vide. Nažalost, mnogi webmasteri to zaboravljaju.

Primjer. Kako napisati pravilo Disallow da savjetuje robotima da ne pregledavaju sadržaj mape / papka /:

Ovaj redak zabranjuje indeksiranje svih datoteka s nastavkom ..gif

Dopusti - usmjeravanje robota

Dopusti omogućuje skeniranje bilo koje datoteke / direktive / stranice. Recimo da je potrebno da roboti mogu gledati samo stranice koje počinju s / katalog, a zatvarati sav ostali sadržaj. U tom slučaju propisana je sljedeća kombinacija:

Pravila Dopusti i Disallow razvrstana su prema duljini prefiksa URL-a (najniže do najveće) i primjenjuju se uzastopno. Ako više od jednog pravila odgovara stranici, robot odabire posljednje pravilo na sortiranom popisu.

Host - odaberite zrcalo stranice

Host je jedno od pravila obveznih za robots.txt; ono govori Yandex robotu koji od zrcala web-mjesta treba uzeti u obzir za indeksiranje.

Zrcalo web-mjesta je točna ili gotovo točna kopija web-mjesta, dostupna na različitim adresama.

Robot se neće zbuniti prilikom pronalaženja zrcala web-mjesta i razumjet će da je glavno zrcalo navedeno u datoteci robots.txt. Adresa web-mjesta je navedena bez prefiksa "http: //", ali ako web-mjesto radi na HTTPS-u, mora se navesti prefiks "https: //".

Kako napisati ovo pravilo:

Primjer datoteke robots.txt ako web-mjesto radi na HTTPS protokolu:

Sitemap - medicinski sitemap

Sitemap govori robotima da se nalaze svi URL-ovi web-mjesta potrebni za indeksiranje http://site.ua/sitemap.xml... Svakim indeksiranjem robot će pogledati koje su promjene napravljene u ovoj datoteci i brzo osvježiti informacije o stranici u bazama podataka tražilice.

Crawl-dey - štoperica za slabe poslužitelje

Odgoda indeksiranja je parametar s kojim možete postaviti razdoblje nakon kojeg će se stranice web stranice učitavati. Ovo pravilo je relevantno ako imate slab poslužitelj. U tom slučaju moguća su velika kašnjenja kada roboti za pretraživanje pristupaju stranicama web-mjesta. Ovaj parametar se mjeri u sekundama.

Clean-param - lovac na duple sadržaje

Clean-param pomaže u borbi protiv get-parametara kako bi se izbjegao duplicirani sadržaj kojem se može pristupiti na različitim dinamičkim URL-ovima (s upitnicima). Takve se adrese pojavljuju ako web-mjesto ima različita sortiranja, ID sesije i tako dalje.

Recimo da je stranica dostupna na adresama:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

U ovom slučaju, datoteka robots.txt će izgledati ovako:

Ovdje ref označava odakle dolazi poveznica, pa se piše na samom početku, a tek onda se navodi ostatak adrese.

No prije nego što prijeđete na referentnu datoteku, morate saznati više o nekim znakovima koji se koriste pri pisanju datoteke robots.txt.

Simboli u robots.txt

Glavni znakovi datoteke su "/, *, $, #".

Preko kosa crta "/" pokazujemo da se želimo zatvoriti od otkrivanja robota. Na primjer, ako u pravilu Disallow postoji jedna kosa crta, zabranjujemo indeksiranje cijele stranice. Koristeći dvije kose crte, možete zabraniti skeniranje bilo kojeg određenog direktorija, na primjer: /katalog /.

Takav unos kaže da zabranjujemo indeksiranje cjelokupnog sadržaja mape kataloga, ali ako napišemo / catalog, zabranjujemo sve linkove na stranici koji će počinjati na / katalog.

zvjezdica "*" znači bilo koji niz znakova u datoteci. Stavlja se iza svakog pravila.

Ovaj unos kaže da svi roboti ne bi trebali indeksirati nijednu .gif datoteku u / catalog / mapi.

Znak dolara «$» ograničava radnje zvjezdice. Ako je potrebno zabraniti sav sadržaj mape kataloga, ali je u isto vrijeme nemoguće zabraniti url-ove koji sadrže / catalog, unos u datoteci indeksa bit će sljedeći:

Rešetka "#" koristi se za komentare koje webmaster ostavlja sebi ili drugim webmasterima. Robot ih neće uzeti u obzir prilikom indeksiranja stranice.

Na primjer:

Kako izgleda savršen robots.txt

Datoteka otvara sadržaj stranice za indeksiranje, host je registriran i naznačena je mapa web stranice, što će omogućiti tražilicama da uvijek vide adrese koje je potrebno indeksirati. Pravila za Yandex navedena su zasebno, budući da svi roboti ne razumiju uputu Host-a.

Ali nemojte žuriti kopirati sadržaj datoteke sebi - za svaku stranicu moraju postojati jedinstvena pravila koja ovise o vrsti stranice i CMS-u. pa je ovdje vrijedno zapamtiti sva pravila prilikom popunjavanja datoteke robots.txt.

Kako provjeriti datoteku robots.txt

Ako želite znati jeste li ispravno popunili datoteku robots.txt, provjerite je u alatima za webmastere Google i Yandex. Samo unesite izvorni kod datoteke robots.txt u obrazac za poveznicu i navedite mjesto za provjeru.

Kako ne ispuniti datoteku robots.txt

Često se pri popunjavanju indeksne datoteke prave dosadne pogreške, a povezane su s uobičajenom nepažnjom ili žurbom. Ispod je dijagram pogrešaka s kojima sam se susreo u praksi.

2. Pisanje više mapa/direktorija u jednu naredbu Disallow:

Takav zapis može zbuniti robote za pretraživanje, možda neće razumjeti što točno ne bi trebali indeksirati: ili prvu mapu, ili posljednju, tako da morate napisati svako pravilo zasebno.

3. Sama datoteka mora biti imenovana samo robots.txt, ne Robots.txt, ROBOTS.TXT ili na neki drugi način.

4. Pravilo korisničkog agenta ne možete ostaviti praznim - trebate reći koji robot treba uzeti u obzir pravila navedena u datoteci.

5. Dodatni znakovi u datoteci (kose crte, zvjezdice).

6. Dodavanje stranica u datoteku koje ne bi trebale biti u indeksu.

Nestandardna upotreba robots.txt

Osim izravnih funkcija, indeksna datoteka može postati platforma za kreativnost i način za pronalaženje novih zaposlenika.

Evo stranice na kojoj je robots.txt sama mala stranica s radnim elementima, pa čak i oglasnom jedinicom.

Datoteku uglavnom koriste SEO agencije kao platformu za pronalaženje stručnjaka. A tko još može saznati za njegovo postojanje? :)

I Google ima posebnu datoteku ljudi.txt tako da ne dopustite pomisao na diskriminaciju stručnjaka za kožu i meso.

zaključke

Uz pomoć Robots.txt možete dati upute za pretraživanje robota, reklamirati sebe, svoju marku i tražiti stručnjake. Ovo je sjajno polje za eksperimentiranje. Glavna stvar je zapamtiti ispravno punjenje datoteke i tipične pogreške.

Pravila, to su direktive, to su upute u datoteci robots.txt:

  1. Korisnički agent - pravilo o tome koji roboti trebaju vidjeti upute opisane u robots.txt.
  2. Disallow daje savjete koje informacije ne bi trebale biti skenirane.
  3. Sitemap obavještava robote da se svi URL-ovi stranice potrebni za indeksiranje nalaze na http://site.ua/sitemap.xml.
  4. Host govori Yandex robotu koji od zrcala web-mjesta treba uzeti u obzir za indeksiranje.
  5. Dopusti omogućuje skeniranje bilo koje datoteke / direktive / stranice.

Znakovi pri sastavljanju robots.txt:

  1. Znak dolara "$" ograničava radnje znaka zvjezdice.
  2. Koristeći kosu crtu "/" pokazujemo što želimo zatvoriti od otkrivanja robota.
  3. Zvjezdica "*" označava bilo koji niz znakova u datoteci. Stavlja se iza svakog pravila.
  4. Hash "#" koristi se za označavanje komentara koje webmaster piše za sebe ili druge webmastere.

Pametno koristite indeksnu datoteku i vaša će stranica uvijek biti u rezultatima pretraživanja.

Generator prodaje

Ako pogriješite pri izradi datoteke robots.txt, ona može biti beskorisna za pretraživače za indeksiranje. Postojat će rizik od pogrešnog prijenosa potrebnih naredbi robotima za pretraživanje, što će dovesti do smanjenja ocjene, promjene korisničkih pokazatelja virtualne stranice. Čak i ako stranica radi dobro i dovršena, provjera robots.txt joj neće naštetiti, već će samo poboljšati rad.

U ovom članku ćete naučiti:

Što provjerava robots.txt?

Ponekad sustav uključuje nepotrebne stranice vašeg internetskog resursa u rezultate pretraživanja, što nije nužno. Možda se čini da nema ništa loše u velikom broju stranica u indeksu tražilice, ali nije:

  • Na dodatnim stranicama korisnik neće pronaći nikakve korisne informacije za sebe. Najvjerojatnije neće uopće posjetiti ove stranice ili će se na njima kratko zadržati;
  • Rezultati tražilice prikazuju iste stranice čije su adrese različite (odnosno sadržaj je dupliciran);
  • Roboti za pretraživanje moraju potrošiti puno vremena da indeksiraju potpuno nepotrebne stranice. Umjesto da indeksiraju koristan sadržaj, beskorisno će lutati po stranici. Budući da robot ne može indeksirati cijeli resurs u potpunosti i to radi stranicu po stranicu (budući da postoji mnogo stranica), potrebne informacije koje biste željeli dobiti nakon pokretanja upita možda neće biti vrlo brzo pronađeni;
  • Poslužitelj je jako opterećen.

U tom smislu, preporučljivo je blokirati pristup robotima za pretraživanje nekim stranicama web resursa.

Koje datoteke i mape može biti zabranjeno za indeksiranje:

  1. Stranice za pretraživanje. Ovo je kontroverzna točka. Ponekad je korištenje internog pretraživanja na web stranici potrebno kako bi se stvorile relevantne stranice. Ali to se ne radi uvijek. Često je rezultat pretraživanja pojava velikog broja dupliciranih stranica. Stoga se preporuča zatvoriti stranice za pretraživanje radi indeksiranja.
  2. Košarica i stranica na kojoj je narudžba/potvrđena. Preporuča se njihovo zatvaranje za web-stranice e-trgovine i druge komercijalne resurse koji koriste obrazac za narudžbu. Ulazak ovih stranica u indeks tražilica vrlo je nepoželjan.
  3. Paginacija stranica. U pravilu ih karakterizira automatsko prepisivanje istih meta tagova. Osim toga, koriste se za postavljanje dinamičkog sadržaja, pa se duplikati pojavljuju u rezultatima pretraživanja. U tom smislu, paginaciju treba zatvoriti radi indeksiranja.
  4. Filtri i usporedba proizvoda. Moraju ih zatvoriti online trgovine i katalozi.
  5. Stranice za registraciju i autorizaciju. Potrebno ih je zatvoriti zbog povjerljivosti podataka koje su korisnici unijeli prilikom registracije ili autorizacije podataka. Google će procijeniti nedostupnost ovih stranica za indeksiranje.
  6. Sistemski direktoriji i datoteke. Svaki resurs na Internetu sastoji se od puno podataka (skripte, CSS tablice, administrativni dio) koje roboti ne bi trebali pregledavati.

Datoteka robots.txt pomoći će vam da zatvorite datoteke i stranice za indeksiranje.

robots.txt je obična tekstualna datoteka koja sadrži upute za indeksiranje. Kada je alat za indeksiranje na web-lokaciji, najprije traži datoteku robots.txt. Ako je odsutan (ili prazan), tada će robot otići na sve stranice i direktorije resursa (uključujući one u sustavu) koji su slobodno dostupni i pokušati ih indeksirati. Istodobno, ne postoji jamstvo da će stranica koja vam je potrebna biti indeksirana, jer možda neće doći do nje.

robots.txt omogućuje vam da usmjerite robote za pretraživanje na željene stranice i ne dopustite im da odu na one koje ne bi trebale biti indeksirane. Datoteka može dati upute oba robota odjednom ili svakog pojedinačno. Ako je web stranica zatvorena od indeksiranja, ona se nikada neće pojaviti u rezultatima tražilice. Datoteka robots.txt je neophodna.

Lokacija datoteke robots.txt trebala bi biti poslužitelj, korijen vašeg resursa. Datoteka robots.txt bilo koje stranice može se vidjeti na webu. Da biste ga vidjeli, trebate dodati /robots.txt iza adrese resursa.

Obično se robots.txt datoteke različitih resursa razlikuju jedna od druge. Ako nepromišljeno kopirate datoteku tuđe stranice, tada će biti problema prilikom indeksiranja vaše stranice od strane robota za pretraživanje. Stoga je toliko potrebno znati čemu služi datoteka robots.txt i upute (smjernice) koje se koriste za njezino stvaranje.


Pošaljite svoju prijavu

Kako Yandex provjerava robots.txt

  • Posebna usluga Yandex.Webmastera "Analiza robots.txt" pomoći će provjeriti datoteku. Možete ga pronaći na poveznici: http://webmaster.yandex.ru/robots.xml
  • U predloženi obrazac trebate unijeti sadržaj datoteke robots.txt koju želite provjeriti ima li pogrešaka. Postoje dva načina za unos podataka:
    1. Idite na stranicu pomoću veze http: //your-site.ru/robots.txt, kopirajte sadržaj u prazno polje usluge (ako nema datoteke robots.txt, morate je stvoriti!);
    2. Zalijepite vezu na datoteku koja se provjerava u polje "Hostname", pritisnite "Preuzmi robots.txt sa stranice" ili Enter.
  • Provjera se pokreće pritiskom na naredbu "Provjeri".
  • Nakon što je test započeo, možete analizirati rezultate.

Nakon pokretanja provjere, analizator analizira svaki redak sadržaja polja "Text robots.txt" i analizira direktive koje sadrži. Osim toga, iz polja Popis URL-ova saznat ćete hoće li robot indeksirati stranice.

Uređivanjem pravila možete stvoriti datoteku robots.txt prikladnu za vaš resurs. Ne zaboravite da sama datoteka resursa ostaje nepromijenjena. Da bi promjene stupile na snagu, morat ćete samostalno prenijeti novu verziju datoteke na web-mjesto.

Prilikom provjere smjernica odjeljaka namijenjenih Yandex robotu (User-agent: Yandex ili User-agent: *), analizator se vodi prema pravilima za korištenje robots.txt. Ostali dijelovi se provjeravaju u skladu sa zahtjevima standarda. Kada analizator analizira datoteku, prikazuje poruku o pronađenim pogreškama, upozorava ako ima netočnosti u pisanju pravila i navodi koji su dijelovi datoteke namijenjeni Yandex robotu.

Analizator može slati poruke dvije vrste: pogreške i upozorenja.

Poruka o pogrešci prikazuje se ako analizator ne može obraditi bilo koji red, odjeljak ili cijelu datoteku zbog ozbiljnih sintaktičkih pogrešaka koje su napravljene prilikom pisanja direktiva.

Upozorenje obično obavještava o odstupanju od pravila, koje analizator ne može ispraviti, ili o prisutnosti potencijalnog problema (možda se i ne pojavi), čiji je uzrok slučajna tipkarska pogreška ili netočna pravila.

Poruka o pogrešci "Ovaj URL ne pripada vašoj domeni" znači da popis URL-ova sadrži adresu jednog od zrcala vašeg resursa, na primjer, http://example.com umjesto http://www.example. com (formalno se ti URL-ovi razlikuju). URL-ovi koji se provjeravaju moraju biti povezani s web-mjestom čija se datoteka robots.txt analizira.

Kako se robots.txt provjerava na Googleu

Google Search Console omogućuje vam da provjerite blokira li vaša datoteka robots.txt Googlebot da indeksira određene URL-ove na vašem posjedu. Na primjer, recimo da imate sliku koju ne želite vidjeti u Googleovim rezultatima pretraživanja slika. Alat će vam reći ima li Googlebot-Image pristup ovoj slici.

Da biste to učinili, navedite URL koji vas zanima. Nakon toga, datoteku robots.txt obrađuje alat za provjeru, slično kao što je provjera Googlebot. To omogućuje utvrđivanje je li ova adresa dostupna.

Postupak provjere:

  • Nakon što odaberete svoje vlasništvo na Google Search Consoleu, idite na alat za provjeru valjanosti koji će vam dati sadržaj vaše datoteke robots.txt. Označeni tekst su sintaktičke pogreške ili logičke pogreške. Njihov broj je naveden ispod okvira za uređivanje.
  • Na dnu stranice sučelja vidjet ćete poseban prozor u koji trebate unijeti URL.
  • S desne strane će se pojaviti izbornik iz kojeg trebate odabrati robota.
  • Kliknite na gumb "Provjeri".
  • Ako potvrda rezultira porukom s tekstom "dostupno", to znači da Google roboti smiju posjetiti navedenu stranicu. Status "nedostupno" znači da robotima nije dopušten pristup.
  • Ako je potrebno, možete promijeniti izbornik i izvršiti novu provjeru. Pažnja! Neće biti automatskih promjena u datoteci robots.txt na vašoj web-lokaciji.
  • Kopirajte promjene i dodajte ih u datoteku robots.txt na vašem web poslužitelju.

Na što trebate obratiti pažnju:

  1. Promjene napravljene u uređivaču ne spremaju se na web poslužitelj. Morat ćete kopirati rezultirajući kod i zalijepiti ga u svoju robots.txt datoteku.
  2. Samo Googleovi korisnički agenti i roboti povezani s Googleom (na primjer, Googlebot) mogu dobiti rezultate provjere datoteke robots.txt pomoću alata. Međutim, ne postoji jamstvo da će interpretacija sadržaja vaše datoteke od strane robota drugih tražilica biti ista.

15 pogrešaka prilikom provjere vaše robots.txt datoteke

Greška 1. Zbunjene upute

Najčešća pogreška robots.txt su zbunjujuće upute. Na primjer:

  • Korisnički agent: /
  • Zabraniti: Yandex

Ispravna opcija je sljedeća:

  • Korisnički agent: Yandex
  • Zabraniti: /

Pogreška 2. Određivanje više direktorija u jednoj naredbi Disallow

Često vlasnici internetskih resursa pokušavaju registrirati sve direktorije za koje žele zabraniti indeksiranje u jednoj izjavi Disallow.

Disallow: / css / / cgi-bin / / slike /

Takav zapis ne ispunjava zahtjeve standarda, nemoguće je predvidjeti kako će ga obraditi različiti roboti. Neki od njih mogu zanemariti razmake. Njihova interpretacija zapisa bit će sljedeća: "Disallow: / css / cgi-bin / images /". Drugi mogu koristiti samo prvu ili posljednju mapu. Drugi pak mogu potpuno odbaciti uputu, a da je ne razumiju.

Postoji šansa da će obrada ove konstrukcije biti upravo ono što je majstor očekivao, ali ipak je bolje napisati to ispravno:

  • Zabraniti: / css /
  • Zabraniti: / cgi-bin /
  • Disallow: / slike /

Pogreška 3. Naziv datoteke sadrži velika slova

Točan naziv datoteke je robots.txt, a ne Robots.txt ili ROBOTS.TXT.

Greška 4. Pravopis naziva datoteke kao robot.txt umjesto robots.txt

Ne zaboravite ispravno imenovati datoteku robots.txt.

Pogreška 5. Ostavljajući niz u korisničkom agentu prazan

Pogrešna opcija:

  • Korisnički agent:
  • Zabraniti:
  • Korisnički agent: *
  • Zabraniti:

Greška 6. Pisanje Url-a u Host direktivi

URL se mora navesti bez upotrebe kratice Hypertext Transfer Protocol (http: //) i završne kose crte (/).

Nevažeći unos:

Ispravna opcija:

Ispravna upotreba direktive o hostu je samo za Yandex robota.

Greška 7. Korištenje zamjenskih znakova u naredbi Disallow

Ponekad, za popis svih datoteka file1.html, file2.html, file3.html, itd., webmaster može napisati:

  • Korisnički agent: *
  • Disallow: datoteka * .html

Međutim, to se ne može učiniti jer neki roboti nemaju podršku za zamjenske znakove.

Greška 8. Korištenje jednog retka za pisanje komentara i uputa

Standard dopušta takve unose:

Disallow: / cgi-bin / # zabrani robotima da indeksiraju cgi-bin

Ranije neki roboti nisu mogli obraditi takve nizove. Možda u ovom trenutku niti jedna tražilica neće imati problema s tim, ali vrijedi li riskirati? Bolje je staviti komentare u poseban redak.

Pogreška 9. Preusmjerite na stranicu pogreške 404

Često, ako web-mjesto nema datoteku robots.txt, onda kada se to zatraži, tražilica će preusmjeriti na drugu stranicu. Ponekad to ne vraća status 404 Not Found. Robot mora shvatiti što je primio - robots.txt ili običnu html datoteku. To nije problem, ali bolje je imati praznu datoteku robots.txt u korijenu stranice.

Greška 10: Upotreba velikih slova znak je lošeg stila

KORISNIČKI AGENT: GOOGLEBOT

Iako standard ne regulira osjetljivost na velika i mala slova robots.txt, često se događa za nazive datoteka i direktorija. Također, ako je vaša datoteka robots.txt napisana velikim slovima, smatra se lošim stilom.

Korisnički agent: googlebot

Pogreška 11. Popis svih datoteka

Bilo bi pogrešno navesti svaku datoteku u direktoriju zasebno:

  • Korisnički agent: *
  • Disallow: /AL/Alabama.html
  • Zabraniti: /AL/AR.html
  • Zabraniti: /Az/AZ.html
  • Zabraniti: /Az/bali.html
  • Disallow: /Az/bed-breakfast.html

Bilo bi ispravno zatvoriti cijeli direktorij iz indeksiranja:

  • Korisnički agent: *
  • Zabraniti: / AL /
  • Disallow: / Az /

Pogreška 12. Korištenje dodatnih direktiva u odjeljku *

Neki roboti mogu pogrešno reagirati na korištenje dodatnih direktiva. Stoga je njihova upotreba u odjeljku "*" nepoželjna.

Ako direktiva nije standardna (kao, na primjer, "Host"), onda je bolje stvoriti poseban odjeljak za nju.

Pogrešna opcija:

Ispravno bi bilo napisati:

Pogreška 13. Nedostaje instrukcija Disallow

Čak i ako želite koristiti dodatnu direktivu i ne postaviti nikakvu zabranu, preporuča se navesti prazan Disallow. Standard specificira obvezu instrukcije Disallow; u njezinoj odsutnosti, robot vas može "krivo razumjeti".

Nije ispravno:

Pravo:

Pogreška 14. Ne koristite kose crte pri određivanju imenika

Što će robot učiniti u ovom slučaju?

  • Korisnički agent: Yandex
  • Disallow: John

Prema standardu, indeksiranje se neće izvršiti ni za datoteku ni za direktorij pod nazivom "john". Da biste naveli samo imenik, trebate napisati:

  • Korisnički agent: Yandex
  • Disallow: / John /

Pogreška 15. Netočan pravopis HTTP zaglavlja

Poslužitelj mora vratiti u HTTP zaglavlje za robots.txt "Content-Type: text / plain", a ne, na primjer, "Content-Type: text / html". Ako je naslov pogrešno napisan, neki roboti neće moći obraditi datoteku.

Kako ispravno sastaviti datoteku tako da provjera robots.txt ne otkrije pogreške

Koja je točna datoteka robots.txt za web resurs? Razmotrimo njegovu strukturu:

1. Korisnički agent

Ova direktiva je glavna, ona određuje za koje su robote pravila napisana.

Ako za bilo kojeg robota pišemo:

Ako za određenog bota:

Korisnički agent: GoogleBot

Vrijedi napomenuti da u robots.txt veličina slova nije važna. Na primjer, korisnički agent za Google može se napisati ovako:

korisnički agent: googlebot

Ovdje je tablica glavnih korisničkih agenata raznih tražilica.

Googleov glavni robot za indeksiranje

Google vijesti

Google slike

Mediapartners-Google

Google Adsense, Google Mobile Adsense

provjerite kvalitetu odredišne ​​stranice

AdsBot-Google-Mobile-Apps

Google robot za aplikacije

Yandexov glavni robot za indeksiranje

Yandex.Slike

Yandex.Video

multimedijske podatke

robot za pretraživanje bloga

robot koji pristupa stranici kada je dodaje putem obrasca "Dodaj URL".

robot koji indeksira favikone

Yandex.Direct

Yandex.Metrica

Yandex.Katalog

Yandex.Vijesti

YandexImageResizer

robot za mobilne usluge

Bingov glavni robot za indeksiranje

glavni robot za indeksiranje Yahoo!

glavni robot za indeksiranje Mail.Ru

2. Disallow i Allow

Disallow vam omogućuje da zabranite indeksiranje stranica i dijelova internetskog resursa.

Allow se koristi za prisilno otvaranje za indeksiranje.

Ali njihovo korištenje nije dovoljno jednostavno.

Prvo se morate upoznati s dodatnim operaterima i pravilima za njihovu upotrebu. To uključuje: *, $ i #.

  • * - bilo koji broj znakova, čak i njihova odsutnost. Nije potrebno ovaj operator stavljati na kraj retka, pretpostavlja se da je on tamo po defaultu;
  • $ - označava da znak ispred mora biti posljednji;
  • # - ovaj operator se koristi za označavanje komentara, sve informacije nakon njih robot ne uzima u obzir.

Kako koristiti ove operatore:

  • Zabraniti: *? S =
  • Disallow: / kategorija / $

Drugo, morate razumjeti kako se provode pravila ugniježđena u datoteci robots.txt.

Nije važno kojim su redoslijedom napisane direktive. Definicija nasljeđivanja pravila (što otvoriti ili zatvoriti iz indeksiranja) provodi se prema navedenim imenicima. Navedimo primjer.

Dopusti: * .css

Disallow: / template /

Ako trebate otvoriti sve .css datoteke za indeksiranje, to ćete morati dodatno navesti za svaku mapu kojoj je pristup zatvoren. u našem slučaju:

  • Dopusti: * .css
  • Dopusti: /template/*.css
  • Disallow: / template /

Podsjetimo još jednom: nije važno kojim su redoslijedom napisane direktive.

3. Sitemap

Ova direktiva određuje put do datoteke XML Sitemapa. URL izgleda isto kao u adresnoj traci.

Direktiva Sitemap može se navesti bilo gdje u datoteci robots.txt i nema potrebe da je povezujete s određenim korisničkim agentom. Dopušteno je nekoliko pravila Sitemapa.

Ova direktiva specificira glavno ogledalo izvora (obično sa ili bez www). Zapamtite: prilikom navođenja glavnog ogledala, ne piše se http: //, već https: //. Ako je potrebno, luka je također naznačena.

Ovu direktivu mogu podržati samo Yandex i Mail.Ru botovi. Drugi roboti, uključujući GoogleBot, ne uzimaju u obzir ovu naredbu. Domaćina možete registrirati samo jednom!

5. Puzanje-kašnjenje

Omogućuje vam da postavite vremenski interval nakon kojeg robot treba preuzeti stranice resursa. Direktivu podržavaju roboti iz Yandexa, Mail.Ru, Binga i Yahooa. Prilikom postavljanja intervala, možete koristiti i cjelobrojne vrijednosti i razlomke, koristeći točku kao separator. Mjerna jedinica je sekunde.

Kašnjenje puzanja: 0,5

Ako je opterećenje na web mjestu malo, onda nema potrebe postavljati ovo pravilo. Ali ako je rezultat indeksiranja stranica od strane robota prekoračenje ograničenja ili ozbiljno povećanje opterećenja, što dovodi do prekida u radu poslužitelja, tada je upotreba ove direktive preporučljiva: ona vam omogućuje smanjenje opterećenje.

Što je veći postavljeni interval, manji će biti broj preuzimanja tijekom jedne sesije. Optimalna vrijednost za svaki resurs je drugačija. U početku se preporuča postaviti male vrijednosti (0,1, 0,2, 0,5), a zatim ih postupno povećavati. Za robote tražilice koji nisu osobito važni za rezultate promocije (na primjer, Mail.Ru, Bing i Yahoo), možete odmah postaviti vrijednosti koje su veće nego za Yandex robote.

6. Clean-param

Ova direktiva je potrebna da bi se programer za indeksiranje (pretraživački robot) obavijestio o nepotrebnom indeksiranju URL-ova s ​​navedenim parametrima. Pravilo uzima dva argumenta: parametar i URL odjeljka. Yandex podržava direktivu.

http://site.ru/articles/?author_id=267539 - neće biti indeksirano

http://site.ru/articles/?author_id=267539&sid=0995823627 - neće biti indeksirano

Clean-Param: utm_source utm_medium utm_campaign

7. Ostali parametri

Proširena specifikacija robots.txt također sadrži sljedeće parametre: Request-rate i Visit-time. No, trenutno za njih nema podrške od vodećih tražilica.

Direktive su potrebne za sljedeće:

  • Stopa zahtjeva: 1/5 - omogućuje učitavanje ne više od 1 stranice u 5 sekundi
  • Vrijeme posjete: 0600-0845 - omogućuje učitavanje stranice samo od 6 do 8:45 GMT

Da biste ispravno konfigurirali datoteku robots.txt, preporučujemo korištenje sljedećeg algoritma:

2) Zatvorite pristup robotima vašem osobnom računu, stranicama za autorizaciju i registraciju;

4) Zatvorite indeksiranje ajax, json skripti;

6) Zabraniti indeksiranje dodataka, tema, js, css za robote svih tražilica, osim Yandexa i Googlea;

7) Zatvori pristup funkciji pretraživanja robota;

8) Zabraniti indeksiranje odjeljaka usluge koji nisu vrijedni za resurs u pretraživanju (pogreška 404, popis autora);

9) Zatvoriti iz indeksiranja tehničke duplikate stranica i stranica čiji sadržaj u jednoj ili drugoj mjeri duplira sadržaj drugih stranica (kalendari, arhive, RSS);

12) Upotrijebite parametar "site:" da provjerite što su Yandex i Google indeksirali. Da biste to učinili, u traku za pretraživanje unesite "site: site.ru". Ako u rezultatima pretraživanja postoje stranice koje ne treba indeksirati, dodajte ih u robots.txt;

13) Zapišite Sitemap i pravila domaćina;

14) Ako je potrebno, navedite Crawl-Delay i Clean-Param;

15) Provjerite ispravnost datoteke robots.txt pomoću Google i Yandex alata;

16) Nakon 14 dana, ponovno provjerite da nema stranica u rezultatima tražilice koje ne bi trebale biti indeksirane. Ako ih ima, ponovite sve gore navedene točke.

Provjera vaše datoteke robots.txt ima smisla samo ako je vaša stranica u redu. Revizija stranice, koju provode kvalificirani stručnjaci, pomoći će da se to utvrdi.

Nadamo se da će vam naš članak o poslovnim idejama biti od pomoći. A ako ste se već odlučili za smjer aktivnosti i aktivno se bavite razvojem, savjetujemo vam da prođete reviziju stranice kako biste predstavili stvarnu sliku mogućnosti vašeg resursa.


Prva stvar koju bot za pretraživanje radi kada je u pitanju vaša stranica je da traži i čita datoteku robots.txt. Što je ovo datoteka? Je skup uputa za tražilicu.

Riječ je o tekstualnoj datoteci s nastavkom txt koja se nalazi u korijenskom direktoriju stranice. Ovaj skup uputa govori robotu za pretraživanje koje stranice i datoteke web-mjesta treba indeksirati, a koje ne. Također ukazuje na glavno zrcalo web-mjesta i gdje tražiti kartu web-mjesta.

Čemu služi datoteka robots.txt? Za ispravno indeksiranje vaše stranice. Tako da u pretrazi nema duplih stranica, raznih servisnih stranica i dokumenata. Nakon što ispravno konfigurirate direktive u robotima, spasit ćete svoju stranicu od mnogih problema s indeksiranjem i zrcaljenjem stranice.

Kako napisati ispravan robots.txt

Vrlo je jednostavno sastaviti robots.txt, kreiramo tekstualni dokument u standardnoj Windows bilježnici. U ovoj datoteci pišemo direktive za tražilice. Zatim spremamo ovu datoteku pod nazivom "robots" i tekstualnom ekstenzijom "txt". Sve se sada može prenijeti na hosting, u korijensku mapu stranice. Imajte na umu da se za jedno mjesto može izraditi samo jedan robot robot. Ako ova datoteka nema na stranici, tada bot automatski "odlučuje" da se sve može indeksirati.

Budući da je jedan, u njemu su ispisane upute za sve tražilice. Štoviše, možete zapisati i odvojene upute za svaki PS i opće upute za sve odjednom. Razdvajanje uputa za različite botove za pretraživanje vrši se putem Direktive User-agent. Razgovarajmo o tome detaljnije u nastavku.

Smjernice robots.txt

Datoteka "za robote" može sadržavati sljedeće direktive za upravljanje indeksiranjem: User-agent, Disallow, Allow, Sitemap, Host, Crawl-dey, Clean-param. Pogledajmo pobliže svaku uputu.

Direktiva korisnik-agent

Direktiva korisnik-agent- označava za koju tražilicu će postojati upute (točnije za koji određeni bot). Ako postoji "*" onda su upute za sve robote. Ako je naveden određeni bot, kao što je Googlebot, tada su upute samo za glavni Googleov alat za indeksiranje. Štoviše, ako postoje upute odvojeno za Googlebot i za sve ostale PS-ove, Google će čitati samo svoje upute, a zanemariti općenite. Yandex bot će učiniti isto. Pogledajmo primjer pisanja direktive.

Korisnički agent: YandexBot - upute samo za glavni Yandex bot za indeksiranje
Korisnički agent: Yandex - upute za sve Yandex botove
Korisnički agent: * - upute za sve botove

Disallow i Allow direktive

Disallow i Allow direktive- dajte naredbe što indeksirati, a što ne. Disallow navodi da se ne indeksira stranica ili cijeli dio web-mjesta. Dopusti, s druge strane, označava što treba indeksirati.

Disallow: / - zabranjuje indeksiranje cijele stranice
Disallow: / papka / - zabranjuje indeksiranje cijelog sadržaja mape
Disallow: /files.php - onemogućuje indeksiranje datoteke files.php

Dopusti: / cgi-bin - omogućuje indeksiranje cgi-bin stranica

U direktivama Disallow i Allow možete i često samo trebate koristiti posebne znakove. Potrebni su za specificiranje regularnih izraza.

Posebni znak * - zamjenjuje bilo koji niz znakova. Zadano se dodaje na kraj svakog pravila. Čak i ako ga niste propisali, PS će ga sam staviti. Primjer upotrebe:

Disallow: /cgi-bin/*.aspx - zabranjuje indeksiranje svih datoteka s nastavkom .aspx
Disallow: / * foto - onemogućuje indeksiranje datoteka i mapa koje sadrže riječ foto

Specijalni znak $ - poništava radnju posebnog znaka "*" na kraju pravila. Na primjer:

Disallow: / example $ - zabranjuje indeksiranje '/ example', ali ne dopušta '/example.html'

A ako ga napišete bez posebnog znaka $, tada će instrukcija raditi drugačije:

Disallow: / primjer - ne dopušta i '/ primjer' i '/example.html'

Sitemap direktiva

Sitemap direktiva- dizajniran da robotu tražilice naznači gdje se nalazi karta web mjesta na hostingu. Format karte mjesta trebao bi biti sitemaps.xml. Sitemap je potreban za brže i potpunije indeksiranje stranice. Štoviše, karta web mjesta nije nužno jedna datoteka, može ih biti nekoliko. Izravni format snimanja:

Sitemap: http: //site/sitemaps1.xml
Sitemap: http: //site/sitemaps2.xml

Direktiva o hostu

Direktiva o hostu- ukazuje robotu na glavno ogledalo stranice. Što god da je u indeksu zrcala web-mjesta, uvijek biste trebali navesti ovu direktivu. Ako ga ne navedete, Yandex robot će indeksirati najmanje dvije verzije stranice sa i bez www. Sve dok ih robot za izradu zrcala ne zalijepi zajedno. Primjer snimanja:

Domaćin: www.site
Domaćin: stranica

U prvom slučaju robot će indeksirati verziju s www, u drugom slučaju bez. U datoteci robots.txt dopuštena je samo jedna Host direktiva. Ako ih napišete nekoliko, bot će obraditi i uzeti u obzir samo prvi.

Važeća direktiva hosta trebala bi imati sljedeće podatke:
- naznačiti protokol povezivanja (HTTP ili HTTPS);
- ispravno napisan naziv domene (ne možete napisati IP adresu);
- broj porta, ako je potrebno (na primjer, Host: site.com:8080).

Neispravno donesene direktive jednostavno će se zanemariti.

Direktiva o kašnjenju indeksiranja

Direktiva o kašnjenju indeksiranja omogućuje smanjenje opterećenja na poslužitelju. Potreban je u slučaju da vaša stranica počne padati pod naletom raznih botova. Direktiva o kašnjenju indeksiranja govori botu za pretraživanje vrijeme koje treba čekati između završetka preuzimanja jedne stranice i početka preuzimanja druge stranice na web mjestu. Direktiva mora ići neposredno nakon unosa direktiva "Disallow" i/ili "Allow". Yandex robot za pretraživanje može čitati razlomke vrijednosti. Na primjer: 1,5 (jedna i pol sekunda).

Clean-param direktiva

Clean-param direktiva je potreban za web-mjesta čije stranice sadrže dinamičke parametre. To su oni koji ne utječu na sadržaj stranica. To su razne informacije o uslugama: identifikatori sesija, korisnika, preporuka itd. Dakle, kako ne bi bilo duplikata ovih stranica, koristi se ova direktiva. Ona će reći PS-u da ne preuzima ponovno informacije za preuzimanje. Opterećenje poslužitelja i vrijeme potrebno za indeksiranje stranice od strane robota također će se smanjiti.

Clean-param: s /forum/showthread.php

Ovaj unos govori PS-u da će se s parametar smatrati beznačajnim za sve URL-ove koji počinju s /forum/showthread.php. Maksimalna duljina zapisa je 500 znakova.

Nakon što smo riješili direktive, prijeđimo na postavljanje naših robota.

Postavljanje robots.txt

Nastavljamo izravno s postavljanjem datoteke robots.txt. Mora sadržavati najmanje dva unosa:

Korisnički agent:- označava za koju tražilicu će biti sljedeće upute.
Zabraniti:- određuje koji dio stranice ne treba indeksirati. Može se zatvoriti od indeksiranja i zasebne stranice web-mjesta i cijelih odjeljaka.

Štoviše, možete naznačiti da su ove direktive namijenjene svim tražilicama ili bilo kojoj posebno. To je naznačeno u direktivi User-agent. Ako želite da svi botovi čitaju upute, stavite "zvjezdicu"

Ako želite napisati upute za određenog robota, ali morate navesti njegovo ime.

Korisnički agent: YandexBot

Pojednostavljeni primjer dobro oblikovane datoteke robota bio bi sljedeći:

Korisnički agent: *
Zabraniti: /files.php
Disallow: / razdel /
Domaćin: stranica

Gdje, * označava da su upute za sva računala;
Zabraniti: /files.php- zabranjuje indeksiranje datoteke file.php;
Disallow: / foto /- zabranjuje indeksiranje cijelog odjeljka "foto" sa svim priloženim datotekama;
Domaćin: stranica- govori robotima koje zrcalo treba indeksirati.

Ako vaša web-lokacija nema stranice koje je potrebno zatvoriti iz indeksiranja, vaša datoteka robots.txt bi trebala izgledati ovako:

Korisnički agent: *
Zabraniti:
Domaćin: stranica

Robots.txt za Yandex (Yandex)

Kako biste naznačili da su ove upute namijenjene tražilici Yandex, morate navesti u korisničkom agentu: Yandex direktivu. Štoviše, ako navedemo "Yandex", tada će web-mjesto biti indeksirano od strane svih Yandex robota, a ako navedemo "YandexBot", tada će to biti naredba samo za glavnog robota za indeksiranje.

Također je potrebno propisati direktivu "Host", gdje se naznači glavno ogledalo stranice. Kao što sam gore napisao, to je učinjeno kako bi se spriječilo dupliranje stranica. Vaš ispravan robots.txt za Yandex bit će ovakav:

Korisnički agent: Yandex
Zabraniti: / cgi-bin
Disallow: / adminka
Domaćin: stranica

Do sada se često čuju pitanja o tome što je bolje naznačiti u direktivi o hostu, stranicu sa ili bez www. Ali nema nikakve razlike. Samo kako vam se sviđa, tako da stranica izgleda u rezultatima pretraživanja. Glavna stvar je da to uopće ne zaboravite navesti kako ne biste stvorili duplikate.

Robots.txt za Google

Google tražilica podržava sve uobičajene formate datoteka robots.txt. Međutim, ne uzima u obzir Host direktivu. Stoga praktički neće biti razlika od Yandexa. Robots.txt za Google bi izgledao ovako:

Korisnički agent: Googlebot
Zabraniti: / cgi-bin
Disallow: / adminka
Sitemap: http: //site/sitemaps.xml

Nadam se da će vam podaci koje sam naveo biti dovoljni za sastavljanje kvalitetne i što je najvažnije ispravne datoteke. robots.txt. Ako koristite neki od popularnih CMS-a, onda sam u sljedećem članku za vas pripremio izbor robota - robots.txt za popularne CMS 1 ocjene, prosjek: 5,00 od 5)

/ Prikaz: 21952

Pozdrav dragi prijatelji! Provjera datoteke robots.txt jednako je važna kao i ispravno pisanje.

Provjera datoteke robots.txt na ploči Yandex i Google Webmasters.

Provjera robots.txt, zašto je važno provjeriti?

Prije ili kasnije, svaki autor web-mjesta koji poštuje sebe sjeti se datoteke robota... Dosta je napisano na internetu o ovoj datoteci koja se nalazi u korijenu stranice. Gotovo svaki webmaster ima web stranicu o svojoj relevantnosti i ispravnosti. U ovom članku podsjetit ću blogere početnike kako to provjeriti pomoću alata na ploči webmastera koje pružaju Yandex i Google.

Prvo, malo o njemu. Datoteku Robots.txt (ponekad pogrešno nazvanu robot.txt, u jednini, potrebno je obratiti pažnju na englesko slovo s na kraju) kreiraju webmasteri kako bi označili ili zabranili određene datoteke i mape web stranice za pretraživače (također kao i druge vrste robota). Odnosno one datoteke kojima robot tražilice ne bi trebao imati pristup.

Provjera robots.txt je obavezan atribut za autora stranice pri izradi bloga na WordPressu i njegovoj daljnjoj promociji. Mnogi webmasteri također obavezno pregledavaju stranice projekta. Analiza omogućuje da roboti razumiju ispravnu sintaksu kako bi bili sigurni da je u ispravnom formatu. Poanta je da postoji uspostavljeni standard iznimke za robote. Neće biti suvišno saznati mišljenje samih tražilica, pročitati dokumentaciju, u kojoj su tražilice detaljno iznijele svoje viđenje ove datoteke.

Sve to neće biti suvišno kako biste dodatno zaštitili svoju stranicu od pogrešaka tijekom indeksiranja. Znam primjere kada je zbog netočno sastavljene datoteke dat signal da se zabrani njezina vidljivost na mreži. Ako to dodatno popravite, možete dugo čekati da se situacija oko stranice promijeni.

U ovom članku neću se zadržavati na ispravnoj kompilaciji same datoteke. Na netu ima mnogo primjera, možete otići na blog bilo kojeg popularnog blogera i dodati /robots.txt na kraj njegove domene da provjerite. Preglednik će pokazati svoju verziju koju možete koristiti kao osnovu. Međutim, svatko ima svoje iznimke, pa morate provjeriti usklađenost posebno za svoju web-lokaciju. Također, opis i primjer ispravnog teksta za WordPress blog možete pronaći na:

Sitemap: http: // vaša stranica / sitemap.xml

Korisnički agent: Googlebot-Image

# Google Adsense

Korisnički agent: Mediapartners-Google *

Korisnički agent: duggmirror

Zabraniti: / cgi-bin /

Zabraniti: / wp-admin /

Disallow: / wp-includes /

Disallow: / wp-content / plugins /

Disallow: / wp-content / cache /

Disallow: / wp-content / themes /

Disallow: /trackback/

Disallow: / feed /

Zabraniti: / komentare /

Disallow: / kategorija / * / *

Disallow: * / trackback /

Zabraniti: * / feed /

Zabraniti: * / komentari /

Dopusti: / wp-content / uploads /

Postoje neke razlike u sastavljanju i daljnjoj provjeri datoteke robots.txt za glavne tražilice Runeta. U nastavku su primjeri kako provjeriti na Yandex Webmaster i Google ploči.

Nakon što ste sastavili datoteku i prenijeli je u korijen svoje stranice putem FTP-a, trebate je provjeriti je li usklađena, na primjer, s tražilicom Yandex. Tako ćemo saznati jesmo li slučajno zatvorili stranice zahvaljujući kojima će posjetitelji dolaziti k vama.

Provjera robots.txt na ploči Yandex Webmaster

Morate imati račun na ploči Yandex Webmaster. Ako uđete u alate i odredite svoju web stranicu, s desne strane bit će popis dostupnih opcija. Idite na karticu "Provjeri robots.txt".

Navedite svoju domenu i kliknite "Preuzmi robots.txt s web-mjesta". Ako ste sastavili datoteku u kojoj je označena zasebno za svaku tražilicu, tada morate odabrati retke za Yandex i kopirati ih u polje ispod. Podsjetim vas da je direktiva Host: relevantna za Yandex, stoga je ne zaboravite unijeti u polje za provjeru. Ostaje provjeriti robots.txt. Gumb s desne strane.

Odmah ćete vidjeti analizu od Yandexa za usklađenost s vašim robots.txt. Ispod će biti linije koje Yand. prihvaćeno na razmatranje. I gledamo rezultate testova. Smjernice su naznačene na lijevoj strani URL-a. Desno, nasuprot samom rezultatu. Kao što možete vidjeti na snimci zaslona, ​​bit će ispravno vidjeti natpis u crvenoj boji - to je zabranjeno pravilom, a samo pravilo je naznačeno. Ako ste naveli direktivu za indeksiranje, vidjet ćemo je zelenom - dopušteno.

Nakon što provjerite svoj robots.txt, možete ispraviti svoju datoteku. Također preporučujem da provjerite stranice stranice. Umetnite url adresu zasebnog unosa u polje / Popis URL-ova /. I na izlazu dobivamo rezultat - dopušteno je. Tako ćemo moći zasebno provjeravati zabrane arhiva, naslova i tako dalje.

Ne zaboravite se pretplatiti, u sljedećem članku planiram vam pokazati kako se besplatno registrirati u katalogu Mail.ru. Ne propustite, .

Kako provjeriti u Yandex Webmasterima.

Provjerite robots.txt na ploči Google Webmasters

Idite na svoj račun i pogledajte lijevo / Status / - / Blokirani URL-ovi /

Ovdje ćemo vidjeti njegovu prisutnost i mogućnost uređivanja. Ako je potrebno provjeriti usklađenost cijele stranice, navedite u polju ispod adrese glavne stranice. Moguće je provjeriti kako različiti Google roboti vide vašu stranicu, uzimajući u obzir provjeru datoteke robots.txt

Osim glavnog Google bota, odabiremo i robota specijaliziranog za različite vrste sadržaja (2). Pogledajte snimku zaslona u nastavku.

  1. Googlebot
  2. Googlebot-slika
  3. Googlebot-Mobile
  4. Mediapartners-Google - metrika za Adsense
  5. AdsBot-Google - provjerite kvalitetu ciljane stranice.

Nisam pronašao indikatore za druge Google robote:

  • Googlebot Video
  • Googlebot-Vijesti

Analogno provjeravanju datoteke robots.txt na ploči Yandexa, također je moguće analizirati zasebnu stranicu web-mjesta. Nakon provjere, vidjet ćete rezultat zasebno za svaki bot za pretraživanje.

Pod uvjetom da vam rezultati provjere ne odgovaraju, možete nastaviti dalje uređivati. I daljnja provjera.

Analizirajte robots.txt na mreži

Osim ovih značajki, također možete analizirati svoju robots.txt datoteku pomoću mrežnih usluga. One koje sam pronašao uglavnom su na engleskom. Svidjela mi se ova usluga. Nakon analize dat će se preporuke kako to popraviti.

tool.motoricerca.info/robots-checker.phtml

To je sve. Nadam se da vas provjera datoteke robots.txt očima Yandexa i Googlea nije uznemirila? Ako vidite da ne odgovara vašim željama, uvijek možete urediti, a zatim ponovno analizirati. Hvala na vašem tweetu na Twitteru i lajku na Facebooku!

Datoteka robots.txt jedna je od najvažnijih pri optimizaciji bilo koje web stranice. Njegov nedostatak može dovesti do velikog opterećenja stranice od robota za pretraživanje i sporog indeksiranja i ponovnog indeksiranja, a netočna postavka može dovesti do činjenice da će stranica potpuno nestati iz pretraživanja ili jednostavno neće biti indeksirana. Stoga se neće pretraživati ​​u Yandexu, Googleu i drugim tražilicama. Pogledajmo sve nijanse ispravnog postavljanja datoteke robots.txt.

Prvo, kratki video koji će vam dati osnovno razumijevanje što je datoteka robots.txt.

Kako robots.txt utječe na indeksiranje web-mjesta

Botovi za pretraživanje će indeksirati vašu stranicu bez obzira na prisutnost robots.txt datoteke. Ako takva datoteka postoji, onda se roboti mogu voditi pravilima koja su zapisana u ovoj datoteci. U isto vrijeme, neki roboti mogu zanemariti određena pravila, ili neka pravila mogu biti specifična samo za neke botove. Konkretno, GoogleBot ne koristi direktive Host i Crawl-Delay, YandexNews je nedavno počeo zanemarivati ​​direktive Crawl-Delay, a YandexDirect i YandexVideoParser zanemaruju općenitije direktive u robotu (ali se vode prema onima specificiranim posebno za njih).

Više o iznimkama:
Izuzeci Yandexa
Standard za izuzimanje robota (Wikipedia)

Maksimalno opterećenje stranice stvaraju roboti koji preuzimaju sadržaj s vaše stranice. Stoga, navodeći što indeksirati, a što zanemariti, kao i s kojim vremenskim intervalima preuzeti, možete, s jedne strane, značajno smanjiti opterećenje stranice od robota, a s druge strane ubrzati preuzimanje proces zabranom indeksiranja nepotrebnih stranica...

Takve nepotrebne stranice uključuju ajax, json skripte koje su odgovorne za pop-up forme, bannere, captcha prikaz itd., obrasce za narudžbu i košaricu sa svim koracima naplate, funkcionalnost pretraživanja, osobni račun, admin panel.

Za većinu robota također je preporučljivo onemogućiti indeksiranje svih JS i CSS-a. Ali za GoogleBot i Yandex, takve datoteke se moraju ostaviti za indeksiranje, jer ih tražilice koriste za analizu upotrebljivosti stranice i njenog rangiranja (Google proof, Yandex proof).

Smjernice robots.txt

Direktive su pravila za robote. Postoji W3C specifikacija od 30. siječnja 1994. i prošireni standard iz 1996. godine. Međutim, ne podržavaju sve tražilice i roboti ove ili one direktive. U tom smislu, bit će nam korisnije znati ne standard, već kako se glavni roboti vode određenim direktivama.

Pogledajmo to redom.

Korisnički agent

Ovo je najvažnija direktiva koja određuje za koje robote pravila slijede.

Za sve robote:
Korisnički agent: *

Za određenog bota:
Korisnički agent: GoogleBot

Imajte na umu da robots.txt ne razlikuje velika i mala slova. Oni. korisnički agent za Google može se isto tako napisati na sljedeći način:
korisnički agent: googlebot

Ispod je tablica glavnih korisničkih agenata raznih tražilica.

bot Funkcija
Google
Googlebot Googleov glavni robot za indeksiranje
Googlebot-Vijesti Google vijesti
Googlebot-slika Google slike
Googlebot-Video video
Mediapartners-Google
Medijski partneri Google Adsense, Google Mobile Adsense
AdsBot-Google provjerite kvalitetu odredišne ​​stranice
AdsBot-Google-Mobile-Apps Google robot za aplikacije
Yandex.
YandexBot Yandexov glavni robot za indeksiranje
Yandex slike Yandex.Slike
YandexVideo Yandex.Video
YandexMedia multimedijske podatke
Yandex Blogovi robot za pretraživanje bloga
YandexAddurl robot koji pristupa stranici kada je dodaje putem obrasca "Dodaj URL".
YandexFavicons robot koji indeksira favikone
YandexDirect Yandex.Direct
Yandexmetric Yandex.Metrica
Yandex katalog Yandex.Katalog
YandexNews Yandex.Vijesti
YandexImageResizer robot za mobilne usluge
Bing
Bingbot Bingov glavni robot za indeksiranje
Yahoo!
Srkati glavni robot za indeksiranje Yahoo!
Mail.Ru
Mail.Ru glavni robot za indeksiranje Mail.Ru
Lutalica
StackRambler Nekada glavni robot za indeksiranje Rambler. Međutim, od 23.06.11. Rambler više neće podržavati vlastitu tražilicu i sada koristi Yandex tehnologiju na svojim uslugama. Više nije relevantno.

Disallow i Allow

Disallow zatvara stranice i odjeljke web-mjesta od indeksiranja.
Dopusti prisilno otvara stranice i odjeljke stranice radi indeksiranja.

Ali ovdje nije sve tako jednostavno.

Prvo, morate znati dodatne operatore i razumjeti kako se koriste - to su *, $ i #.

* Bilo koji broj znakova, uključujući njihovu odsutnost. U ovom slučaju, ne morate staviti zvjezdicu na kraj retka, pretpostavlja se da je tamo prema zadanim postavkama.
$ - označava da znak prije njega mora biti posljednji.
# - komentar, sve iza ovog znaka u nizu robot ne uzima u obzir.

Primjeri korištenja:

Zabraniti: *? S =
Disallow: / kategorija / $

Drugo, morate razumjeti kako se izvode ugniježđena pravila.
Zapamtite da redoslijed kojim su direktive napisane nije važan. Nasljeđivanje pravila što otvoriti ili zatvoriti iz indeksiranja određuje se prema tome koji su imenici specificirani. Uzmimo primjer.

Dopusti: * .css
Disallow: / template /

http://site.ru/template/ - zatvoreno od indeksiranja
http://site.ru/template/style.css - zatvoreno od indeksiranja
http://site.ru/style.css - otvoreno za indeksiranje
http://site.ru/theme/style.css - otvoreno za indeksiranje

Ako želite da sve .css datoteke budu otvorene za indeksiranje, morat ćete to dodatno registrirati za svaku od zatvorenih mapa. u našem slučaju:

Dopusti: * .css
Dopusti: /template/*.css
Disallow: / template /

Opet, redoslijed direktiva nije važan.

Sitemap

Smjernica za određivanje puta do datoteke XML Sitemapa. URL se piše na isti način kao u adresnoj traci.

Na primjer,

Mapa stranice: http://site.ru/sitemap.xml

Direktiva Sitemap navedena je bilo gdje u datoteci robots.txt bez upućivanja na određeni korisnički agent. Može se navesti nekoliko pravila Sitemapa.

Domaćin

Direktiva za određivanje glavnog ogledala stranice (u većini slučajeva: s www ili bez www). Imajte na umu da je glavno ogledalo navedeno BEZ http: //, ali SA https: //. Također, ako je potrebno, naznačena je luka.
Direktivu podržavaju samo Yandex i Mail.Ru botovi. Drugi roboti, posebno GoogleBot, neće brojati naredbu. Domaćin je registriran samo jednom!

Primjer 1:
Domaćin: site.ru

Primjer 2:
Domaćin: https://site.ru

Puzanje-kašnjenje

Direktiva za postavljanje vremenskog intervala između preuzimanja stranica stranice od strane robota. Podržavaju roboti iz Yandexa, Mail.Ru, Binga, Yahooa. Vrijednost se može postaviti u cijelim ili razlomcima (separator - točka), vrijeme u sekundama.

Primjer 1:
Odgoda puzanja: 3

Primjer 2:
Kašnjenje puzanja: 0,5

Ako stranica ima lagano opterećenje, onda nema potrebe za uspostavljanjem takvog pravila. Međutim, ako indeksiranje stranica od strane robota dovede do činjenice da web-mjesto premašuje ograničenja ili doživljava značajna opterećenja do prekida poslužitelja, tada će ova direktiva pomoći u smanjenju opterećenja.

Što je vrijednost veća, robot će učitati manje stranica u jednoj sesiji. Optimalna vrijednost se određuje pojedinačno za svako mjesto. Bolje je početi s ne baš velikim vrijednostima - 0,1, 0,2, 0,5 - i postupno ih povećavati. Za robote tražilice koji su manje važni za rezultate promocije, kao što su Mail.Ru, Bing i Yahoo, u početku možete postaviti veće vrijednosti nego za Yandex robote.

Clean-param

Ovo pravilo govori alatu za indeksiranje da URL-ovi s navedenim parametrima ne moraju biti indeksirani. Pravilo uzima dva argumenta: parametar i URL odjeljka. Direktivu podržava Yandex.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id & sid http://site.ru/articles/

Clean-Param: utm_source & utm_medium & utm_campaign

Ostali parametri

U proširenoj specifikaciji robots.txt možete pronaći više parametara Request-rate i Visit-time. Međutim, trenutno ih ne podržavaju glavne tražilice.

Značenje direktiva:
Stopa zahtjeva: 1/5 - učitavanje ne više od jedne stranice u pet sekundi
Vrijeme posjete: 0600-0845 - preuzimajte stranice samo od 6 do 8:45 GMT.

Zatvaranje robots.txt

Ako se trebate konfigurirati tako da vaše web mjesto NE indeksiraju roboti za pretraživanje, tada morate registrirati sljedeće direktive:

Korisnički agent: *
Zabraniti: /

Provjerite jesu li ove direktive napisane na testnim stranicama vašeg web-mjesta.

Ispravna postavka robots.txt

Za Rusiju i zemlje ZND-a, gdje je Yandexov udio značajan, direktive bi trebale biti napisane za sve robote i zasebno za Yandex i Google.

Da biste ispravno konfigurirali robots.txt, koristite sljedeći algoritam:

  1. Zatvorite administrativnu ploču web-mjesta od indeksiranja
  2. Zatvorite svoj osobni račun, autorizaciju, registraciju iz indeksiranja
  3. Zatvorite košaricu, obrazac za narudžbu, podatke o dostavi i narudžbi iz indeksiranja
  4. Zatvorite indeksiranje ajax, json skripti
  5. Zatvorite mapu cgi iz indeksiranja
  6. Zatvorite dodatke, teme, js, css iz indeksiranja za sve robote, osim Yandexa i Googlea
  7. Zatvorite funkciju pretraživanja iz indeksiranja
  8. Zatvorite odjeljke usluge iz indeksiranja koji nemaju nikakvu vrijednost za web-lokaciju u pretraživanju (pogreška 404, popis autora)
  9. Zatvorite tehničke duplikate stranica iz indeksiranja, kao i stranice na kojima je sav sadržaj u ovom ili onom obliku dupliciran s drugih stranica (kalendari, arhive, RSS)
  10. Zatvorite indeksiranje stranice s opcijama filtera, sortiranjem, usporedbom
  11. Zatvorite stranicu s parametrima UTM oznaka i sesija iz indeksiranja
  12. Provjerite što indeksiraju Yandex i Google pomoću parametra "site:" (u okvir za pretraživanje upišite "site: site.ru"). Ako pretraživanje sadrži stranice koje također treba zatvoriti iz indeksiranja, dodajte ih u robots.txt
  13. Odredite Sitemap i Host
  14. Dodajte Crawl-Delay i Clean-Param po potrebi
  15. Provjerite ispravnost datoteke robots.txt pomoću alata Google i Yandex (opisano u nastavku)
  16. Nakon 2 tjedna još jednom provjerite ima li novih stranica u rezultatima pretraživanja koje ne bi trebale biti indeksirane. Ponovite gore navedene korake ako je potrebno.

Primjer robota.txt

# Primjer datoteke robots.txt za postavljanje hipotetičke stranice https://site.ru User-agent: * Disallow: / admin / Disallow: / plugins / Disallow: / search / Disallow: / cart / Disallow: * /? S = Disallow : * sort = Disallow: * view = Disallow: * utm = Odgoda indeksiranja: 5 Korisnički agent: GoogleBot Disallow: / admin / Disallow: / dodaci / Disallow: / pretraživanje / Disallow: / košarica / Disallow: * / ? s = Disallow: * sort = Disallow: * view = Disallow: * utm = Dopusti: /plugins/*.css Dopusti: /plugins/*.js Dopusti: /plugins/*.png Dopusti: /plugins/*.jpg Dopusti: /plugins/*.gif Korisnički agent: Yandex Disallow: / admin / Disallow: / dodaci / Disallow: / traži / Disallow: / košarica / Disallow: * /? s = Disallow: * sortiraj = Disallow: * prikaz = Dopusti: /plugins/*.css Dopusti: /plugins/*.js Dopusti: /plugins/*.png Dopusti: /plugins/*.jpg Dopusti: /plugins/*.gif Clean-Param: utm_source & utm_medium & utm_campaign Crawl -Odgoda: 0,5 Mapa stranice: https://site.ru/sitemap.xml Host: https://site.ru

Kako dodati i gdje se nalazi robots.txt

Nakon što ste stvorili datoteku robots.txt, trebate je postaviti na svoju web stranicu na site.ru/robots.txt - tj. u korijenskom direktoriju. Alat za indeksiranje uvijek pristupa datoteci na URL-u /robots.txt

Kako provjeriti robots.txt

Provjera Robots.txt provodi se na sljedećim poveznicama:

  • U Yandex.Webmasteru - na kartici Alati> Analiza robota.txt
  • V Google Search Console- na kartici Indeksiranje > Provjera datoteka Robots.txt

Tipične pogreške robots.txt

Na kraju članka navest ću nekoliko tipičnih pogrešaka u datoteci robots.txt.

  • nedostaje robots.txt
  • u robots.txt stranica je zatvorena od indeksiranja (Disallow: /)
  • datoteka sadrži samo najosnovnije direktive, nema detaljnog proučavanja datoteke
  • stranice s UTM oznakama i identifikatorima sesije nisu zatvorene od indeksiranja u datoteci
  • samo su direktive navedene u datoteci
    Dopusti: * .css
    Dopusti: * .js
    Dopusti: * .png
    Dopusti: * .jpg
    Dopusti: * .gif
    dok su css, js, png, jpg, gif datoteke zatvorene drugim direktivama u nizu direktorija
  • Host direktiva je navedena nekoliko puta
  • Host ne navodi https protokol
  • put do Sitemapa je netočno naveden ili je naveden netočan protokol ili zrcalo web-mjesta

p.s.

P.S.2

Korisni video s Yandexa (Pažnja! Neke su preporuke prikladne samo za Yandex).

Vrhunski povezani članci