Zabrana indeksiranja robota txt. Skrivanje poveznica sa skriptama
Zabrana indeksiranja robota txt. Skrivanje poveznica sa skriptama
03.05.2019Sigurnost
Svrha ovog vodiča je pomoći webmasterima i administratorima da koriste robots.txt.
Uvod
Robot Exception Standard je inherentno vrlo jednostavan. Ukratko, funkcionira ovako:
Kada usklađeni robot posjeti web-mjesto, prvo traži datoteku pod nazivom “/robots.txt”. Ako se takva datoteka pronađe, Robot u njoj traži upute koje zabranjuju indeksiranje nekih dijelova stranice.
Gdje staviti svoju robots.txt datoteku
Robot jednostavno traži URL "/robots.txt" na vašoj web-lokaciji, na kojoj se nalazi stranica u ovom slučaju Je određeni host na određenom portu.
Na web mjestu može postojati samo jedna datoteka "/robots.txt". Na primjer, ne biste trebali stavljati svoju robots.txt datoteku u prilagođene poddirektorije - u svakom slučaju, roboti ih tamo neće tražiti. Ako želite biti u mogućnosti stvoriti robots.txt datoteke u poddirektorijumima, onda vam je potreban način da ih programski prikupite u jednu datoteku robots.txt koja se nalazi u korijenu vaše stranice. Umjesto toga možete koristiti.
Zapamtite da su URL-ovi osjetljivi na velika i mala slova i naziv datoteke “/robots.txt” mora biti napisan u potpunosti malim slovima.
Netočna lokacija robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt
Datoteka se ne nalazi u korijenu stranice
ftp://ftp.w3.com/robots.txt
Roboti ne indeksiraju ftp
http://www.w3.org/Robots.txt
Naziv datoteke nije malim slovima
Kao što vidite, datoteka robots.txt treba biti smještena isključivo u korijenu stranice.
Što napisati u datoteku robots.txt
Datoteka robots.txt obično je napisana nešto poput:
U ovom primjeru zabranjeno je indeksiranje tri imenika.
Imajte na umu da je svaki direktorij naveden u zasebnom retku - ne možete napisati "Disallow: / cgi-bin / / tmp /". Također ne možete podijeliti jednu naredbu Disallow ili User-agent u nekoliko redaka, jer prijelom reda se koristi za odvajanje instrukcija jedne od druge.
Ne mogu se koristiti ni regularni izrazi i zamjenski znakovi. Zvjezdica (*) u izjavi User-agent označava bilo kojeg robota. Upute poput "Disallow: * .gif" ili "User-agent: Ya *" nisu podržane.
Konkretne upute u robots.txt ovise o vašoj web-lokaciji i onome što želite blokirati od indeksiranja. Evo nekoliko primjera:
Zabranite indeksiranje cijele stranice od strane svih robota
Korisnički agent: * Zabraniti: /
Dopusti svim robotima da indeksiraju cijelo web-mjesto
Korisnički agent: * Zabraniti:
Ili možete jednostavno stvarati prazna datoteka"/Robots.txt".
Zatvorite samo nekoliko direktorija iz indeksiranja
Zabrani indeksiranje stranice samo za jednog robota
Korisnički agent: BadBot Zabraniti: /
Dopusti indeksiranje web mjesta za jednog robota i zabrani sve ostale
Korisnički agent: Yandex Zabraniti:
Korisnički agent: * Zabraniti: /
Zabrani indeksiranje svih datoteka osim jedne
Ovo nije lako jer ne postoji izjava “Allow”. Umjesto toga, možete premjestiti sve datoteke osim one kojoj želite dopustiti indeksiranje u poddirektorij i zabraniti njeno indeksiranje:
Korisnički agent: * Disallow: /docs/
Ili možete odbiti sve datoteke zabranjene za indeksiranje:
Bilo koja stranica na stranici može se otvoriti ili zatvoriti radi indeksiranja tražilicama. Ako je stranica otvorena, tražilica je dodaje u svoj indeks, ako je zatvorena, onda je robot ne posjećuje i ne uzima u obzir Rezultati pretraživanja.
Prilikom izrade stranice važno je na programskoj razini zatvoriti sve stranice od indeksiranja koje iz bilo kojeg razloga ne bi smjele vidjeti korisnici i tražilice.
Ove stranice uključuju administrativni dio stranice (admin panel), stranice s raznim servisnim informacijama (na primjer, s osobnim podacima registriranih korisnika), stranice s višerazinskim obrascima (npr. složenih oblika registracija), obrasci Povratne informacije itd.
Primjer: Korisnički profil na forumu o tražilice ah tražilice.
Također je obavezno zatvoriti iz indeksiranja stranice čiji se sadržaj već koristi na drugim stranicama, a takve se stranice nazivaju duplikatima. Potpuni ili djelomični duplikati uvelike pesimiziraju stranicu jer povećavaju količinu nejedinstvenog sadržaja na stranici.
Kao što vidite, sadržaj na obje stranice se preklapa. Stoga su stranice kategorija na WordPress stranicama zatvorene od indeksiranja ili se na njima prikazuju samo nazivi postova.
Isto vrijedi i za stranice s oznakama – takve se stranice često nalaze u strukturi WordPress blogova. Oblak oznaka olakšava navigaciju web-mjestom i omogućuje korisnicima da brzo pronađu informacije od interesa. Međutim, one su djelomične duplikate drugih stranica, što znači da se moraju zatvoriti iz indeksiranja.
Drugi primjer je trgovina na CMS OpenCart.
Stranica kategorije proizvoda http://www.masternet-instrument.ru/Lampy-energosberegajuschie-c-906_910_947.html.
Stranica proizvoda obuhvaćenih popustom http://www.masternet-instrument.ru/specials.php.
Ove stranice imaju sličan sadržaj jer sadrže mnoge iste proizvode.
Posebno kritično za duplicirani sadržaj različite stranice stranica pripada Googleu. Po veliki broj duplikati u Googleu, možete zaraditi određene sankcije do privremenog isključenja stranice iz rezultata pretraživanja.
Drugi slučaj kada se sadržaj stranica ne bi trebao "prikazati" tražilici su stranice s nejedinstvenim sadržajem. Tipičan primjer su upute za lijekove u internetskoj ljekarni. Sadržaj na stranici s opisom lijeka http://www.piluli.ru/product271593/product_info.html nije jedinstven i objavljen je na stotinama drugih stranica.
Gotovo ga je nemoguće učiniti jedinstvenim, budući da je prepisivanje ovako specifičnih tekstova nezahvalan i zabranjen zadatak. Najbolje rješenje u tom slučaju stranica će biti zatvorena od indeksiranja ili će biti napisano pismo tražilicama sa zahtjevom da budu lojalni nejedinstvenom sadržaju sadržaja koji se iz ovog ili onog razloga ne može učiniti jedinstvenim.
Kako blokirati indeksiranje stranica
Klasični alat za zatvaranje stranica iz indeksiranja je datoteka robots.txt. Nalazi se u korijenskom direktoriju vaše stranice i kreiran je posebno da pokaže robotima za pretraživanje koje stranice ne bi trebali posjećivati. Ovo je normalno tekstualnu datoteku, koji možete uređivati u bilo kojem trenutku. Ako nemate datoteku robots.txt ili ako je prazna, tražilice će indeksirati sve stranice koje pronađu prema zadanim postavkama.
Struktura datoteke robots.txt prilično je jednostavna. Može se sastojati od jednog ili više blokova (uputa). Svaka se instrukcija, pak, sastoji od dva retka. Prvi red se zove User-agent i definira koja tražilica treba slijediti ovu uputu. Ako želite onemogućiti indeksiranje za sve tražilice, prvi redak trebao bi izgledati ovako:
Ako želite zabraniti indeksiranje stranica samo za jednu tražilicu, na primjer, za Yandex, prvi redak izgleda ovako:
Drugi redak instrukcije zove se Disallow. Da biste zabranili sve stranice na web mjestu, napišite sljedeće u ovaj redak:
Da biste omogućili indeksiranje svih stranica, drugi red bi trebao izgledati ovako:
U retku Disallow možete odrediti određene mape i datoteke koje će se zatvoriti iz indeksiranja.
Na primjer, da biste zabranili indeksiranje mape slika i cijelog njenog sadržaja, napišite:
Kako bismo "sakrili" određene datoteke od tražilica, navodimo ih:
Ovo su osnovna načela strukture datoteke robots.txt. Oni će vam pomoći da zatvorite pojedinačne stranice i mape na vašoj web-lokaciji iz indeksiranja.
Drugi, manje uobičajen način zabrane indeksiranja je Robots meta tag. Ako želite zatvoriti stranicu od indeksiranja ili spriječiti tražilice da indeksiraju veze postavljene na nju, trebate upisati ovu oznaku u njezin HTML kod. Mora se postaviti u područje HEAD, prije oznake
.
Meta oznaka Robots ima dva parametra. INDEX je parametar odgovoran za indeksiranje same stranice, a FOLLOW je parametar koji dopušta ili zabranjuje indeksiranje linkova koji se nalaze na ovoj stranici.
Da biste zabranili indeksiranje, umjesto INDEX i FOLLOW napišite NOINDEX odnosno NOFOLLOW.
Stoga, ako želite zatvoriti stranicu od indeksiranja i spriječiti tražilice da razmatraju veze na njoj, morate dodati sljedeći redak svom kodu:
Ako ne želite sakriti stranicu od indeksiranja, ali trebate "sakriti" veze na njoj, meta tag Robots će izgledati ovako:
Ako, naprotiv, trebate sakriti stranicu od tražilice, ali u isto vrijeme uzeti u obzir veze, ova oznaka će izgledati ovako:
Većina modernih CMS-a pruža mogućnost zatvaranja nekih stranica od indeksiranja izravno s administrativne ploče web-mjesta. Time se izbjegava potreba za razumijevanjem koda i ručnim konfiguriranjem ovih parametara. Međutim, gore navedene metode bile su i ostale najuniverzalniji i najpouzdaniji alati za zabranu indeksiranja.
Tehnički aspekti stvorene stranice ne igraju ništa manje važna uloga za promociju web stranice u tražilicama nego njezin sadržaj. Jedan od najvažnijih tehničkih aspekata je indeksiranje stranice, odnosno određivanje područja stranice (datoteke i direktorije) koje roboti tražilice mogu, ali i ne moraju indeksirati. U te svrhe koristi se robots.txt - to jest posebna datoteka koji sadrži naredbe za robote tražilice. Ispravna datoteka robots.txt za Yandex i Google pomoći će u izbjegavanju mnogih neugodnih posljedica povezanih s indeksiranjem web mjesta.
2. Koncept datoteke robots.txt i zahtjevi za nju
Datoteka /robots.txt namijenjena je da uputi sve pauke da indeksiraju informacijski poslužitelji kako je definirano u ovoj datoteci, tj. samo one direktorije i datoteke poslužitelja koji nisu opisani u /robots.txt. Ova datoteka mora sadržavati 0 ili više zapisa koji su pridruženi jednom ili drugom robotu (kako je određeno vrijednošću polja agent_id) i naznačiti za svakog robota ili za sve odjednom što ih točno ne treba indeksirati.
Sintaksa datoteke omogućuje vam postavljanje zabranjenih područja indeksiranja, kako za sve tako i za određene robote.
Postoje posebni zahtjevi za datoteku robots.txt, nepoštovanje kojih može dovesti do pogrešnog čitanja tražilice od strane robota ili čak do nesposobnosti. ove datoteke.
Primarni zahtjevi:
sva slova u nazivu datoteke moraju biti velika, odnosno moraju biti mala:
robots.txt - ispravan,
Robots.txt ili ROBOTS.TXT je pogrešan;
datoteka robots.txt mora biti generirana u tekstualni format Unix. Prilikom kopiranja ove datoteke na web-mjesto, ftp klijent mora biti konfiguriran na tekstualni način dijeljenje datoteka;
datoteka robots.txt mora se nalaziti u korijenskom direktoriju stranice.
3. Sadržaj datoteke robots.txt
Datoteka robots.txt uključuje dva unosa: "User-agent" i "Disallow". Nazivi ovih zapisa ne razlikuju velika i mala slova.
Neke tražilice također podržavaju dodatni unosi... Na primjer, Yandex tražilica koristi Host zapis za određivanje glavnog ogledala web-mjesta (glavno zrcalo stranice je stranica koja se nalazi u indeksu tražilica).
Svaki unos ima svoju svrhu i može se susresti nekoliko puta, ovisno o broju stranica i/ili direktorija koje treba zatvoriti iz indeksiranja i broju robota kojima pristupate.
Da bi se datoteka robots.txt smatrala valjanom, najmanje jedna direktiva "Disallow" mora biti prisutna nakon svakog unosa "User-agent".
Potpuno prazna datoteka robots.txt je ekvivalentna bez robots.txt, što pretpostavlja da je cijelo web-mjesto dopušteno indeksirati.
Unos korisničkog agenta
Zapis "User-agent" mora sadržavati naziv robota za pretraživanje. U ovom unosu možete svakom konkretnom robotu reći koje stranice web-mjesta treba indeksirati, a koje ne.
Primjer zapisa "User-agent", gdje se poziv upućuje svim tražilicama bez iznimke i koristi se simbol "*":
Primjer zapisa "User-agent", gdje se poziv upućuje samo robotu tražilice Rambler:
Korisnički agent: StackRambler
Svaki robot tražilice ima svoje ime. Postoje dva glavna načina da ga prepoznate (ime):
na web stranicama mnogih tražilica postoji specijalizirani odjeljak "pomoć webmasteru", u kojem se često navodi ime robota za pretraživanje;
Kada se gledaju zapisi web poslužitelja, posebice kada se gledaju učitavanja datoteke § robots.txt, možete vidjeti mnogo imena u kojima su prisutni nazivi tražilica ili dio njih. Stoga samo trebate odabrati željeni naziv i unijeti ga u datoteku robots.txt.
Zabrani snimanje
Zapis "Disallow" mora sadržavati upute koje robotu za pretraživanje iz zapisa "User-agent" pokazuju koje datoteke i/ili direktorije je zabranjeno indeksirati.
Primjer unosa robots.txt (dopusti sve za indeksiranje):
Zabraniti:
Primjer (stranici je potpuno zabranjeno. Za to koristite simbol "/"): Disallow: /
Primjer (datoteka "page.htm" koja se nalazi u korijenskom direktoriju i datoteka "page2.htm" koja se nalazi u direktoriju "dir" zabranjene su za indeksiranje):
Disallow: /page.htm
Disallow: /dir/page2.htm
Primjer (direktoriji "cgi-bin" i "forum" i stoga cijeli sadržaj ovog direktorija zabranjeni su za indeksiranje):
Zabraniti: / cgi-bin /
Disallow: / forum /
Moguće je zatvoriti indeksiranjem većeg broja dokumenata i (ili) direktorija koji počinju istim znakovima koristeći samo jedan "Disallow" unos. Da biste to učinili, morate napisati početne identične znakove bez završne kose crte.
Primjer (direktorij "dir" je zabranjen za indeksiranje, kao i sve datoteke i direktorije koji počinju slovima "dir", tj. datoteke: "dir.htm", "direct.htm", direktoriji: "dir", "directory1 "," Direktorij2 ", itd.):
Dopusti ulaz
Opcija "Dopusti" se koristi za označavanje izuzimanja iz neindeksiranih direktorija i stranica koje su specificirane unosom "Disallow".
Na primjer, postoji unos koji izgleda ovako:
Disallow: / forum /
Ali u isto vrijeme, stranicu 1 potrebno je indeksirati u / forum / direktoriju. Zatim su vam potrebne sljedeće linije u datoteci robots.txt:
Disallow: / forum /
Dopusti: / forum / stranica1
Zapis Sitemapa
Ovaj unos ukazuje na lokaciju karte web-lokacije u xml formatu koju koriste roboti za pretraživanje. Ovaj unos označava put do ove datoteke.
Mapa stranice: http://site.ru/sitemap.xml
Zapis domaćina
Unos "host" koristi tražilica Yandex. Potrebno je odrediti glavno zrcalo stranice, odnosno ako stranica ima ogledala (zrcalo je djelomično ili cijeli primjerak mjesto. Prisutnost dupliciranih resursa ponekad je neophodna vlasnicima vrlo posjećenih stranica kako bi povećali pouzdanost i dostupnost njihove usluge), a zatim pomoću direktive "Host" možete odabrati naziv pod kojim želite biti indeksirani. Inače će Yandex sam odabrati glavno ogledalo, a ostalim imenima bit će zabranjeno indeksiranje.
Radi kompatibilnosti s alatima za indeksiranje koji ne prihvaćaju direktivu Host prilikom obrade datoteke robots.txt, dodajte unos "Host" odmah nakon unosa Disallow.
Primjer: www.site.ru - glavno ogledalo:
Domaćin: www.site.ru
Unos s odgodom puzanja
Ovaj unos percipira Yandex. To je naredba za robota da napravi intervale od određenog vremena (u sekundama) između indeksiranja stranica. Ponekad je potrebno zaštititi mjesto od preopterećenja.
Dakle, sljedeći unos znači da Yandex robot mora prijeći s jedne stranice na drugu ne prije 3 sekunde kasnije:
Komentari (1)
Svaki redak u robots.txt koji počinje znakom "#" smatra se komentarom. Dopušteno je koristiti komentare na kraju redaka s direktivama, ali neki roboti možda neće ispravno prepoznati ovaj redak.
Primjer (komentar je u istom retku zajedno s direktivom):
Disallow: / cgi-bin / # komentar
Komentar je preporučljivo staviti u poseban redak. Bijeli prostor na početku retka je dopušten, ali se ne preporučuje.
4. Uzorak datoteka robots.txt
Primjer (komentar je u zasebnom retku): Disallow: / cgi-bin / # komentar
Primjer datoteke robots.txt koja svim robotima omogućuje indeksiranje cijele stranice:
Domaćin: www.site.ru
Primjer datoteke robots.txt koja svim robotima zabranjuje indeksiranje web-mjesta:
Domaćin: www.site.ru
Primjer datoteke robots.txt koja svim robotima zabranjuje indeksiranje direktorija "abc", kao i svih direktorija i datoteka koje počinju znakovima "abc".
Domaćin: www.site.ru
Primjer datoteke robots.txt koja zabranjuje indeksiranje stranice "page.htm" koja se nalazi u korijenskom direktoriju stranice od strane robota za pretraživanje "googlebot":
Korisnički agent: googlebot
Disallow: /page.htm
Domaćin: www.site.ru
Primjer datoteke robots.txt koja onemogućuje indeksiranje:
- za robota "googlebot" - stranica "page1.htm" koja se nalazi u direktoriju "imenik";
- za Yandex robota - svi direktoriji i stranice koji počinju sa simbolima "dir" (/ dir /, / direct /, dir.htm, direction.htm, itd.) i nalaze se u korijenskom direktoriju web-mjesta.
Korisnički agent: googlebot
Disallow: /directory/page1.htm
Korisnički agent: Yandex
5. Pogreške povezane s datotekom robots.txt
Jedna od najčešćih pogrešaka je obrnuta sintaksa.
Nije ispravno:
Zabraniti: Yandex
Pravo:
Korisnički agent: Yandex
Nije ispravno:
Disallow: / dir / / cgi-bin / / forum /
Pravo:
Zabraniti: / cgi-bin /
Disallow: / forum /
Ako pri obradi greške 404 (dokument nije pronađen) web poslužitelj izda posebnu stranicu, a datoteka robots.txt nedostaje, tada je moguća situacija kada se robotu za pretraživanje pri zahtjevu za datoteku robots.txt da ista posebna stranica koja ni na koji način nije kontrolna datoteka indeksiranja.
Pogreška u vezi s slučajem robots.txt. Na primjer, ako trebate zatvoriti direktorij "cgi-bin", tada u unosu "Disallow" ne možete napisati naziv direktorija velikim slovima "cgi-bin".
Nije ispravno:
Zabraniti: / CGI-BIN /
Pravo:
Zabraniti: / cgi-bin /
Pogreška povezana s izostankom otvorne kose crte prilikom zatvaranja direktorija iz indeksiranja.
Nije ispravno:
Disallow: page.HTML
Pravo:
Disallow: /page.html
Kako biste izbjegli najčešće pogreške, možete provjeriti datoteku robots.txt pomoću Yandex.Webmaster alata ili Alata za Google webmasteri... Provjera se provodi nakon preuzimanja datoteke.
6. Zaključak
Dakle, prisutnost datoteke robots.txt, kao i njezina kompilacija, može utjecati na promociju stranice u tražilicama. Bez poznavanja sintakse datoteke robots.txt, možete zabraniti indeksiranje mogućih promoviranih stranica, kao i cijele stranice. I obrnuto, kompetentna kompilacija ove datoteke može uvelike pomoći u promicanju resursa, na primjer, možete zatvoriti dokumente od indeksiranja koji ometaju promociju željenih stranica.
Želite li znati kako spriječiti indeksiranje vaše stranice u robots.txt i drugim alatima? Tada je predstavljeni materijal samo za vas.
Naravno, vlasnici web stranica se bore za što brže indeksiranje svojih resursa od strane tražilica. Ali postoje slučajevi kada je potrebno zabraniti indeksiranje web-mjesta tako da bot za pretraživanje ne posjećuje resurs neko vrijeme. Takvi slučajevi mogu biti:
nedavno kreiranje stranice, kada na njoj još uvijek nema korisnih informacija;
potreba za ažuriranjima (na primjer, promjena u dizajnu stranice);
prisutnost skrivenih ili tajnih dijelova ili korisni linkovi koje ne bih volio da se prosljeđuje botovima za pretraživanje.
Možete zatvoriti cijelu stranicu ili njezine pojedine dijelove:
Postoji mnogo načina na koje možete blokirati indeksiranje web-mjesta. Uređivanje vaše robots.txt datoteke jedan je od njih. Razmotrit ćemo ovu metodu i još dvije najpopularnije i jednostavne.
Kako zatvoriti web mjesto iz indeksiranja za Yandex, Google i sve tražilice u robots.txt
Uređivanje vaše datoteke robots.txt jedan je od najsigurnijih i najbržih načina postavite ovu zabranu za tražilice na neko vrijeme ili zauvijek. Što trebam učiniti:
Napravite robots.txt datoteku. Da biste to učinili, morate stvoriti redoviti Tekstualni dokument s ekstenzijom .txt, nazovite ga "robots".
Učitajte kreiranu datoteku u korijenska mapa vaš blog. Ako je stranica izrađena na WordPress motor, tada se ova mapa može pronaći gdje se nalaze mape wp-includes, wp-content itd.
Izravno postavljanje zabrane indeksiranja za tražilice.
Zabrana indeksiranja stranica može se postaviti i za određene tražilice i za sve tražilice. Pogledat ćemo različite opcije.
Da biste blokirali indeksiranje web-mjesta od strane Googleovih robota za pretraživanje, morate napisati sljedeće u datoteci robots.txt:
Korisnički agent: Googlebot
Zabraniti: /
Kako bi se provjerilo je li stranica zatvorena od indeksiranja, kreira se račun i željena stranica se dodaje u Google Webmaster... Ovdje je osigurana funkcija provjere.
Tada će se prikazati rezultati. Ako je web-mjestu zabranjeno indeksiranje, pisat će "Blokirano po retku" i naznačiti koji redak blokira indeksiranje. Ako su bilo kakve radnje za zabranu indeksiranja od strane Google pretraživača izvršene pogrešno, tada će se potpisati znak "Dopušteno".
Imajte na umu da to nije moguće s tražilicom robots.txt google sustav zabraniti indeksiranje 100%. Ovo je svojevrsna preporuka za Google, jer će on sam odlučiti hoće li indeksirati poseban dokument ili ne.
Da biste blokirali indeksiranje materijala web-mjesta od strane Yandexa, unesite sljedeće u datoteku robots.txt:
Korisnički agent: Yandex
Zabraniti: /
Da biste provjerili status resursa, morate ga dodati u Yandex Webmaster, gdje zatim trebate unijeti nekoliko stranica sa svoje stranice i kliknuti gumb "Provjeri". Ako je sve uspjelo, linija će prikazati natpis "Zabranjeno pravilom".
Također možete postaviti zabranu indeksiranja vaše stranice za sve tražilice u isto vrijeme. Da biste to učinili, ponovno otvorite datoteku robots.txt i u nju upišite sljedeći redak:
Korisnički agent: *
Zabraniti: /
Provjera zabrane indeksiranja za Google i Yandex vrši se prema gornjoj shemi u Google Webmasteru odnosno Yandex Webmasteru.
Da biste vidjeli svoju robots.txt datoteku, morate otići na yourdomain.com/robots.txt. Ovdje će biti prikazano sve što je napisano. Događa se da se pojavi pogreška 404. To znači da je nešto pogrešno učinjeno prilikom prijenosa datoteke.
Spriječite indeksiranje resursa pomoću alatne trake
Način zatvaranja stranice od indeksiranja pomoću alatne trake prikladan je samo za one resurse koji su napravljeni na WordPressu.
Postupak je jednostavan i brz:
Otvorite "Upravljačku ploču", idite na "Postavke" - "Čitanje";
Označite okvir "Preporučite tražilicama da ne indeksiraju web-mjesto".
Spremi promjene.
Izvođenje ovih radnji samo je preporuka za tražilice... I sami odlučuju hoće li materijali za izvore biti indeksirani ili ne. Postavke vidljivosti stranice čak uključuju poseban niz: « Tražilice oni sami odlučuju hoće li slijediti vaš zahtjev." Napominjemo da Yandex obično "pokorava", a Google može djelovati po vlastitom nahođenju i u nekim slučajevima ipak indeksirati stranicu, unatoč preporuci.
Ručno zatvaranje stranice od indeksiranja
U izvornom kodu, kada se stranica ili cijeli resurs zatvori iz indeksiranja, pojavljuje se redak
Upravo ova linija poručuje tražilicama da nema potrebe za indeksiranjem pojedinačnih materijala ili resursa. Ovu liniju možete ručno napisati bilo gdje na web mjestu. Glavna stvar je da se prikazuje na svim stranicama.
Ova metoda je također prikladna za zatvaranje svakog nepotrebnog dokumenta iz indeksiranja.
Nakon dovršetka ažuriranja, morate provjeriti je li sve uspjelo. Da biste to učinili, morate otvoriti izvor preko CTRL tipke+ U i pogledajte sadrži li točan redak. Njegova prisutnost potvrđuje uspješnu operaciju zatvaranja iz indeksiranja. Osim toga, možete provjeriti u Yandex Webmasteru i Google Webmasteru.
Dakle, razmotrili smo najjednostavniji i brze načine, što vam omogućuje da zatvorite cijelu stranicu ili pojedinačne materijale resursa iz indeksiranja tražilice... I, kako se pokazalo, robots.txt je jedna od lakih i relativno pouzdanih metoda.
Nedavno je sa mnom podijelio opažanje da mnoge stranice koje nam dođu na reviziju često imaju iste pogreške. Štoviše, ove se pogreške ne mogu uvijek nazvati trivijalnim - čine ih čak i napredni webmasteri. Tako je nastala ideja za pisanje niza članaka s uputama za praćenje i popravljanje slične pogreške... Prvi na redu je vodič za postavljanje indeksiranja web mjesta. Dajem riječ autoru.
Za dobro indeksiranje stranice i bolje rangiranje stranice, potrebno je da tražilica indeksira ključne promovirane stranice stranice, a na samim stranicama može točno istaknuti glavni sadržaj, a da se ne zbuni u obilju servisnih i pomoćnih informacija. Web stranice koje nam dolaze na analizu imaju dvije vrste pogrešaka:
1. Kada promoviraju stranicu, njihovi vlasnici ne razmišljaju o tome što bot za pretraživanje vidi i dodaje u indeks. U tom slučaju može nastati situacija kada indeks sadrži više stranica smeća nego promoviranih stranica, a same stranice su preopterećene.
2. Naprotiv, vlasnici su bili previše revni da očiste mjesto. Zajedno s nepotrebne informacije podaci važni za promociju i ocjenu stranica također se mogu sakriti.
Danas želimo razmotriti što je doista vrijedno sakriti od robota za pretraživanje i kako to najbolje učiniti. Krenimo od sadržaja stranica.
Sadržaj
Problemi u vezi sa zatvaranjem sadržaja na stranici:
Stranicu roboti za pretraživanje ocjenjuju sveobuhvatno, a ne samo tekstualnim pokazateljima. Ponesene zatvaranjem raznih blokova, često se brišu informacije važne za procjenu korisnosti i rangiranje.
Navedimo primjer najviše česte greške:
- zaglavlje stranice je skriveno. Obično je kuća Kontakt informacije, poveznice. Ako je zaglavlje stranice zatvoreno, tražilice možda neće znati da ste se pobrinuli za posjetitelje i plasirali ih važna informacija na istaknutom mjestu;
- filteri, obrazac za pretraživanje, sortiranje su skriveni od indeksiranja. Prisutnost takvih mogućnosti u internetskoj trgovini važan je komercijalni pokazatelj koji je bolje prikazan, a ne skriven. - podaci o plaćanju i dostavi su skriveni. To je učinjeno kako bi se poboljšala jedinstvenost kartica proizvoda. Ali to je također informacija koja bi trebala biti na kartici proizvoda visoke kvalitete. - izbornik je "izrezan" sa stranica, što narušava procjenu jednostavnosti navigacije po stranici.
Zašto je dio sadržaja zatvoren na stranici? Obično postoji nekoliko ciljeva: - usredotočiti se na glavni sadržaj na stranici uklanjanjem pomoćnih informacija, servisnih blokova, izbornika iz indeksa; - učiniti stranicu jedinstvenijom i korisnijom uklanjanjem duplih blokova na stranici; - ukloniti "dodatni" tekst, povećati relevantnost teksta stranice.
Sve se to može postići bez skrivanja dijela sadržaja! Imate li jako velik jelovnik? Prikažite na stranicama samo one stavke koje su izravno povezane s odjeljkom.
Mnogo izbora u filterima? Ispisujte samo popularne u glavnom kodu. Ostatak opcija učitajte samo ako korisnik klikne gumb "prikaži sve". Da, ovdje se koriste skripte, ali nema prijevare - skripta se pokreće na zahtjev korisnika. Tražilica će moći pronaći sve stavke, ali kada se procijene, one neće dobiti istu vrijednost kao glavni sadržaj stranice.
Na stranici veliki blok s vijestima? Smanjite njihov broj, prikažite samo naslove ili jednostavno uklonite blok vijesti ako korisnici rijetko slijede veze u njemu ili ako na stranici ima malo glavnog sadržaja.
Roboti za pretraživanje, iako daleko od idealnih, neprestano se poboljšavaju. Google već prikazuje skrivanje skripti od indeksiranja kao pogrešku u google paneliSearch Console(kartica "Blokirani resursi"). Neprikazivanje dijela sadržaja robotima doista može biti korisno, ali ovo nije metoda optimizacije, već privremene "štake" koje treba koristiti samo kada je to prijeko potrebno.
Preporučujemo: - tretirajte skrivanje sadržaja kao "štaku" i pribjegavajte mu samo u ekstremnim situacijama, pokušavajući modificirati samu stranicu; - uklanjanje dijela sadržaja sa stranice, fokusiranje ne samo na tekstualne pokazatelje, već i procjenu pogodnosti i informacija koje utječu; - prije skrivanja sadržaja, provedite eksperiment na nekoliko testnih stranica. Botovi za pretraživanje znaju kako analizirati stranice i vaši strahovi o smanjenju relevantnosti mogu biti uzaludni.
Pogledajmo metode koje se koriste za skrivanje sadržaja:
Oznaka bez indeksa
Ova metoda ima nekoliko nedostataka. Prije svega, ovu oznaku uzima u obzir samo Yandex, pa je beskorisna za skrivanje teksta od Googlea. Osim toga, važno je razumjeti da oznaka zabranjuje indeksiranje i prikazivanje samo teksta u rezultatima pretraživanja. Ostatak sadržaja, poput poveznica, nije pokriven.
Podrška za Yandex zapravo ne pokriva kako noindex funkcionira. Malo više informacija nalazi se u jednoj od rasprava na službenom blogu.
Pitanje korisnika:
“Mehanika djelovanja i utjecaj na rangiranje oznake nisu u potpunosti shvaćeni. tekst... Zatim ću objasniti zašto su toliko zbunjeni. A sada - postoje 2 hipoteze, želio bih pronaći istinu.
# 1 Noindex uopće ne utječe na rang/relevantnost stranice
Pod ovom pretpostavkom: jedino što radi je blokiranje nekog sadržaja da se ne pojavi u rezultatima pretraživanja. U tom se slučaju cijela stranica smatra cjelinom, uključujući zatvorene blokove, relevantnost i povezane parametre (jedinstvenost, usklađenost, itd.) jer se izračunava prema svim sadržajima u kodu, čak i zatvorenim.
# 2 Noindex utječe na rangiranje i relevantnost, budući da sadržaj zatvoren u oznaci uopće nije ocijenjen. Sukladno tome, točno je suprotno. Stranica će biti rangirana prema sadržaju koji je otvoren za robote."
Kada bi oznaka mogla biti korisna: - ako postoji sumnja da je stranica smanjena u rezultatima pretraživanja Yandexa zbog prevelike optimizacije, ali u isto vrijeme zauzima TOP pozicije za važne fraze u Googleu. Morate razumjeti da je ovo brzo i privremeno rješenje. Ako cijela stranica potpada pod "Baden-Baden", noindex, kao što su predstavnici Yandexa više puta potvrdili, neće pomoći; - sakriti generala servisne informacije koje ste dužni navesti na stranici zbog korporativnih ili zakonskih propisa; - da ispravite isječke u Yandexu ako sadrže neželjeni sadržaj.
Skrivanje sadržaja pomoću AJAX-a
Ovaj univerzalna metoda... Omogućuje vam skrivanje sadržaja s Yandexa i Googlea. Ako želite očistiti stranicu od sadržaja koji razvodnjava relevantnost, bolje ga je upotrijebiti. Predstavnici PS-a, naravno, ne pozdravljaju ovu metodu i preporučuju je roboti za pretraživanje vidjeli isti sadržaj kao i korisnici. Tehnologija pomoću AJAX-a je široko rasprostranjena i ako se ne upustite u eksplicitno prikrivanje, ne prijete vam sankcije za njegovo korištenje. Nedostatak ove metode je što i dalje morate blokirati pristup skriptama, iako Yandex i Google to ne preporučuju.
Stranice stranice
Za uspješna promocija važno je ne samo riješiti se nepotrebne informacije na stranicama, ali i jasno indeks pretraživanja stranice s beskorisnih stranica za smeće. Prvo, to će ubrzati indeksiranje glavnih promoviranih stranica web-mjesta. Drugo, prisutnost u indeksu veliki broj neželjene stranice negativno će utjecati na ocjenu i promociju stranice.
Odmah nabrojimo stranice koje je poželjno sakriti:
- stranice za registraciju prijava, košarice korisnika; - rezultati pretraživanja stranice; - osobni podaci korisnika; - stranice s rezultatima usporedbe proizvoda i slično pomoćni moduli; - stranice generirane filterima pretraživanja i sortiranjem; - stranice administrativnog dijela stranice; - tiskane verzije.
Razmotrimo načine na koje možete zatvoriti stranice iz indeksiranja.
Zatvori u robots.txt
Ovo nije najbolja metoda.
Prvo, datoteka robots nije dizajnirana za borbu protiv duplikata i čišćenje stranica od neželjenih stranica. U ove svrhe bolje je koristiti druge metode.
Drugo, datoteka robota nije jamstvo da stranica neće biti indeksirana.
Evo što Google piše o tome u svojoj pomoći:
Noindex meta oznaka
Kako biste osigurali da su stranice isključene iz indeksa, najbolje je koristiti ovu meta oznaku.
Ispod je varijanta meta oznake koju obje tražilice razumiju:
Važna točka!
Da bi Googlebot vidio meta oznaku noindex, morate otvoriti pristup stranicama koje su zatvorene u datoteci robots.txt. Ako se to ne učini, robot možda jednostavno neće ići na ove stranice.
Zaglavlja oznaka X-Robots
Značajna prednost ove metode je da se zabrana može postaviti ne samo u kodu stranice, već i kroz root .htaccess datoteku.
Ova metoda nije baš uobičajena na ruskom internetu. Vjerujemo da je glavni razlog ove situacije taj što Yandex koristi ovu metodu dugo vremena nije podržao. Ove godine zaposlenici Yandexa napisali su da je metoda sada podržana.
Odgovor podrške ne može se nazvati detaljnim))). Prije nego što nastavite sa zabranom indeksiranja pomoću oznake X-Robots-Tag, bolje je provjeriti funkcionira li ova metoda za Yandex. Još nismo postavili svoje eksperimente na ovu temu, ali ćemo to možda učiniti u bliskoj budućnosti.
Zaštita lozinkom
Ako trebate sakriti cijelu stranicu, na primjer, testnu verziju, također preporučujemo korištenje ove metode. Možda je jedini nedostatak to što može biti teško skenirati domenu skrivenu pod lozinkom ako je potrebno.
Uklonite neželjene stranice pomoću AJAX-a
Poanta nije samo zabraniti indeksiranje stranica generiranih filterima, sortiranjem itd., već ne i kreirati slične stranice na stranici.
Na primjer, ako je korisnik u filteru pretraživanja odabrao skup parametara za koji niste kreirali zasebna stranica, promjene u proizvodima prikazanim na stranici događaju se bez promjene samog URL-a.
Poteškoća s ovom metodom je u tome što se obično ne može primijeniti na sve slučajeve odjednom. Neke od generiranih stranica koriste se za promociju.
Na primjer, filtrirajte stranice. Za "frižider + Samsung + bijela" trebamo stranicu, ali za "frižider + Samsung + bijeli + dva odjeljka + bez mraza" - više ne.
Stoga morate napraviti alat koji uključuje stvaranje iznimaka. To komplicira zadatak programera.
Koristite metode zabrane indeksiranja iz algoritama pretraživanja
Ovaj alat vam omogućuje da odredite kako identificirati pojavu u URL-ovi stranica novim parametrima.
Direktiva Clean-param u robots.txt
U Yandexu se slična zabrana za URL parametre može postaviti pomoću direktive Clean-param. Možete čitati o tome.
Kanonske adrese kao prevencija smeća stranica na stranici Ova meta oznaka stvorena je posebno za borbu protiv duplikata i neželjenih stranica na web mjestu. Preporučujemo da ga propišete na cijeloj web stranici kao prevenciju pojavljivanja duplikata i smeća stranica u indeksu.
Alati za točkasto brisanje stranica iz Yandex i Google indeksa
Ako se dogodila situacija kada hitno trebate izbrisati podatke iz indeksa, bez čekanja da se vidi vaša zabrana posao traženja, možete koristiti alate s ploče Yandex.Webmaster i Google Search Console.
U Yandexu, ovo je "Ukloni URL":
U Google Search Consoleu "Ukloni URL":
Interne veze
Interne veze su zatvorene od indeksiranja kako bi se interne težine preraspodijelile na glavne promovirane stranice. Ali poanta je: - takva preraspodjela može loše utjecati na opće veze između stranica; - veze iz šablonskih prolaznih blokova obično imaju manju težinu ili se uopće ne računaju.
Razmotrite opcije koje se koriste za skrivanje veza:
Oznaka bez indeksa
Ova oznaka je beskorisna za skrivanje veza. Primjenjuje se samo na tekst.
Rel = "nofollow" atribut
Trenutno vam atribut ne dopušta uštedu težine na stranici. Korištenje rel = ”nofollow” jednostavno gubi na težini. Samo po sebi, korištenje oznake za interne veze ne čini se baš logičnim.
Skrivanje poveznica sa skriptama
Ovo je zapravo jedina radna metoda kojom možete sakriti linkove od tražilica. Možete koristiti Ajax i učitavati blokove veza nakon učitavanja stranice ili dodati veze zamjenom oznake sa skriptom na ... Važno je to uzeti u obzir algoritmi pretraživanja mogu prepoznati skripte.
Kao i kod sadržaja, ovo je štaka koja ponekad može riješiti problem. Ako niste sigurni da ćete dobiti pozitivan učinak od bloka skrivenih veza, bolje je ne koristiti takve metode.
Zaključak
Uklanjanje glomaznih blokova od kraja do kraja sa stranice zaista može imati pozitivan učinak na rangiranje. Bolje je to učiniti skraćivanjem stranice i prikazivanjem samo sadržaja koji je posjetiteljima potreban. Skrivanje sadržaja od tražilice je štaka koju bi trebalo koristiti samo u slučajevima kada je nemoguće smanjiti blokove koji se prožimaju na druge načine.
Kada uklanjate dio sadržaja sa stranice, nemojte zaboraviti da za rangiranje nisu važni samo kriteriji teksta, već i cjelovitost informacija i komercijalni čimbenici.
Slična je situacija i s internim poveznicama. Da, ponekad može biti korisno, ali umjetna preraspodjela mase linkova na stranici je kontroverzna metoda. Mnogo je sigurnije i pouzdanije jednostavno odbaciti veze za koje niste sigurni.
Sa stranicama stranice sve je nedvosmislenije. Važno je osigurati da bezvrijedne stranice od male koristi ne završe u indeksu. Postoji mnogo metoda za to koje smo prikupili i opisali u ovom članku.
Uvijek možete poslušati naš savjet tehnički aspekti optimizaciju, ili naručite promociju po sistemu ključ u ruke, koja uključuje.