Robot txt nuk parandalon indeksimin. Dhe tani me sqarime

05.04.2019 Hekuri

Robots.txt është një skedar shërbimi që shërben si rekomandim për kufizimin e aksesit në përmbajtjen e dokumenteve në ueb për motorët e kërkimit. Në këtë artikull, ne do të analizojmë vendosjen e Robots.txt, përshkrimin e direktivave dhe përpilimin e tij për CMS të njohura.

Ky skedar Robot ndodhet në direktoriumin rrënjë të faqes tuaj dhe hapet/redaktohet fletore e thjeshtë, Unë rekomandoj Notepad++. Për ata që nuk duan të lexojnë - ka një VIDEO, shikoni në fund të artikullit 😉

Pse nevojitet robots.txt

Siç thashë më lart, duke përdorur skedarin robots.txt, ne mund të kufizojmë aksesin e robotëve të kërkimit në dokumente, d.m.th. ne ndikojmë drejtpërdrejt në indeksimin e faqes. Më shpesh mbyllet nga indeksimi:

Skedarët dhe dosjet e shërbimit CMS
dublikatë
Dokumente që nuk janë të dobishme për përdoruesin
Faqe jo unike

Le të marrim një shembull specifik:

Një dyqan online që shet këpucë dhe i implementuar në një nga CMS-të e njohura, dhe jo në mënyrën më të mirë. Unë mund të them menjëherë se çfarë do të jenë në rezultate faqet e kërkimit, faqet, karroca, disa skedarë motori, etj. Të gjitha këto do të jenë dublikatë dhe skedarë shërbimi që janë të padobishme për përdoruesin. Prandaj, ato duhet të mbyllen nga indeksimi, dhe nëse ka ende një seksion "Lajme" në të cilin janë të ndryshme artikuj interesantë nga faqet e konkurrentëve - atëherë nuk keni nevojë të mendoni, ne e mbyllim menjëherë.

Prandaj, duhet të marrim skedarin robots.txt në mënyrë që mbeturinat të mos hyjnë në këtë çështje. Mos harroni se skedari duhet të hapet në http://site.ru/robots.txt.

direktivat robots.txt dhe rregullat e personalizimit

përdorues-agjent. Ky është një apel për një robot specifik të motorit të kërkimit ose për të gjithë robotët. Nëse përshkruhet emër specifik robot, për shembull "YandexMedia", atëherë direktivat e përgjithshme të agjentëve të përdoruesve nuk përdoren për të. Shembull i shkrimit:

Agjenti i përdoruesit: YandexBot Mos lejo: /cart # do të përdoret vetëm nga roboti kryesor i indeksimit të Yandex

Mos lejo/Lejo. Ky është një ndalim / leje për të indeksuar një dokument ose seksion specifik. Nuk ka rëndësi radha e shkrimit, por me 2 direktiva dhe të njëjtin parashtesë, "Lejo" ka përparësi. Roboti i kërkimit i lexon ato sipas gjatësisë së prefiksit, nga më i vogli tek më i madhi. Nëse keni nevojë të çaktivizoni indeksimin e faqeve, thjesht futni shtegun përkatës për të (Mos lejo: /blog/post-1).

Agjenti i përdoruesit: Yandex Mos lejo: / Lejo: /articles # Çaktivizo indeksimin e faqes, me përjashtim të seksionit 1 artikujsh

Shprehje të rregullta me * dhe $. Një yll nënkupton çdo sekuencë karakteresh (përfshirë ato boshe). Shenja e dollarit do të thotë ndërprerje. Shembuj të përdorimit:

Mos lejo: /page* # mos lejo të gjitha faqet, ndërtimet http://site.ru/page Mos lejo: /arcticles$ # mos lejo vetëm faqen http://site.ru/articles, duke lejuar faqet http://site.ru/ artikuj / e re

Direktiva e hartës së faqes. Nëse përdorni - atëherë në robots.txt duhet të tregohet kështu:

Harta e faqes: http://site.ru/sitemap.xml

direktiva pritës. Siç e dini, faqet kanë pasqyra (lexo,). Ky rregull drejton robotin e kërkimit në pasqyrën kryesore të burimit tuaj. I referohet Yandex. Nëse keni një pasqyrë pa WWW, atëherë ne shkruajmë:

Pritësi: site.ru

Zvarritje-vonesa. Vendos vonesën (në sekonda) midis shkarkimeve të bot-it të dokumenteve tuaja. Është shkruar pas direktivave Disalejo/Lejo.

Zvarritje-vonesa: 5 # afat kohor prej 5 sekondash

Param i pastër. I tregon robotit të kërkimit se nuk ka nevojë të shkarkojë informacion shtesë të kopjuar (sesioni, referuesi, ID-të e përdoruesve). Clean-param duhet të shkruhet për faqet dinamike:

Clean-param: ref /category/books # tregon se faqja jonë është kryesore, dhe http://site.ru/category/books?ref=yandex.ru&id=1 është e njëjta faqe, por me parametra

Rregulli kryesor: robots.txt duhet të shkruhet në shkronja të vogla dhe shtrihuni në rrënjën e faqes. Shembull i strukturës së skedarit:

Agjenti i përdoruesit: Yandex Mos lejo: /cart Lejo: /cart/images Harta e faqes: http://site.ru/sitemap.xml Pritësi: site.ru Crawl-delay: 2

Meta etiketa e robotëve dhe si shkruhet

Ky opsion i ndalimit të faqeve merret parasysh më mirë nga motori i kërkimit. Sistemi i Google. Yandex po aq mirë i merr parasysh të dyja opsionet.

Ka 2 direktiva: ndjek/nofollow Dhe indeks/noindeks. Këto janë lejimi/ndalimi i lidhjeve vijuese dhe lejimi/ndalimi i indeksimit të dokumenteve. Direktivat mund të shkruhen së bashku, shikoni shembullin më poshtë.

Për çdo faqe të veçantë mund të shkruani në etiketë në vijim:

Korrigjoni skedarët robots.txt për CMS të njohura

Shembull Robots.txt për WordPress

Më poshtë mund të shihni versionin tim nga ky blog SEO.

Agjenti i përdoruesit: Yandex Mos lejo: /wp-content/uploads/ Lejo: /wp-content/uploads/*/*/ Mos lejo: /wp-login.php Mos lejo: /wp-register.php Mos lejo: /xmlrpc.php Mos lejo : /template.html Mos lejo: /cgi-bin Mos lejo: /wp-admin Mos lejo: /wp-includes Mos lejo: /wp-content/plugins Mos lejo: /wp-content/cache Mos lejo: /wp-content/themes Mos lejo: / wp-trackback Mos lejo: /wp-feed Mos lejo: /wp-comments Mos lejo: */trackback Mos lejo: */feed Mos lejo: */comments Mos lejo: /tag Mos lejo: /archive Mos lejo: */trackback/ Mos lejo: */feed/ Mos lejo: */comments/ Mos lejo: /?feed= Mos lejo: /?.php Mos lejo: /wp-register.php Mos lejo: /xmlrpc.php Mos lejo: /template.html Mos lejo: /cgi-bin Mos lejo: /wp-admin Mos lejo: /wp-includes Mos lejo: /wp-content/plugins Mos lejo: /wp-content/cache Mos lejo: /wp-content/themes Mos lejo: /wp-trackback Mos lejo: /wp-feed Mos lejo: /wp-comments Mos lejo: */trackback Mos lejo: */feed Mos lejo: */comments Mos lejo: /tag Mos lejo: /arkiv Mos lejo: */trackback/ Disallo w: */feed/ Mos lejo: */comments/ Mos lejo: /?feed= Mos lejo: /?.xml

Unë i ndaloj ndjekjet sepse kopjon një pjesë të artikullit në komente. Dhe nëse ka shumë ndjekje, do të merrni një mori komentesh të njëjta.

Përpiqem të mbyll dosjet e shërbimit dhe skedarët e çdo CMS. Unë nuk dua që ata të futen në indeks (megjithëse motorët e kërkimit nuk i marrin ato gjithsesi, por nuk do të përkeqësohet).

Ushqimet (ushqimi) duhet të mbyllen, sepse. këto janë kopje të pjesshme ose të plota të faqeve.

Etiketat mbyllen nëse nuk i përdorim ose jemi shumë dembel për t'i optimizuar ato.

Shembuj për CMS të tjera

Për të shkarkuar robotët e saktë për CMS-në e dëshiruar, thjesht klikoni në lidhjen e duhur.

Si të mbyllni një faqe, lidhje, faqe nga indeksimi?

Nuk është gjithmonë e nevojshme që motorët e kërkimit të indeksojnë të gjithë informacionin në sit.

Ndonjëherë, webmasterët madje duhet të mbyllin plotësisht faqen nga indeksimi, por fillestarët nuk dinë ta bëjnë këtë. Nëse dëshironi, mund të fshehni çdo përmbajtje, burim ose faqe të tij individuale nga motorët e kërkimit.

Si të mbyllni një faqe, lidhje, faqe nga indeksimi? Ka disa funksione të thjeshta, të cilin mund ta përdorni për të mbyllur çdo informacion nga Yandex dhe Google. Në këtë artikull, ne do të sugjerojmë si të bllokoni një faqe nga indeksimi përmes robotëve, dhe t'ju tregojë se çfarë kodi duhet të shtoni në këtë skedar.

Parandalimi i indeksimit të motorit të kërkimit

Para se të flasim për metodën e përdorimit të robots.txt, do të tregojmë se si të bllokojmë një sajt nga indeksimi në WordPress përmes panelit të administratorit. Në cilësimet (seksioni i leximit), ekziston një funksion i dobishëm:

Mund të hiqni dukshmërinë e faqes, por kushtojini vëmendje këshillës. Ai thotë se motorët e kërkimit ende mund të indeksojnë burimin, kështu që është më mirë të përdorni metodën e provuar dhe të shtoni kodin e dëshiruar në robots.txt.

Skedari i tekstit të robotëve ndodhet në , dhe nëse nuk është aty, krijoni atë përmes bllokut të shënimeve.

Kodi i mëposhtëm do të ndihmojë në mbylljen e sajtit nga indeksimi:

Thjesht shtoni atë në rreshtin e parë (zëvendësoni linjat ekzistuese). Nëse keni nevojë të mbyllni faqen vetëm nga Yandex, specifikoni Yandex në vend të një ylli, nëse mbyllni burimin nga Google, futni Googlebot.

Nëse nuk mund ta përdorni këtë metodë, thjesht shtoni rreshtin në kodin e faqes .

Kur bëni këto hapa, faqja nuk do të indeksohet më, kjo është më së shumti Menyra me e mire për të mbyllur një burim nga robotët e kërkimit.

Si të mbyllni një faqe nga indeksimi?

Nëse keni nevojë të fshihni vetëm një faqe, atëherë do t'ju duhet të shkruani një kod tjetër në skedarin e robotëve:

Mos lejo: /category/kak-nachat-zarabatyvat

Në rreshtin e dytë duhet të specifikoni adresën e faqes, por pa emrin e domenit. Përndryshe, mund ta mbyllni faqen nga indeksimi nëse shkruani në kodin e saj:

Mbaroi opsion i vështirë, por nëse nuk ka dëshirë për të shtuar linja në robots.txt, atëherë kjo është një rrugëdalje e shkëlqyer. Nëse keni zbritur në këtë faqe duke kërkuar një mënyrë për të parandaluar indeksimin e dublikatave, mënyra më e lehtë është të shtoni të gjitha lidhjet te robotët.

Si të mbyllni një lidhje ose tekst nga indeksimi?

Këtu, gjithashtu, nuk ka asgjë të komplikuar, ju vetëm duhet të shtoni etiketa speciale në kodin e lidhjes ose rrethojeni me to:

spirancë

Duke përdorur të njëjtën etiketat noindex, mund të fshiheni nga motorët e kërkimit tekst të ndryshëm. Për ta bërë këtë, duhet ta regjistroni këtë etiketë në redaktuesin e artikujve.

Fatkeqësisht, Google nuk ka një etiketë të tillë, kështu që fshehja e një pjese të tekstit prej tij nuk do të funksionojë. Mënyra më e lehtë për ta bërë këtë është të shtoni një imazh me tekst.

Një nga fazat e optimizimit të faqes për motorët e kërkimit është krijimi i një skedari robots.txt. Nëpërmjet dosjen e dhënë ju mund të parandaloni disa ose të gjithë zvarritësit që të indeksojnë faqen tuaj ose pjesë të caktuara të tij që nuk synohen të indeksohen. Në veçanti, mund të çaktivizoni indeksimin e përmbajtjeve të kopjuara, siç janë versionet e printueshme të faqeve.

Para indeksimit, robotët e kërkimit i referohen gjithmonë skedarit robots.txt në direktorinë rrënjë të faqes tuaj, për shembull, http://site.ru/robots.txt, në mënyrë që të dini se cilat seksione të faqes roboti nuk lejohet për të indeksuar. Por edhe nëse nuk do të ndaloni asgjë, atëherë rekomandohet të krijohet ky skedar.

Siç mund ta shihni nga shtrirja robots.txt, kjo është skedar teksti. Për të krijuar ose modifikuar këtë skedar, është më mirë të përdorni më të thjeshtën redaktorët e tekstit si Notepad. robots.txt duhet të vendoset në direktoriumin rrënjë të faqes dhe ka formatin e vet, për të cilën do të diskutojmë më poshtë.

Formati i skedarit Robots.txt

Skedari robots.txt duhet të përmbajë të paktën dy hyrje të kërkuara. Së pari vjen direktiva e agjentit përdorues, e cila specifikon se cili zvarritës duhet të ndjekë udhëzimet e mëposhtme. Vlera mund të jetë emri i robotit (googlebot, Yandex, StackRambler) ose simboli * nëse i drejtoheni të gjithë robotëve menjëherë. Për shembull:

Agjenti i përdoruesit: googlebot

Ju mund ta gjeni emrin e robotit në faqen e internetit të motorit përkatës të kërkimit. Tjetra duhet të jetë një ose më shumë direktiva të moslejimit. Këto direktiva i tregojnë robotit se cilët skedarë dhe dosje nuk lejohen të indeksohen. Për shembull, rreshtat e mëposhtëm parandaloni robotët të indeksojnë skedarin feedback.php dhe drejtorinë cgi-bin:

Mos lejo: /feedback.php Mos lejo: /cgi-bin/

Ju gjithashtu mund të përdorni vetëm karakteret kryesore të skedarëve ose dosjeve. Rreshti Disallow: /forum ndalon indeksimin e të gjithë skedarëve dhe dosjeve në rrënjën e faqes, emri i të cilit fillon me forum, për shembull, skedari http://site.ru/forum.php dhe http://site. dosje ru/forum/ me gjithë përmbajtjen e saj. Nëse Disallow është bosh, do të thotë që roboti mund të indeksojë të gjitha faqet. Nëse vlera Disallow është simboli /, kjo do të thotë se i gjithë siti nuk lejohet të indeksohet.

Duhet të ketë të paktën një fushë të moslejimit për secilën fushë të agjentit të përdoruesit. Kjo do të thotë, nëse nuk do të ndaloni asgjë për indeksim, atëherë skedari robots.txt duhet të përmbajë shënimet e mëposhtme:

Agjenti i përdoruesit: * Mos lejo:

Direktiva shtesë

përveç shprehjet e rregullta Yandex dhe Google lejojnë përdorimin e direktivës Allow, e cila është e kundërta e Disallow, domethënë, specifikon se cilat faqe mund të indeksohen. NË shembulli tjetër Yandex është i ndaluar të indeksojë gjithçka, përveç adresave të faqeve që fillojnë me /articles:

Agjenti i përdoruesit: Yandex Lejo: /articles Mos lejo: /

NË ky shembull direktiva Lejo duhet të shkruhet përpara Disallow, përndryshe Yandex do ta kuptojë këtë si një ndalim të plotë të indeksimit të faqes. Një direktivë e zbrazët Lejo gjithashtu çaktivizon plotësisht indeksimin e faqeve:

Agjenti i përdoruesit: Yandex Allow:

është e barabartë me

Agjenti i përdoruesit: Yandex Mos lejo: /

Direktivat jo standarde duhet të specifikohen vetëm për ato motorë kërkimi që i mbështesin ato. Përndryshe, roboti nuk e kupton këtë hyrje mund të mos e përpunojë siç duhet atë ose të gjithë skedarin robots.txt. Për më shumë informacion në lidhje me direktivat shtesë dhe në përgjithësi për të kuptuarit e komandave të skedarëve robots.txt nga një robot individual, mund të gjeni në faqen e internetit të motorit përkatës të kërkimit.

Shprehje të rregullta në robots.txt

Shumica e motorëve të kërkimit marrin parasysh vetëm në mënyrë eksplicite emrat e dhene skedarë dhe dosje, por ka motorë kërkimi më të avancuar. Googlebot dhe Yandexbot mbështesin përdorimin e shprehjeve të thjeshta të rregullta në robots.txt, gjë që redukton ndjeshëm sasinë e punës për webmasterët. Për shembull, komandat e mëposhtme çaktivizohen Roboti i Google indeksoni të gjithë skedarët me shtesën .pdf:

Agjenti i përdoruesit: googlebot Mos lejo: *.pdf$

Në shembullin e mësipërm, simboli * është çdo sekuencë karakteresh dhe $ tregon fundin e lidhjes.

Agjenti i përdoruesit: Yandex Lejo: /articles/*.html$ Mos lejo: /

Direktivat e mësipërme lejojnë Yandex të indeksojë vetëm skedarët në dosjen /articles/ me shtesën ".html". Çdo gjë tjetër është e ndaluar për indeksim.

harta e sitit

Ju mund të specifikoni vendndodhjen e hartës së faqes XML në skedarin robots.txt:

Agjenti i përdoruesit: googlebot Mos lejo: Harta e faqes: http://site.ru/sitemap.xml

Nëse keni shumë nje numer i madh i faqet në sit dhe ju është dashur të ndani hartën e faqes në pjesë, atëherë duhet të specifikoni të gjitha pjesët e hartës në skedarin robots.txt:

Agjenti i përdoruesit: Yandex Mos lejo: Harta e faqes: http://mysite.ru/my_sitemaps1.xml Harta e faqes: http://mysite.ru/my_sitemaps2.xml

Pasqyrat e faqes

Siç e dini, zakonisht e njëjta faqe mund të aksesohet në dy adresa: si me www ashtu edhe pa të. Për një robot kërkimi, site.ru dhe www.site.ru janë faqe të ndryshme, por me të njëjtën përmbajtje. Ato quhen pasqyra.

Për shkak të faktit se faqet e faqes kanë lidhje si me www, ashtu edhe pa, pesha e faqeve mund të ndahet midis www.site.ru dhe site.ru. Për të parandaluar që kjo të ndodhë, motori i kërkimit duhet të specifikojë pasqyrën kryesore të faqes. Si rezultat i "ngjitjes" e gjithë pesha do t'i përkasë një pasqyre kryesore dhe vendi do të mund të zërë një pozicion më të lartë në rezultatet e kërkimit.

Ju mund të specifikoni pasqyrën kryesore për Yandex direkt në skedarin robots.txt duke përdorur direktivën Host:

Agjenti i përdoruesit: Yandex Mos lejo: /feedback.php Mos lejo: /cgi-bin/ Pritësi: www.site.ru

Pas ngjitjes, pasqyra www.site.ru do të zotërojë të gjithë peshën dhe do të zërë një pozicion më të lartë në rezultatet e kërkimit. Dhe site.ru nuk do të indeksohet fare nga motori i kërkimit.

Për motorët e tjerë të kërkimit, zgjedhja e pasqyrës kryesore është një ridrejtim i përhershëm nga ana e serverit (kodi 301) nga pasqyrat shtesë në atë kryesore. Kjo bëhet duke përdorur skedarin .htaccess dhe modulin mod_rewrite. Për ta bërë këtë, ne vendosim skedarin .htaccess në rrënjën e faqes dhe shkruajmë sa vijon atje:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Si rezultat, të gjitha kërkesat nga site.ru do të shkojnë në www.site.ru, d.m.th. site.ru/page1.php do të ridrejtohen në www.site.ru/page1.php.

Metoda e ridrejtimit do të funksionojë për të gjithë motorët e kërkimit dhe shfletuesit, por megjithatë rekomandohet të shtoni direktivën Host në skedarin robots.txt për Yandex.

Komentet në robots.txt

Ju gjithashtu mund të shtoni komente në skedarin robots.txt - ato fillojnë me simbolin # dhe përfundojnë me një furnizim rreshti. Është e dëshirueshme të shkruani komente në një rresht të veçantë, por është më mirë të mos i përdorni fare.

Një shembull i përdorimit të komenteve:

Përdoruesi-agjent: StackRambler Mos lejo: /garbage/ # asgjë e dobishme në këtë dosje Mos lejo: /doc.xhtml # gjithashtu në këtë faqe # dhe të gjitha komentet në këtë skedar janë gjithashtu të padobishme

Shembuj të skedarëve robots.txt

1. Ne i lejojmë të gjithë robotët të indeksojnë të gjitha dokumentet e faqes:

Agjenti i përdoruesit: * Mos lejo:
Agjenti i përdoruesit: * Mos lejo: /

3. Ne e ndalojmë robotin Motori i kërkimit Google indeksoni skedarin feedback.php dhe përmbajtjen e drejtorisë cgi-bin:

Agjenti i përdoruesit: googlebot Mos lejo: /cgi-bin/ Mos lejo: /feedback.php

4. Ne i lejojmë të gjithë robotët të indeksojnë të gjithë faqen dhe ne ndalojmë robotin e motorit të kërkimit Yandex të indeksojë skedarin feedback.php dhe përmbajtjen e drejtorisë cgi-bin:

Agjenti i përdoruesit: Yandex Mos lejo: /cgi-bin/ Mos lejo: /feedback.php Pritësi: www.site.ru Agjenti i përdoruesit: * Mos lejo:

5. Ne i lejojmë të gjithë robotët të indeksojnë të gjithë faqen dhe ne lejojmë që roboti Yandex të indeksojë vetëm pjesën e faqes së destinuar për të:

Agjenti i përdoruesit: Yandex Lejo: /yandex Mos lejo: / Pritësi: www.site.ru Agjenti i përdoruesit: * Mos lejo:

Vijat boshe ndajnë kufij për robotë të ndryshëm. Çdo bllok kufizimesh duhet të fillojë me një rresht me fushën Përdorues-Agjent, duke treguar robotin për të cilin zbatohen këto rregulla të indeksimit të faqeve.

Gabimet e zakonshme

Duhet pasur parasysh se vijë bosh në skedarin robots.txt është një ndarës midis dy regjistrimeve për robotë të ndryshëm. Gjithashtu, nuk mund të specifikoni direktiva të shumta në të njëjtën linjë. Kur çaktivizon indeksimin e një skedari, webmasterët shpesh heqin / përpara emrit të skedarit.

Nuk është e nevojshme të përshkruani në robots.txt një ndalim të indeksimit të faqes programe të ndryshme, të cilat janë krijuar për të shkarkuar plotësisht faqen, për shembull, TeleportPro. As shkarkuesit dhe as shfletuesit nuk e shikojnë këtë skedar dhe nuk ndjekin udhëzimet e shkruara atje. Është menduar ekskluzivisht për motorët e kërkimit. Ju gjithashtu nuk duhet të bllokoni zonën e administratorit të faqes tuaj në robots.txt, sepse nëse nuk ka asnjë lidhje me të askund, atëherë ajo nuk do të indeksohet. Ju do të zbuloni vendndodhjen e panelit të administratorit vetëm për njerëzit që nuk duhet të dinë për të. Vlen gjithashtu të kujtohet se robots.txt shumë i madh mund të shpërfillet nga motori i kërkimit. Nëse keni shumë faqe që nuk janë të destinuara për indeksim, atëherë është më mirë thjesht t'i hiqni ato nga faqja ose t'i zhvendosni në një drejtori të veçantë dhe të ndaloni indeksimin e kësaj drejtorie.

Kontrollimi i skedarit robots.txt për gabime

Sigurohuni që të kontrolloni se si motorët e kërkimit e kuptojnë skedarin tuaj robotik. Për të kontrolluar Google mund të përdorni Veglat e Google për webmasterët. Nëse doni të dini se si Yandex e kupton skedarin tuaj robots.txt, mund të përdorni shërbimin Yandex.Webmaster. Kjo do t'ju lejojë të korrigjoni gabimet e bëra në kohë. Gjithashtu në faqet e këtyre shërbimeve mund të gjeni rekomandime për përpilimin e një skedari robots.txt dhe shumë informacione të tjera të dobishme.

Kopjimi i artikullit është i ndaluar.

Aspektet teknike të faqes së krijuar nuk luajnë më pak rol i rendesishem për të promovuar faqen në motorët e kërkimit sesa përmbajtjen e saj. Një nga më të rëndësishmet aspektet teknikeështë indeksimi i faqes, d.m.th., përcaktimi i zonave të sajtit (skedarët dhe drejtoritë) që mund ose nuk mund të indeksohen nga robotët e motorëve të kërkimit. Për këto qëllime, përdoret robots.txt - kjo është dosje speciale, i cili përmban komanda për robotët e motorëve të kërkimit. Skedari i saktë robots.txt për Yandex dhe Google do të ndihmojë për të shmangur shumë pasoja të pakëndshme që lidhen me indeksimin e faqeve.

2. Koncepti i skedarit robots.txt dhe kërkesat për të

Skedari /robots.txt synon të udhëzojë të gjithë robotët e kërkimit (merimangat) të indeksojnë serverët e informacionit siç përcaktohet në këtë skedar, d.m.th. vetëm ato drejtori dhe skedarë serveri që nuk përshkruhen në /robots.txt. Ky skedar duhet të përmbajë 0 ose më shumë hyrje që lidhen me një robot të caktuar (siç përcaktohet nga vlera e fushës agent_id) dhe të tregojë për secilin robot ose për të gjithë menjëherë se çfarë saktësisht nuk duhet të indeksohen.

Sintaksa e skedarit ju lejon të vendosni zona të kufizuara të indeksimit, si për të gjithë ashtu edhe për disa robotë.

Ekzistojnë kërkesa të veçanta për skedarin robots.txt, të cilat, nëse nuk respektohen, mund të çojnë në lexim të gabuar nga roboti i motorit të kërkimit ose edhe në paaftësi të këtij skedari.

Kërkesat kryesore:

të gjitha shkronjat në emrin e skedarit duhet të jenë të mëdha, d.m.th. duhet të jenë të vogla:
robots.txt është i saktë
Robots.txt ose ROBOTS.TXT është i gabuar;
skedari robots.txt duhet të krijohet në format teksti Unix. Kur kopjoni këtë skedar në një sajt, klienti ftp duhet të konfigurohet në të modaliteti i tekstit ndarja e skedarëve;
skedari robots.txt duhet të vendoset në direktorinë rrënjë të faqes.

3. Përmbajtja e skedarit robots.txt

Skedari robots.txt përfshin dy hyrje: "User-agent" dhe "Disallow". Emrat e këtyre hyrjeve nuk janë të ndjeshme.

Disa motorë kërkimi gjithashtu mbështesin hyrje shtesë. Kështu, për shembull, motori i kërkimit Yandex përdor rekordin Host për të përcaktuar pasqyrën kryesore të faqes (pasqyra kryesore e faqes është një sit që ndodhet në indeksin e motorit të kërkimit).

Çdo hyrje ka qëllimin e vet dhe mund të ndodhë disa herë, në varësi të numrit të faqeve dhe/ose drejtorive të mbyllura nga indeksimi dhe numrit të robotëve që ju aksesoni.

Supozohet formati tjetër linjat e skedarit robots.txt:

emri_rekord[opsionale

hapësira] : [opsionale

hapësira] kuptimi[hapësira opsionale]

Që një skedar robots.txt të konsiderohet i vlefshëm, të paktën një direktivë "Mos lejo" duhet të jetë e pranishme pas çdo hyrje "Agjent-përdorues".

Plotësisht skedar bosh robots.txt është e barabartë me mungesën e tij, gjë që nënkupton lejen për të indeksuar të gjithë faqen.

Hyrja "Agjent-përdorues".

Hyrja "Agjent përdorues" duhet të përmbajë emrin e zvarritësit. Në këtë hyrje, ju mund të specifikoni për çdo robot specifik se cilat faqe të faqes do të indeksohen dhe cilat jo.

Një shembull i hyrjes "Agjent-përdorues", ku aksesohen të gjithë Motorë kërkimi pa përjashtime dhe përdoret simboli "*":

Një shembull i hyrjes "Agjent-përdorues", ku aksesohet vetëm roboti i motorit të kërkimit Rambler:

Agjenti i përdoruesit: StackRambler

Roboti i çdo motori kërkimi ka emrin e vet. Ekzistojnë dy mënyra kryesore për ta njohur atë (emri):

në faqet e shumë motorëve të kërkimit ekziston një seksion i specializuar § "ndihmë për webmasterin", i cili shpesh tregon emrin e robotit të kërkimit;

kur shikoni regjistrat e serverëve në ueb, përkatësisht kur shikoni thirrjet në skedarin robots.txt, mund të shihni shumë emra që përmbajnë emrat e motorëve të kërkimit ose një pjesë të tyre. Prandaj, ju vetëm duhet të zgjidhni emrin e dëshiruar dhe ta futni atë në skedarin robots.txt.

"Mos lejo" hyrjen

Hyrja "Mos lejo" duhet të përmbajë receta që i tregojnë zvarritësit nga hyrja "Agjent i përdoruesit" se cilat skedarë dhe/ose drejtori janë të ndaluara të indeksohen.

Merrni parasysh shembuj të ndryshëm"Mos lejo" hyrjet.

Një shembull i një hyrjeje në robots.txt (lejo të gjitha për indeksimin):

Mos lejo:

Shembull (faqja është plotësisht e ndaluar për të . Për këtë, përdoret simboli "/"): Mos lejo: /

Shembull (skedari "page.htm" i vendosur në direktorinë rrënjë dhe skedari "page2.htm" i vendosur në direktorinë "dir" nuk lejohen për indeksim):

Mos lejo: /page.htm

Mos lejo: /dir/page2.htm

Shembull (për indeksimin, drejtoritë "cgi-bin" dhe "forum" dhe, për rrjedhojë, të gjitha përmbajtjet e kësaj drejtorie janë të ndaluara):

Mos lejo: /cgi-bin/

Mos lejo: /forum/

Është e mundur të bllokohet indeksimi i një numri dokumentesh dhe (ose) drejtorish që fillojnë me të njëjtat karaktere, duke përdorur vetëm një hyrje "Mos lejo". Për ta bërë këtë, ju duhet të shkruani karakteret fillestare identike pa një prerje mbyllëse.

Shembull (për indeksimin, drejtoria "dir" është e ndaluar, si dhe të gjithë skedarët dhe direktoritë që fillojnë me shkronjat "dir", dmth skedarët: "dir.htm", "direct.htm", drejtoritë: "dir", "directory1" , "directory2", etj.):

Regjistro "Lejo"

Opsioni "Lejo" përdoret për të treguar përjashtimet nga drejtoritë dhe faqet jo të indeksuara që janë specifikuar nga hyrja "Mos lejo".

Për shembull, ekziston një hyrje si kjo:

Mos lejo: /forum/

Por në të njëjtën kohë, faqja 1 duhet të indeksohet në drejtorinë /forum/. Pastaj linjat e mëposhtme do të kërkohen në skedarin robots.txt:

Mos lejo: /forum/

Lejo: /forum/page1

Hyrja në hartën e faqes

Kjo hyrje tregon vendndodhjen e hartës së sitit në format xml, e cila përdoret nga robotët e kërkimit. Kjo hyrje specifikon shtegun për në skedarin e dhënë.

Harta e faqes: http://site.ru/sitemap.xml

Regjistro "Host"

Rekordi "host" përdoret nga motori i kërkimit Yandex. Është e nevojshme të përcaktohet pasqyra kryesore e sitit, d.m.th. nëse siti ka pasqyra (pasqyra është e pjesshme ose kopje e plotë faqe. Prania e kopjimeve të burimeve mund të jetë e nevojshme për pronarët e faqeve shumë të vizituara për të rritur besueshmërinë dhe disponueshmërinë e shërbimit të tyre), më pas duke përdorur direktivën "Host", mund të zgjidhni emrin me të cilin dëshironi të indeksoheni. Përndryshe, "Yandex" do të zgjedhë vetë pasqyrën kryesore dhe emrat e tjerë do të ndalohen të indeksohen.

Për pajtueshmërinë me zvarritësit që nuk e pranojnë direktivën e Host-it gjatë përpunimit të skedarit robots.txt, duhet të shtoni një hyrje "Host" menjëherë pas hyrjeve të Moslejimit.

Shembull: www.site.ru - pasqyra kryesore:

Pritësi: www.site.ru

Regjistro "Zvarritje-vonesa"

Kjo hyrje pranohet nga Yandex. Është një komandë që roboti të bëjë intervale të një kohe të caktuar (në sekonda) ndërmjet faqeve të indeksimit. Ndonjëherë kjo është e nevojshme për të mbrojtur faqen nga mbingarkesat.

Pra, një rekord i llojit të mëposhtëm do të thotë që roboti Yandex duhet të lëvizë nga një faqe në tjetrën jo më herët se pas 3 sekondash:

Komentet

Çdo rresht në robots.txt që fillon me karakterin "#" konsiderohet koment. Lejohet përdorimi i komenteve në fund të rreshtave me direktiva, por disa robotë mund të mos e njohin saktë këtë rresht.

Shembull (komenti është në të njëjtën linjë me direktivën):

Mos lejo: /cgi-bin/ #comment

Këshillohet që komenti të vendoset në një rresht të veçantë. Një hapësirë në fillim të një rreshti lejohet, por nuk rekomandohet.

4. Shembuj skedarësh robots.txt

Shembull (komenti është në një rresht të veçantë):
Mos lejo: /cgi-bin/#comment

Një shembull i një skedari robots.txt që lejon të gjithë robotët të indeksojnë të gjithë sitin:

Pritësi: www.site.ru

Një shembull i një skedari robots.txt që ndalon të gjithë robotët të indeksojnë sitin:

Pritësi: www.site.ru

Një shembull i një skedari robots.txt që ndalon të gjithë robotët të indeksojnë drejtorinë "abc", si dhe të gjitha drejtoritë dhe skedarët që fillojnë me karakteret "abc".

Pritësi: www.site.ru

Një shembull i një skedari robots.txt që ndalon indeksimin e faqes "page.htm", e vendosur në direktorinë rrënjësore të faqes, nga roboti i kërkimit "googlebot":

Agjenti i përdoruesit: googlebot

Mos lejo: /page.htm

Pritësi: www.site.ru

Një shembull i një skedari robots.txt që çaktivizon indeksimin:

– te roboti “googlebot” – faqja “page1.htm” e vendosur në drejtorinë “directory”;

- te roboti "Yandex" - të gjitha drejtoritë dhe faqet që fillojnë me karakteret "dir" (/dir/, /direct/, dir.htm, direction.htm, etj.) dhe ndodhen në direktorinë rrënjë të faqes.

Agjenti i përdoruesit: googlebot

Mos lejo: /directory/page1.htm

Agjenti i përdoruesit: Yandex

5. Gabime në lidhje me skedarin robots.txt

Një nga gabimet më të zakonshme është sintaksa e përmbysur.

Nuk është e drejtë:

Mos lejo: Yandex

E drejta:

Agjenti i përdoruesit: Yandex

Nuk është e drejtë:

Mos lejo: /dir/ /cgi-bin/ /forum/

E drejta:

Mos lejo: /cgi-bin/

Mos lejo: /forum/

Nëse, kur përpunohet një gabim 404 (dokumenti nuk u gjet), serveri i uebit lëshon një faqe të veçantë dhe skedari robots.txt mungon, atëherë është e mundur që robotit të kërkimit, kur kërkon skedarin robots.txt, t'i jepet njëjtë faqe speciale, i cili nuk është një skedar kontrolli indeksues.

Një gabim në lidhje me përdorimin e pasaktë të rastit në skedarin robots.txt. Për shembull, nëse ju duhet të mbyllni drejtorinë "cgi-bin", atëherë nuk mund të shkruani emrin e drejtorisë me shkronja të mëdha "cgi-bin" në hyrjen "Disallow".

Nuk është e drejtë:

Mos lejo: /CGI-BIN/

E drejta:

Mos lejo: /cgi-bin/

Një gabim në lidhje me mungesën e një prerje hapëse kur mbyllet një drejtori nga indeksimi.

Nuk është e drejtë:

Mos lejo: faqe.HTML

E drejta:

Mos lejo: /page.HTML

Për të shmangur gabimet më të zakonshme, skedari robots.txt mund të kontrollohet duke përdorur Yandex.Webmaster ose Tools për Google webmasters. Verifikimi kryhet pasi skedari është ngarkuar.

6. Përfundim

Kështu, prania e një skedari robots.txt, si dhe përpilimi i tij, mund të ndikojë në promovimin e faqes në motorët e kërkimit. Pa e ditur sintaksën e skedarit robots.txt, mund të ndaloni indeksimin e faqeve të mundshme të promovuara, si dhe të gjithë sitit. Dhe, përkundrazi, përpilimi kompetent i këtij skedari mund të ndihmojë shumë në promovimin e burimit, për shembull, mund të mbyllni dokumente që ndërhyjnë në promovimin e faqeve të nevojshme nga indeksimi.

Nga autori: A keni faqe në faqen tuaj që nuk dëshironi t'i tregoni motorëve të kërkimit? Nga ky artikull, do të mësoni në detaje se si të çaktivizoni indeksimin e faqeve në robots.txt, nëse është i saktë dhe si të bllokoni aksesin në faqe në përgjithësi.

Pra, ju duhet të parandaloni indeksimin e disave faqe të caktuara. Mënyra më e lehtë për ta bërë këtë është në vetë skedarin robots.txt, duke shtuar linjat e nevojshme në të. Dua të vërej se ne kemi regjistruar adresat e dosjeve relativisht, adresat url faqe specifike tregoni në të njëjtën mënyrë, ose mund të shkruani rrugë absolute.

Le të themi se blogu im ka disa faqe: kontakte, për mua dhe shërbimet e mia. Nuk do të doja që ato të indeksoheshin. Prandaj, ne shkruajmë:

Agjenti i përdoruesit: * Mos lejo: /kontakty/ Mos lejo: /about/ Mos lejo: /uslugi/

Një variant tjetër

E shkëlqyeshme, por nuk është e vetmja mënyrë bllokojnë aksesin në faqe të caktuara për robotin. E dyta është të vendosni një meta-etiketë të veçantë në kodin html. Natyrisht, vendoseni vetëm në ato regjistrime që duhet të mbyllen. Duket kështu:

< meta name = "robots" content = "noindex,nofollow" >

Etiketa duhet të vendoset në kontejnerin e kokës në dokumentin html për funksionimin e duhur. Siç mund ta shihni, ai ka dy parametra. Emri specifikohet si robot dhe specifikon që këto udhëzime janë për zvarritësit.

Parametri i përmbajtjes duhet të ketë dy vlera të ndara me presje. E para është një ndalim ose leje për të indeksuar informacion teksti në faqe, e dyta është një tregues nëse duhet të indeksohen lidhjet në faqe.

Kështu, nëse dëshironi që faqja të mos indeksohet fare, specifikoni vlerat noindex, nofollow, domethënë mos indeksoni tekstin dhe ndaloni kalimin në lidhje, nëse ka. Ekziston një rregull i tillë që nëse nuk ka tekst në faqe, atëherë ai nuk do të indeksohet. Kjo do të thotë, nëse i gjithë teksti është i mbyllur në noindex, atëherë nuk ka asgjë për t'u indeksuar, kështu që asgjë nuk do të bjerë në indeks.

Përveç kësaj, ekzistojnë vlerat e mëposhtme:

noindex, follow - ndalim i indeksimit të tekstit, por leje për të ndjekur lidhjet;

index, nofollow - mund të përdoret kur përmbajtja duhet të indeksohet, por të gjitha lidhjet në të duhet të mbyllen.

indeksi, ndjekja është vlera e paracaktuar. Gjithçka lejohet.

Robot txt nuk parandalon indeksimin. Dhe tani me sqarime

Pse nevojitet robots.txt

direktivat robots.txt dhe rregullat e personalizimit

Meta etiketa e robotëve dhe si shkruhet

Korrigjoni skedarët robots.txt për CMS të njohura

Shembull Robots.txt për WordPress

Shembuj për CMS të tjera

Si të mbyllni një faqe, lidhje, faqe nga indeksimi?

Parandalimi i indeksimit të motorit të kërkimit

Si të mbyllni një faqe nga indeksimi?

Si të mbyllni një lidhje ose tekst nga indeksimi?

Formati i skedarit Robots.txt

Direktiva shtesë

Shprehje të rregullta në robots.txt

harta e sitit

Pasqyrat e faqes

Komentet në robots.txt

Shembuj të skedarëve robots.txt

Gabimet e zakonshme

Kontrollimi i skedarit robots.txt për gabime

2. Koncepti i skedarit robots.txt dhe kërkesat për të

3. Përmbajtja e skedarit robots.txt

Hyrja "Agjent-përdorues".

"Mos lejo" hyrjen

Regjistro "Lejo"

Hyrja në hartën e faqes

Regjistro "Host"

Regjistro "Zvarritje-vonesa"

Komentet

4. Shembuj skedarësh robots.txt

5. Gabime në lidhje me skedarin robots.txt

6. Përfundim

Një variant tjetër

Artikujt kryesorë të lidhur