Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ

Skedari i saktë i robotëve txt. Robotët Yandex

Çdo blog jep përgjigjen e vet për këtë. Prandaj, të sapoardhurit në promovimin e kërkimit shpesh ngatërrohen, si kjo:

Çfarë lloj robotësh ju ish ti?

Skedari robots.txt ose skedar indeksi- një dokument teksti të thjeshtë në kodimin UTF-8, i vlefshëm për protokollet http, https dhe FTP. Skedari jep rekomandime për robotët e kërkimit: cilat faqe / skedarë duhet të zvarriten. Nëse skedari nuk përmban karaktere në UTF-8, por në një kodim tjetër, robotët e kërkimit mund të mos i përpunojnë ato siç duhet. Rregullat e renditura në skedarin robots.txt janë të vlefshme vetëm për hostin, protokollin dhe numrin e portit ku ndodhet skedari.

Skedari duhet të gjendet në direktoriumin rrënjë si një dokument teksti i thjeshtë dhe të jetë i disponueshëm në: https://site.com.ua/robots.txt.

Në skedarët e tjerë, është e zakonshme të shënoni BOM (Byte Order Mark). Ky është një karakter Unicode që përdoret për të përcaktuar sekuencën në bajt gjatë leximit të informacionit. Simboli i kodit të tij është U+FEFF. Në fillim të skedarit robots.txt, shenja e sekuencës së bajtit shpërfillet.

Google ka vendosur një kufi në madhësinë e skedarit robots.txt - ai nuk duhet të peshojë më shumë se 500 KB.

Mirë, nëse jeni të interesuar për detajet teknike, skedari robots.txt është një përshkrim Backus-Naur Form (BNF). Kjo përdor rregullat e RFC 822.

Kur përpunohen rregullat në skedarin robots.txt, robotët e kërkimit marrin një nga tre udhëzimet:

  • akses i pjesshëm: disponohet skanimi i elementeve individuale të faqes;
  • akses i plotë: mund të skanoni gjithçka;
  • ndalim i plotë: roboti nuk mund të skanojë asgjë.

Kur skanoni skedarin robots.txt, robotët marrin përgjigjet e mëposhtme:

  • 2xx- skanimi ishte i suksesshëm;
  • 3xx- zvarritësi ndjek ridrejtimin derisa të marrë një përgjigje tjetër. Më shpesh ka pesë përpjekje që roboti të marrë një përgjigje të ndryshme nga përgjigja 3xx, pastaj regjistrohet një gabim 404;
  • 4xx- roboti i kërkimit beson se është e mundur të zvarritet e gjithë përmbajtja e faqes;
  • 5xx- janë vlerësuar si gabime të përkohshme të serverit, skanimi është plotësisht i çaktivizuar. Roboti do t'i qaset skedarit derisa të marrë një përgjigje tjetër. Roboti i kërkimit të Google mund të përcaktojë nëse është konfiguruar saktë ose gabimisht për t'iu përgjigjur faqeve që mungojnë të faqes, domethënë nëse në vend të një gabimi 404 faqja kthen një përgjigje 5xx, në këtë rast faqja do të përpunohet me kodin e përgjigjes 404.

Nuk dihet ende se si përpunohet skedari robots.txt, i cili nuk është i disponueshëm për shkak të problemeve të serverit me aksesin në internet.

Pse keni nevojë për një skedar robots.txt

Për shembull, ndonjëherë robotët nuk duhet të vizitojnë:

  • faqet me informacione personale të përdoruesve në sit;
  • faqe me forma të ndryshme të dërgimit të informacionit;
  • faqe pasqyre;
  • faqet e rezultateve të kërkimit.

E rëndësishme: edhe nëse faqja është në skedarin robots.txt, ekziston mundësia që ajo të shfaqet në rezultatet e kërkimit nëse një lidhje për të gjendet brenda sajtit ose diku në një burim të jashtëm.

Ja se si robotët e motorëve të kërkimit shohin një sajt me dhe pa skedar robots.txt:

Pa robots.txt, informacioni që duhet të fshihet nga sytë kureshtarë mund të hyjë në rezultatet e kërkimit dhe si ju ashtu edhe faqja do të vuani për shkak të kësaj.

Kështu e sheh roboti i motorit të kërkimit skedarin robots.txt:

Google gjeti skedarin robots.txt në sajt dhe gjeti rregullat me të cilat faqet e sajtit duhet të zvarriten

Si të krijoni një skedar robots.txt

Me Notepad, Notepad, Sublime ose ndonjë redaktues tjetër teksti.

Përdorues-agjent - kartëvizita për robotë

Përdoruesi-agjent - një rregull për të cilin robotët duhet të shohin udhëzimet e përshkruara në skedarin robots.txt. Për momentin njihen 302 robotë kërkimi

Ajo thotë se ne specifikojmë rregullat në robots.txt për të gjithë robotët e kërkimit.

Për Google, roboti kryesor është Googlebot. Nëse duam të marrim parasysh vetëm atë, hyrja në skedar do të jetë si kjo:

Në këtë rast, të gjithë robotët e tjerë do të zvarriten përmbajtjen bazuar në direktivat e tyre për të përpunuar një skedar bosh robots.txt.

Për Yandex, roboti kryesor është... Yandex:

Robotë të tjerë të veçantë:

  • Lajmet e Googlebot- për të kërkuar lajme;
  • Mediapartners-Google- për shërbimin AdSense;
  • AdsBot-Google— për të kontrolluar cilësinë e faqes së uljes;
  • YandexImages— Yandex.Pictures indexer;
  • Imazhi i Googlebot- për fotografi;
  • YandexMetrika— Roboti Yandex.Metrica;
  • YandexMedia- një robot që indekson të dhënat multimediale;
  • YaDirectFetcher— Yandex.Robot i drejtpërdrejtë;
  • Video Googlebot- për video;
  • Googlebot celular- për versionin celular;
  • YandexDirectDyn— robot dinamik i gjenerimit të banderolave;
  • YandexBlogs- një robot kërkimi në blog që indekson postimet dhe komentet;
  • YandexMarket— Roboti Yandex.Market;
  • YandexNews— Roboti Yandex.News;
  • YandexDirect— shkarkon informacione në lidhje me përmbajtjen e faqeve partnere të Rrjetit të Reklamimit në mënyrë që të qartësohet lënda e tyre për zgjedhjen e reklamave përkatëse;
  • YandexPagechecker— vërtetues i mikro të dhënave;
  • YandexCalendar— Roboti Yandex.Calendar.

Mos lejo - vendosim "tulla"

Duhet të përdoret nëse faqja është në proces përmirësimi dhe nuk dëshironi që ajo të shfaqet në rezultatet e kërkimit në gjendjen e saj aktuale.

Është e rëndësishme të hiqni këtë rregull sapo faqja të jetë gati që përdoruesit ta shohin atë. Fatkeqësisht, kjo harrohet nga shumë webmaster.

Shembull. Si të shkruani një rregull të moslejimit për të këshilluar robotët që të mos shikojnë përmbajtjen e një dosjeje /dosje/:

Kjo linjë parandalon indeksimin e të gjithë skedarëve me shtesën .gif

Lejo - robotë të drejtpërdrejtë

Lejo lejon skanimin e çdo skedari/direktive/faqeje. Le të themi se është e nevojshme që robotët të mund të shikojnë vetëm faqet që fillojnë me /catalog dhe të mbyllin të gjitha përmbajtjet e tjera. Në këtë rast, përshkruhet kombinimi i mëposhtëm:

Rregullat Lejo dhe Mos lejo renditen sipas gjatësisë së prefiksit të URL-së (nga më e ulëta në më e gjata) dhe zbatohen në mënyrë sekuenciale. Nëse më shumë se një rregull përputhet me një faqe, roboti zgjedh rregullin e fundit në listën e renditur.

Host - zgjidhni një pasqyrë të faqes

Host është një nga rregullat e detyrueshme për robots.txt; ai i tregon robotit Yandex se cilat nga pasqyrat e faqes duhet të merren parasysh për indeksimin.

Pasqyra e faqes - një kopje e saktë ose pothuajse e saktë e faqes, e disponueshme në adresa të ndryshme.

Roboti nuk do të ngatërrohet kur të gjejë pasqyrat e faqes dhe do të kuptojë se pasqyra kryesore është e specifikuar në skedarin robots.txt. Adresa e faqes specifikohet pa prefiksin "http://", por nëse faqja funksionon në HTTPS, duhet të specifikohet prefiksi "https://".

Si të shkruani këtë rregull:

Një shembull i një skedari robots.txt nëse faqja funksionon në protokollin HTTPS:

Harta e faqes - harta mjekësore

Harta e faqes u tregon robotëve se të gjitha URL-të e faqeve të kërkuara për indeksimin janë të vendosura në http://site.ua/sitemap.xml. Me çdo zvarritje, roboti do të shikojë se çfarë ndryshimesh janë bërë në këtë skedar dhe do të rifreskojë shpejt informacionin rreth sajtit në bazat e të dhënave të motorit të kërkimit.

Zvarritje-vonesa - kronometër për serverë të dobët

Zvarritje-vonesa - një parametër me të cilin mund të vendosni periudhën pas së cilës do të ngarkohen faqet e faqes. Ky rregull është i rëndësishëm nëse keni një server të dobët. Në këtë rast, vonesa të mëdha janë të mundshme kur robotët e kërkimit hyjnë në faqet e faqes. Ky parametër matet në sekonda.

Clean-param - Duplicate Content Hunter

Clean-param ndihmon në trajtimin e parametrave të marrë për të shmangur përmbajtjen e kopjuar që mund të jetë e disponueshme në URL të ndryshme dinamike (me pikëpyetje). Adresa të tilla shfaqen nëse faqja ka renditje të ndryshme, ID të sesioneve etj.

Le të themi se faqja është e disponueshme në adresat:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

Në këtë rast, skedari robots.txt do të duket kështu:

Këtu ref tregon se nga vjen lidhja, kështu që shkruhet në fillim, dhe vetëm atëherë tregohet pjesa tjetër e adresës.

Por, përpara se të kaloni te skedari i referencës, ka disa shenja të tjera që duhet t'i dini kur shkruani një skedar robots.txt.

Simbolet në robots.txt

Karakteret kryesore të skedarit janë "/, *, $, #".

Duke përdorur prerje "/" ne tregojmë atë që duam të fshehim nga zbulimi nga robotët. Për shembull, nëse ka një vijë të pjerrët në rregullin e moslejimit, ne ndalojmë zvarritjen e të gjithë sajtit. Me ndihmën e dy prerjeve, mund të çaktivizoni skanimin e ndonjë drejtorie të veçantë, për shembull: /catalog/.

Një hyrje e tillë thotë se ne e ndalojmë skanimin e të gjithë përmbajtjes së dosjes së katalogut, por nëse shkruajmë /catalog, ndalojmë të gjitha lidhjet në sajt që fillojnë me /catalog.

Ylli "*" nënkupton çdo sekuencë karakteresh në një skedar. Vendoset pas çdo rregulli.

Kjo hyrje thotë se të gjithë robotët nuk duhet të indeksojnë asnjë skedar .gif në dosjen /catalog/

shenjë e dollarit «$» kufizon shtrirjen e shenjës së yllit. Nëse dëshironi të ndaloni të gjithë përmbajtjen e dosjes së katalogut, por nuk mund të ndaloni URL-të që përmbajnë /catalog, hyrja në skedarin e indeksit do të ishte:

Hash "#" përdoret për komentet që webmaster i lë vetes ose webmasterëve të tjerë. Roboti nuk do t'i marrë parasysh kur skanon faqen.

Për shembull:

Si duket robots.txt ideal?

Skedari hap përmbajtjen e faqes për indeksim, hosti regjistrohet dhe specifikohet harta e faqes, e cila do t'i lejojë motorët e kërkimit të shohin gjithmonë adresat që duhet të indeksohen. Rregullat për Yandex janë shkruar veçmas, pasi jo të gjithë robotët e kuptojnë udhëzimin e Host.

Por mos nxitoni të kopjoni përmbajtjen e skedarit tek vetja - duhet të shkruhen rregulla unike për secilën faqe, gjë që varet nga lloji i faqes dhe CMS. prandaj, ia vlen të mbani mend të gjitha rregullat kur plotësoni skedarin robots.txt.

Si të kontrolloni skedarin robots.txt

Nëse doni të dini nëse e keni plotësuar saktë skedarin robots.txt, kontrollojeni atë në veglat e webmasterit Google dhe Yandex. Thjesht futni kodin burimor të skedarit robots.txt në formularin në lidhjen dhe specifikoni faqen që do të kontrollohet.

Si të mos plotësoni skedarin robots.txt

Shpesh bëhen gabime të bezdisshme gjatë plotësimit të skedarit të indeksit, dhe ato shoqërohen me pavëmendje ose nxitim të zakonshëm. Pak më poshtë është një tabelë gabimesh që kam takuar në praktikë.

2. Shkrimi i shumë dosjeve/drejtorëve në një deklaratë Disallow:

Një hyrje e tillë mund të ngatërrojë robotët e kërkimit, ata mund të mos kuptojnë se çfarë saktësisht nuk duhet të indeksojnë: ose dosjen e parë, ose të fundit, kështu që ju duhet të shkruani secilin rregull veç e veç.

3. Duhet të thirret vetë skedari vetëm robots.txt, jo Robots.txt, ROBOTS.TXT ose ndryshe.

4. Nuk mund ta lini bosh rregullin e agjentit përdorues - duhet të thoni se cili robot duhet të marrë parasysh rregullat e specifikuara në skedar.

5. Karaktere shtesë në skedar (vija, yjet).

6. Shtimi i faqeve në skedar që nuk duhet të jenë në indeks.

Përdorimi jo standard i robots.txt

Përveç funksioneve të drejtpërdrejta, një skedar indeksi mund të bëhet një platformë për kreativitet dhe një mënyrë për të gjetur punonjës të rinj.

Këtu është një sajt ku robots.txt në vetvete është një sajt i vogël me elementë pune dhe madje edhe një njësi reklamash.

Si një platformë për kërkimin e specialistëve, skedari përdoret kryesisht nga agjencitë e SEO. Dhe kush tjetër mund të dijë për ekzistencën e tij? :)

Dhe Google ka një skedar të veçantë njerëzit.txt, që të mos lejoni mendimin e diskriminimit të specialistëve nga lëkura dhe mishi.

konkluzionet

Me ndihmën e Robots.txt, mund të vendosni udhëzime për robotët e kërkimit, të reklamoni veten, markën tuaj, të kërkoni specialistë. Kjo është një fushë e shkëlqyer për eksperimente. Gjëja kryesore është të mbani mend për mbushjen e saktë të skedarit dhe gabimet tipike.

Rregullat, ato janë direktiva, ato janë gjithashtu udhëzime të skedarit robots.txt:

  1. Agjent përdorues - një rregull për të cilin robotët duhet të shikojnë udhëzimet e përshkruara në robots.txt.
  2. Disallow bën një rekomandim se çfarë lloj informacioni nuk duhet të skanohet.
  3. Harta e faqes informon robotët se të gjitha URL-të e faqeve të kërkuara për indeksimin gjenden në http://site.ua/sitemap.xml.
  4. Host i tregon robotit Yandex se cilat nga pasqyrat e faqes duhet të merren parasysh për indeksimin.
  5. Lejo lejon skanimin e çdo skedari/direktive/faqeje.

Shenjat kur përpiloni robots.txt:

  1. Shenja e dollarit "$" kufizon shtrirjen e shenjës me yll.
  2. Me ndihmën e një prerje "/" ne tregojmë se duam të fshihemi nga zbulimi nga robotët.
  3. Ylli "*" nënkupton çdo sekuencë karakteresh në skedar. Vendoset pas çdo rregulli.
  4. Shenja hash "#" përdoret për të treguar komentet që webmaster i shkruan për vete ose për webmaster të tjerë.

Përdorni skedarin e indeksit me mençuri - dhe faqja do të jetë gjithmonë në rezultatet e kërkimit.

Gjenerator i shitjeve

Nëse bëni një gabim kur krijoni skedarin robots.txt, atëherë ai mund të jetë i padobishëm për robotët e kërkimit. Do të ekzistojë rreziku i transmetimit të gabuar të komandave të nevojshme për kërkimin e robotëve, gjë që do të çojë në një ulje të vlerësimit, një ndryshim në treguesit e përdoruesve të faqes virtuale. Edhe nëse faqja funksionon mirë dhe është e plotë, kontrollimi i robots.txt nuk do ta dëmtojë atë, por vetëm do ta bëjë atë të funksionojë më mirë.

Nga ky artikull do të mësoni:

Pse të kontrolloni robots.txt

Ndonjëherë sistemi përfshin faqe të panevojshme të burimit tuaj të internetit në rezultatet e kërkimit, gjë që nuk është e nevojshme. Mund të duket se nuk ka asgjë të keqe me një numër të madh faqesh në indeksin e motorit të kërkimit, por kjo nuk është kështu:

  • Në faqet shtesë, përdoruesi nuk do të gjejë ndonjë informacion të dobishëm për veten e tij. Me një shkallë më të madhe probabiliteti, ai nuk do t'i vizitojë fare këto faqe ose nuk do të qëndrojë në to për një kohë të gjatë;
  • Rezultatet e motorit të kërkimit përmbajnë të njëjtat faqe, adresat e të cilave janë të ndryshme (d.m.th., përmbajtja është e dyfishuar);
  • Robotët e kërkimit duhet të shpenzojnë shumë kohë për të indeksuar faqet krejtësisht të panevojshme. Në vend që të indeksojnë përmbajtje të dobishme, ata do të enden nëpër faqe pa dobi. Meqenëse roboti nuk mund të indeksojë plotësisht të gjithë burimin dhe e bën atë faqe për faqe (pasi ka shumë sajte), informacioni i nevojshëm që dëshironi të merrni pasi të bëni një kërkesë mund të mos gjenden shumë shpejt;
  • Serveri është nën ngarkesë të madhe.

Në këtë drejtim, këshillohet që të mbyllni aksesin në robotët e kërkimit në disa faqe të burimeve të internetit.

Cilat skedarë dhe dosje mund të ndalohen të indeksohen:

  1. faqet e kërkimit. Kjo është një pikë e diskutueshme. Ndonjëherë përdorimi i një kërkimi të brendshëm në një faqe është i nevojshëm për të gjeneruar faqe përkatëse. Por kjo nuk bëhet gjithmonë. Shpesh rezultati i kërkimit është shfaqja e një numri të madh faqesh të kopjuara. Prandaj, rekomandohet mbyllja e faqeve të kërkimit për indeksim.
  2. Karroca dhe faqja ku është bërë/konfirmohet porosia. Mbyllja e tyre rekomandohet për faqet e tregtimit në internet dhe burime të tjera tregtare duke përdorur formularin e porosisë. Futja e këtyre faqeve në indeksin e motorëve të kërkimit është shumë e padëshirueshme.
  3. faqet e faqeve. Si rregull, ato karakterizohen nga përshkrimi automatik i të njëjtave etiketa meta. Përveç kësaj, ato përdoren për të vendosur përmbajtje dinamike, kështu që dublikatat shfaqen në rezultatet e kërkimit. Në këtë drejtim, faqet duhet të mbyllen për indeksim.
  4. Filtrat dhe krahasimi i produkteve. Ato duhet të mbyllen nga dyqanet online dhe faqet e katalogut.
  5. Faqet e regjistrimit dhe autorizimit. Ato duhet të mbyllen për shkak të konfidencialitetit të të dhënave të futura nga përdoruesit gjatë regjistrimit ose autorizimit. Mosdisponueshmëria e këtyre faqeve për indeksim do të vlerësohet nga Google.
  6. Drejtoritë dhe skedarët e sistemit. Çdo burim në internet përbëhet nga shumë të dhëna (skriptet, tabelat CSS, pjesa administrative) që nuk duhet të shikohen nga robotët.

Skedari robots.txt do të ndihmojë në mbylljen e skedarëve dhe faqeve për indeksim.

robots.txt është një skedar teksti i thjeshtë që përmban udhëzime për robotët e kërkimit. Kur roboti i kërkimit është në sajt, ai fillimisht kërkon për skedarin robots.txt. Nëse mungon (ose bosh), atëherë roboti do të shkojë në të gjitha faqet dhe drejtoritë e burimit (përfshirë ato të sistemit) që janë në domenin publik dhe do të përpiqet t'i indeksojë ato. Në të njëjtën kohë, nuk ka asnjë garanci që faqja që ju nevojitet do të indeksohet, pasi mund të mos arrijë tek ajo.

robots.txt ju lejon të drejtoni robotët e kërkimit në faqet e nevojshme dhe të mos i lejoni të hyjnë në ato që nuk duhet të indeksohen. Skedari mund të udhëzojë të gjithë robotët në të njëjtën kohë, dhe secilin veç e veç. Nëse faqja e faqes është e mbyllur nga indeksimi, atëherë ajo nuk do të shfaqet kurrë në rezultatet e motorit të kërkimit. Krijimi i një skedari robots.txt është thelbësor.

Vendndodhja e skedarit robots.txt duhet të jetë serveri, rrënja e burimit tuaj. Skedari robots.txt i çdo sajti është i disponueshëm për t'u parë në ueb. Për ta parë atë, duhet të shtoni /robots.txt pas adresës së burimit.

Si rregull, skedarët robots.txt të burimeve të ndryshme ndryshojnë nga njëri-tjetri. Nëse kopjoni pa mendje skedarin e faqes së dikujt tjetër, atëherë robotët e kërkimit do të kenë probleme me indeksimin e tuajit. Prandaj, është kaq e rëndësishme të dini se për çfarë shërben skedari robots.txt dhe udhëzimet (direktivat) që përdoren për ta krijuar atë.


Paraqisni aplikacionin tuaj

Si kontrollon Yandex robots.txt

  • Një shërbim i veçantë i Yandex.Webmaster "Analiza e robots.txt" do t'ju ndihmojë të kontrolloni skedarin. Mund ta gjeni në lidhjen: http://webmaster.yandex.ru/robots.xml
  • Në formën e propozuar, duhet të futni përmbajtjen e skedarit robots.txt, të cilin duhet ta kontrolloni për gabime. Ka dy mënyra për të futur të dhëna:
    1. Shkoni në sit duke përdorur lidhjen http://your-site.ru/robots.txt , kopjoni përmbajtjen në fushën e zbrazët të shërbimit (nëse nuk ka skedar robots.txt, patjetër që duhet ta krijoni!);
    2. Futni një lidhje te skedari që do të kontrollohet në fushën "Emri i hostit", klikoni "Shkarko robots.txt nga faqja" ose "Enter".
  • Kontrolli fillon duke shtypur komandën "Kontrollo".
  • Pas fillimit të testit, mund të analizoni rezultatet.

Pas fillimit të kontrollit, analizuesi analizon çdo rresht të përmbajtjes së fushës "Text robots.txt" dhe analizon direktivat që përmban. Përveç kësaj, do të dini nëse roboti do të zvarritet faqet nga fusha "Lista e URL-ve".

Ju mund të krijoni një skedar robots.txt të përshtatshëm për burimin tuaj duke redaktuar rregullat. Mbani në mend se vetë skedari i burimit mbetet i pandryshuar. Që ndryshimet të hyjnë në fuqi, do t'ju duhet të ngarkoni në mënyrë të pavarur versionin e ri të skedarit në sit.

Kur kontrolloni direktivat për seksionet e destinuara për robotin Yandex (Agjenti i përdoruesit: Yandex ose agjenti i përdoruesit:*), analizuesi udhëhiqet nga rregullat për përdorimin e robots.txt. Seksionet e mbetura kontrollohen në përputhje me kërkesat e standardit. Kur analizuesi analizon skedarin, ai shfaq një mesazh për gabimet e gjetura, paralajmëron nëse ka pasaktësi në shkrimin e rregullave, liston se cilat pjesë të skedarit janë të destinuara për robotin Yandex.

Analizuesi mund të dërgojë dy lloje mesazhesh: gabime dhe paralajmërime.

Një mesazh gabimi shfaqet nëse ndonjë rresht, seksion ose i gjithë skedari nuk mund të përpunohet nga analizuesi për shkak të pranisë së gabimeve serioze sintaksore që janë bërë gjatë përpilimit të direktivave.

Si rregull, një paralajmërim informon për një devijim nga rregullat, të cilat nuk mund të korrigjohen nga analizuesi, ose për praninë e një problemi të mundshëm (mund të mos jetë), shkaku i të cilit është një gabim shtypi aksidental ose rregulla të përbëra në mënyrë të pasaktë.

Mesazhi i gabimit "Kjo URL nuk i përket domenit tuaj" tregon se lista e URL-ve përmban adresën e një prej pasqyrave të burimit tuaj, për shembull, http://example.com në vend të http://www.example. com (formalisht, këto URL janë të ndryshme). URL-të që do të kontrollohen duhet të lidhen me sajtin, skedari robots.txt i të cilit analizohet.

Si kontrollon Google robots.txt

Vegla e Google Search Console ju lejon të kontrolloni nëse skedari robots.txt përmban një ndalim që Googlebot të zvarritet disa URL në pronën tuaj. Për shembull, ju keni një imazh që nuk dëshironi të shfaqet në rezultatet e kërkimit të imazheve të Google. Mjeti do t'ju tregojë nëse Googlebot-Image ka qasje në atë imazh.

Për ta bërë këtë, specifikoni URL-në e interesit. Pas kësaj, skedari robots.txt përpunohet nga mjeti i inspektimit, i ngjashëm me inspektimin Googlebot. Kjo bën të mundur përcaktimin nëse adresa është e arritshme.

Procedura e kontrollit:

  • Pasi të zgjidhni pronën tuaj në Google Search Console, shkoni te mjeti i verifikimit, i cili do t'ju japë përmbajtjen e skedarit robots.txt. Teksti i theksuar është sintaksë ose gabime logjike. Numri i tyre tregohet nën dritaren e redaktimit.
  • Në fund të faqes së ndërfaqes, do të shihni një dritare të veçantë në të cilën duhet të futni URL-në.
  • Një menu do të shfaqet në të djathtë, nga e cila duhet të zgjidhni një robot.
  • Klikoni në butonin "Kontrollo".
  • Nëse kontrolli rezulton në një mesazh me tekstin "disponohet", do të thotë që Googlebots lejohen të vizitojnë faqen e specifikuar. Statusi "i padisponueshëm" tregon se qasja në të tek robotët është e mbyllur.
  • Nëse është e nevojshme, mund të ndryshoni menunë dhe të kryeni një kontroll të ri. Kujdes! Nuk do të ketë ndryshime automatike në skedarin robots.txt në burimin tuaj.
  • Kopjoni ndryshimet dhe bëjini ato në skedarin robots.txt në serverin tuaj të internetit.

Çfarë duhet t'i kushtoni vëmendje:

  1. Ndryshimet e bëra në redaktues nuk ruhen në serverin e uebit. Do t'ju duhet të kopjoni kodin që rezulton dhe ta ngjisni në skedarin robots.txt.
  2. Vetëm agjentët e përdoruesve të Google dhe robotët e lidhur me Google (për shembull, Googlebot) mund të marrin rezultatet e kontrollit të skedarit robots.txt nga mjeti. Në të njëjtën kohë, nuk ka asnjë garanci që interpretimi i përmbajtjes së skedarit tuaj nga robotët e motorëve të tjerë të kërkimit do të jetë i ngjashëm.

15 gabime gjatë kontrollit të skedarit robots.txt

Gabim 1. Udhëzime të hutuara

Gabimi më i zakonshëm në skedarin robots.txt janë udhëzimet e ngatërruara. P.sh.

  • agjent-përdorues: /
  • Mos lejo: Yandex

Opsioni i saktë është ky:

  • Agjenti i përdoruesit: Yandex
  • mos lejo:/

Gabimi 2: Specifikimi i drejtorive të shumta në një deklaratë të vetme Disallow

Shpesh pronarët e burimeve të internetit përpiqen të listojnë të gjitha drejtoritë që duan të çaktivizojnë indeksimin në një deklaratë të vetme Disallow.

Mos lejo: /css/ /cgi-bin/ /images/

Një regjistrim i tillë nuk i plotëson kërkesat e standardit, është e pamundur të parashikohet se si do të përpunohet nga robotë të ndryshëm. Disa prej tyre mund të injorojnë hapësirat. Interpretimi i tyre i hyrjes do të ishte "Mos lejo: /css/cgi-bin/images/". Të tjerët mund të përdorin vetëm dosjen e parë ose të fundit. Të tjerë akoma mund ta hedhin poshtë udhëzimin pa e kuptuar atë.

Ekziston mundësia që përpunimi i këtij konstruksioni të jetë pikërisht ashtu siç po llogariste magjistari, por është akoma më mirë ta shkruani saktë:

  • Mos lejo: /css/
  • Mos lejo: /cgi-bin/
  • Mos lejo: /images/

Gabim 3. Emri i skedarit përmban shkronja të mëdha

Emri i saktë i skedarit është robots.txt, jo Robots.txt ose ROBOTS.TXT.

Gabimi 4: Shkrimi i emrit të skedarit si robot.txt në vend të robots.txt

Mos harroni të emërtoni saktë skedarin robots.txt.

Gabim 5. Lënia e një vargu në User-agent bosh

Opsioni i gabuar:

  • agjenti i përdoruesit:
  • Mos lejo:
  • Agjenti i përdoruesit: *
  • Mos lejo:

Gabim 6. Shkrimi i URL-së në direktivën e hostit

URL-ja duhet të specifikohet pa përdorur shkurtesën e Protokollit të Transferimit të Hypertext (http://) dhe vijën e pjerrët pasuese (/).

Hyrja e pavlefshme:

Opsioni i duhur:

Përdorimi i saktë i direktivës së hostit është vetëm për robotin Yandex.

Gabimi 7: Përdorimi i shkronjave të egra në një deklaratë moslejimi

Ndonjëherë, për të renditur të gjithë skedarët file1.html, file2.html, file3.html, etj., webmaster mund të shkruajë:

  • Agjenti i përdoruesit: *
  • Mos lejo: skedar*.html

Por kjo nuk mund të bëhet, sepse disa robotë nuk kanë mbështetje për shkronjat e egra.

Gabimi 8. Përdorimi i një rreshti për të shkruar komente dhe udhëzime

Standardi lejon hyrje si kjo:

Mos lejo: /cgi-bin/ #prohibit robots që të indeksojnë cgi-bin

Më parë, përpunimi i vargjeve të tilla nga disa robotë ishte i pamundur. Ndoshta asnjë motor kërkimi nuk do të ketë problem me këtë për momentin, por a ia vlen rreziku? Është më mirë të vendosni komentet në një rresht të veçantë.

Gabim 9. Ridrejtimi në një faqe 404

Shpesh, nëse faqja nuk ka një skedar robots.txt, atëherë kur të kërkohet, motori i kërkimit do të ridrejtojë në një faqe tjetër. Ndonjëherë kjo nuk kthen një status 404 Not Found. Roboti duhet të kuptojë se çfarë ka marrë - robots.txt ose një skedar të rregullt html. Ky nuk është problem, por është më mirë nëse një skedar bosh robots.txt vendoset në rrënjën e faqes.

Gabimi 10. Përdorimi i shkronjave të mëdha është shenjë e stilit të keq

AGJENTI PËRDORUES: GOOGLEBOT

Megjithëse standardi nuk rregullon ndjeshmërinë e rastit të robots.txt, shpesh ndodh me emrat e skedarëve dhe drejtorive. Përveç kësaj, nëse skedari robots.txt është shkruar tërësisht me shkronja të mëdha, atëherë ky konsiderohet stil i keq.

Agjenti i përdoruesit: googlebot

Gabimi 11. Listimi i të gjithë skedarëve

Do të ishte e gabuar të rendisje çdo skedar në një drejtori individualisht:

  • Agjenti i përdoruesit: *
  • Mos lejo: /AL/Alabama.html
  • Mos lejo: /AL/AR.html
  • Mos lejo: /Az/AZ.html
  • Mos lejo: /Az/bali.html
  • Mos lejo: /Az/bed-breakfast.html

Do të jetë e saktë të mbyllni të gjithë drejtorinë nga indeksimi:

  • Agjenti i përdoruesit: *
  • Mos lejo: /AL/
  • Mos lejo: /az/

Gabimi 12. Përdorimi i udhëzimeve shtesë në seksionin *

Disa robotë mund të reagojnë gabimisht ndaj përdorimit të direktivave shtesë. Prandaj, përdorimi i tyre në seksionin "*" është i padëshirueshëm.

Nëse direktiva nuk është standarde (si "Host" për shembull), atëherë është më mirë të krijoni një seksion të veçantë për të.

Opsioni i pavlefshëm:

Do të ishte e saktë të shkruanim:

Gabimi 13. Mungon një udhëzim për moslejimin

Edhe nëse dëshironi të përdorni një direktivë shtesë dhe të mos vendosni ndonjë ndalim, rekomandohet të specifikoni një moslejim bosh. Standardi thotë se udhëzimi Disallow është i detyrueshëm; nëse ai mungon, roboti mund t'ju "keqkuptojë".

E gabuar:

E drejta:

Gabim 14. Mospërdorimi i vijave të pjerrëta kur specifikon një direktori

Cilat do të jenë veprimet e robotit në këtë rast?

  • Agjenti i përdoruesit: Yandex
  • Mos lejo: john

Sipas standardit, as skedari dhe as drejtoria me emrin "john" nuk do të indeksohen. Për të specifikuar vetëm një drejtori, duhet të shkruani:

  • Agjenti i përdoruesit: Yandex
  • Mos lejo: /john/

Gabimi 15: Drejtshkrim i gabuar i kokës së HTTP

Serveri duhet të kthejë "Content-Type: text/plain" në kokën e HTTP për robots.txt dhe, për shembull, jo "Lloji i përmbajtjes: tekst/html". Nëse titulli është shkruar gabimisht, disa robotë nuk do të jenë në gjendje të përpunojnë skedarin.

Si të kompozoni skedarin saktë në mënyrë që kontrolli robots.txt të mos zbulojë gabime

Cili duhet të jetë skedari i saktë robots.txt për një burim Interneti? Konsideroni strukturën e tij:

1.Përdorues-agjent

Kjo direktivë është kryesore, ajo përcakton se për cilët robotë janë shkruar rregullat.

Nëse për ndonjë robot, ne shkruajmë:

Nëse për një robot specifik:

Agjenti i përdoruesit: GoogleBot

Vlen të përmendet se rasti i karakterit nuk ka rëndësi në robots.txt. Për shembull, një agjent përdoruesi për Google mund të shkruhet kështu:

agjenti i përdoruesit: googlebot

Këtu është një tabelë e agjentëve kryesorë të përdoruesve të motorëve të ndryshëm të kërkimit.

Roboti kryesor i indeksimit të Google

Google News

Fotografitë e Google

Mediapartners-Google

Google Adsense, Google Mobile Adsense

kontrolli i cilësisë së faqes së uljes

AdsBot-Google-Mobile-Aplikacione

Google Robot për aplikacione

Roboti kryesor i indeksimit të Yandex

Yandex.Imazhet

Yandex.Video

të dhëna multimediale

robot kërkimi në blog

një robot që akseson faqen kur shtohet nëpërmjet formularit "Shto URL".

robot që indekson ikonat e faqes (favicon)

Yandex.Direct

Yandex.Metrica

Yandex.Katalog

Yandex.News

YandexImageResizer

robot i shërbimeve celulare

roboti kryesor i indeksimit Bing

Roboti kryesor i indeksimit Yahoo!

Roboti kryesor i indeksimit Mail.Ru

2. Mos lejo dhe lejo

Disallow ju lejon të çaktivizoni indeksimin e faqeve dhe seksioneve të burimit të Internetit.

Lejo përdoret për t'i detyruar ato të hapen për indeksim.

Por përdorimi i tyre është mjaft i vështirë.

Së pari, duhet të njiheni me operatorët shtesë dhe rregullat për përdorimin e tyre. Këto përfshijnë: *, $ dhe #.

  • * - çdo numër personazhesh, madje edhe mungesa e tyre. Nuk është e nevojshme ta vendosni këtë operator në fund të linjës, supozohet se ai është atje si parazgjedhje;
  • $ - tregon se karakteri para tij duhet të jetë i fundit;
  • # - ky operator përdoret për të caktuar një koment, çdo informacion pasi ai nuk merret parasysh nga roboti.

Si të përdorni këta operatorë:

  • Mos lejo: *?s=
  • Mos lejo: /category/$

Së dyti, duhet të kuptoni se si ekzekutohen rregullat e vendosura në skedarin robots.txt.

Nuk ka rëndësi se në çfarë rendi janë shkruar direktivat. Përcaktimi i trashëgimisë së rregullave (çfarë të hapet ose mbyllet nga indeksimi) kryhet sipas drejtorive të specifikuara. Le të marrim një shembull.

Lejo: *.css

Mos lejo: /template/

Nëse ju duhet të hapni të gjithë skedarët .css për indeksim, atëherë do t'ju duhet ta specifikoni këtë për çdo dosje, qasja në të cilën është e mbyllur. Në rastin tonë:

  • Lejo: *.css
  • Lejo: /template/*.css
  • Mos lejo: /template/

Kujtoni përsëri: nuk ka rëndësi se në çfarë rendi janë shkruar direktivat.

3. Harta e faqes

Kjo direktivë specifikon shtegun për në skedarin XML të Hartës së Faqes. URL-ja ka të njëjtën formë si në shiritin e adresave.

Direktiva e Hartës së Faqes mund të specifikohet kudo në skedarin robots.txt dhe nuk ka nevojë të lidhet me një agjent specifik përdoruesi. Lejohen rregulla të shumta të hartës së faqes.

Kjo direktivë specifikon pasqyrën kryesore të burimit (zakonisht me www ose pa www). Mbani mend: kur specifikoni pasqyrën kryesore, mos shkruani http://, por https://. Nëse është e nevojshme, specifikohet edhe porti.

Kjo direktivë mund të mbështetet vetëm nga robotët Yandex dhe Mail.Ru. Robotët e tjerë, përfshirë GoogleBot, nuk e marrin parasysh këtë komandë. Ju mund të regjistroheni host vetëm një herë!

5. Vonesa e zvarritjes

Ju lejon të caktoni periudhën kohore pas së cilës roboti duhet të shkarkojë faqet e burimeve. Direktiva mbështetet nga robotët e Yandex, Mail.Ru, Bing, Yahoo. Kur vendosni intervalin, mund të përdorni vlerat e plota dhe të pjesshme, duke përdorur një pikë si ndarës. Njësia e matjes është sekonda.

Vonesa e zvarritjes: 0.5

Nëse ngarkesa në sit është e vogël, atëherë nuk ka nevojë të vendosni këtë rregull. Por nëse rezultati i indeksimit të faqeve nga roboti është tejkalimi i kufijve ose një rritje serioze e ngarkesës, duke çuar në ndërprerje të serverit, atëherë përdorimi i kësaj direktive është i arsyeshëm: ju lejon të zvogëloni ngarkesën.

Sa më i gjatë të jetë intervali që vendosni, aq më i vogël do të jetë numri i shkarkimeve gjatë një seance. Vlera optimale për çdo burim është e ndryshme. Në fillim rekomandohet të vendosni vlera të vogla (0.1, 0.2, 0.5), pastaj gradualisht t'i rritni ato. Për robotët e motorëve të kërkimit që nuk janë veçanërisht të rëndësishëm për rezultatet e promovimit (për shembull, Mail.Ru, Bing dhe Yahoo), mund të vendosni menjëherë vlera që janë më të mëdha se sa për robotët Yandex.

6.Paramin e pastër

Kjo direktivë është e nevojshme për të informuar zvarritësin (robotin e kërkimit) për padobishmërinë e indeksimit të URL-ve me parametrat e specifikuar. Rregullit i jepen dy argumente: një parametër dhe një URL seksioni. Yandex mbështet direktivën.

http://site.ru/articles/?author_id=267539 - nuk do të indeksohet

http://site.ru/articles/?author_id=267539&sid=0995823627 - nuk do të indeksohet

Clean-Param: utm_source utm_medium utm_campaign

7. Opsione të tjera

Specifikimi i zgjeruar robots.txt përmban gjithashtu parametrat e mëposhtëm: Request- rate dhe Visit-time. Por aktualisht nuk ka mbështetje për motorët e tyre kryesorë të kërkimit.

Direktivat janë të nevojshme për sa vijon:

  • Shkalla e kërkesës: 1/5 - lejon ngarkimin e jo më shumë se 1 faqe në 5 sekonda
  • koha e vizitës: 0600-0845 - Lejon ngarkimin e faqes vetëm nga 6 e mëngjesit deri në 8:45 të mëngjesit GMT

Për të konfiguruar siç duhet skedarin robots.txt, ju rekomandojmë të përdorni algoritmin e mëposhtëm:

2) Mbyllni aksesin për robotët në llogarinë tuaj personale, faqet e autorizimit dhe regjistrimit;

4) Mbyllni skriptet ajax, json nga indeksimi;

6) Ndaloni indeksimin e shtojcave, temave, js, css për robotët e të gjithë motorëve të kërkimit, përveç Yandex dhe Google;

7) Mbyllni aksesin e robotëve në funksionalitetin e kërkimit;

8) Ndaloni seksionet e shërbimit të indeksimit që nuk janë të vlefshme për burimin në kërkim (gabim 404, lista e autorëve);

9) Mbylle nga indeksimi i dublikatave teknike të faqeve dhe faqeve, përmbajtja e të cilave në një farë mase kopjon përmbajtjen e faqeve të tjera (kalendarët, arkivat, RSS);

12) Përdorni parametrin "site:" për të kontrolluar se çfarë kanë indeksuar Yandex dhe Google. Për ta bërë këtë, futni "site:site.ru" në shiritin e kërkimit. Nëse ka faqe në SERP që nuk kanë nevojë të indeksohen, shtoni ato te robots.txt;

13) Shkruani rregullat e Sitemap dhe Host;

14) Nëse është e nevojshme, specifikoni Crawl-Delay dhe Clean-Param;

15) Kontrolloni korrektësinë e skedarit robots.txt duke përdorur mjetet e Google dhe Yandex;

16) Pas 14 ditësh, kontrolloni përsëri për t'u siguruar që nuk ka faqe në rezultatet e motorit të kërkimit që nuk duhet të indeksohen. Nëse ka ndonjë, përsëritni të gjitha pikat e mësipërme.

Kontrollimi i skedarit robots.txt ka kuptim vetëm nëse faqja juaj është në rregull. Një auditim i vendit i kryer nga specialistë të kualifikuar do të ndihmojë në përcaktimin e kësaj.

Shpresojmë që artikulli ynë mbi idetë e biznesit të jetë i dobishëm për ju. Dhe nëse tashmë keni vendosur drejtimin e aktivitetit tuaj dhe jeni angazhuar në mënyrë aktive në zhvillimin e dhe, atëherë ju këshillojmë që t'i nënshtroheni një auditimi të faqes në mënyrë që të paraqisni një pamje reale të aftësive të burimit tuaj.


Gjëja e parë që bën një robot kërkimi kur bëhet fjalë për faqen tuaj është kërkimi dhe leximi i skedarit robots.txt. Çfarë është ky skedar? është një grup udhëzimesh për një motor kërkimi.

Është një skedar teksti me shtesën txt, i cili ndodhet në direktorinë rrënjë të faqes. Ky grup udhëzimesh i tregon robotit të kërkimit se cilat faqe dhe skedarë faqesh duhet të indeksohen dhe cilat jo. Ai gjithashtu tregon pasqyrën kryesore të faqes dhe ku të kërkoni hartën e faqes.

Për çfarë shërben skedari robots.txt? Për indeksimin e duhur të faqes tuaj. Në mënyrë që të mos ketë faqe të kopjuara në kërkim, faqe të ndryshme shërbimi dhe dokumente. Pasi të vendosni saktë direktivat në robotë, do ta shpëtoni faqen tuaj nga shumë probleme me indeksimin dhe pasqyrimin e faqes.

Si të kompozoni robotët e duhur.txt

Përpilimi i robots.txt është mjaft i lehtë, ne krijojmë një dokument teksti në një bllok shënimesh standarde të Windows. Ne shkruajmë direktiva për motorët e kërkimit në këtë skedar. Më pas, ruajeni këtë skedar me emrin "robots" dhe zgjerimin e tekstit "txt". Çdo gjë tani mund të ngarkohet në host, në dosjen rrënjë të faqes. Ju lutemi vini re se vetëm një dokument robotik mund të krijohet për çdo faqe. Nëse ky skedar mungon në sit, atëherë roboti automatikisht "vendos" që gjithçka mund të indeksohet.

Meqenëse është një, ai përmban udhëzime për të gjithë motorët e kërkimit. Për më tepër, mund të shkruani të dy udhëzimet e veçanta për secilën PS, dhe atë të përgjithshme menjëherë për gjithçka. Ndarja e udhëzimeve për robotët e ndryshëm të kërkimit bëhet përmes direktivës User-agent. Më poshtë do të flasim për këtë.

direktivat robots.txt

Skedari "robot" mund të përmbajë direktivat e mëposhtme të indeksimit: Përdoruesi-agjent, Mos lejo, Lejo, Harta e faqes, Host, Zvarritje-vonesa, Pastro-param. Le të shohim çdo udhëzim në më shumë detaje.

Direktiva e agjentit të përdoruesit

Direktiva e agjentit të përdoruesit- tregon se për cilin motor kërkimi do të ketë udhëzime (më saktë, për cilin bot të veçantë). Nëse është "*", atëherë udhëzimet janë për të gjithë robotët. Nëse listohet një bot specifik, si p.sh. Googlebot, atëherë udhëzimet janë vetëm për robotin kryesor të indeksimit të Google. Për më tepër, nëse ka udhëzime veçmas për Googlebot dhe për të gjitha PS-të e tjera, atëherë Google do të lexojë vetëm udhëzimet e veta dhe do të injorojë atë të përgjithshëm. Bot Yandex do të bëjë të njëjtën gjë. Le të shohim një shembull të një hyrje direktive.

Agjenti i përdoruesit: YandexBot - udhëzime vetëm për robotin kryesor të indeksimit Yandex
Agjenti i përdoruesit: Yandex - udhëzime për të gjithë robotët Yandex
Përdoruesi-agjent: * - udhëzime për të gjithë robotët

Mos lejo dhe lejo direktivat

Mos lejo dhe lejo direktivat- jepni komanda çfarë të indeksoni dhe çfarë jo. Disallow jep komandën për të mos indeksuar një faqe ose një seksion të tërë të sajtit. Dhe Lejo, përkundrazi, tregon atë që duhet të indeksohet.

Mos lejo: / - ndalon indeksimin e të gjithë sitit
Mos lejo: /papka/ - ndalon indeksimin e të gjithë përmbajtjes së dosjes
Mos lejo: /files.php - ndalon indeksimin e skedarit files.php

Lejo: /cgi-bin - lejon indeksimin e faqeve cgi-bin

Është e mundur dhe shpesh e nevojshme të përdoren karaktere speciale në direktivat Disallow dhe Allow. Ato nevojiten për të përcaktuar shprehjet e rregullta.

Karakteri special * - zëvendëson çdo sekuencë karakteresh. Ai shtohet si parazgjedhje në fund të çdo rregulli. Edhe nëse nuk e keni regjistruar, PS-ja do ta vendosë vetë. Shembull përdorimi:

Mos lejo: /cgi-bin/*.aspx - ndalon indeksimin e të gjithë skedarëve me shtesën .aspx
Disallow: /*foto - ndalon indeksimin e skedarëve dhe dosjeve që përmbajnë fjalën foto

Karakteri special $ - anulon efektin e karakterit special "*" në fund të rregullit. Për shembull:

Mos lejo: /example$ - ndalon indeksimin e '/example', por nuk ndalon '/example.html'

Dhe nëse shkruani pa karakterin special $, atëherë udhëzimi do të funksionojë ndryshe:

Mos lejo: /example - nuk lejon si '/example' dhe '/example.html'

Direktiva për hartën e faqes

Direktiva për hartën e faqes- është krijuar për t'i treguar robotit të motorit të kërkimit se ku ndodhet harta e faqes në host. Formati i hartës së faqes duhet të jetë sitemaps.xml. Nevojitet një hartë e faqes për indeksimin më të shpejtë dhe më të plotë të faqes. Për më tepër, një hartë e faqes nuk është domosdoshmërisht një skedar, mund të ketë disa. Formati i hyrjes së direktivës:

Harta e faqes: http://site/sitemaps1.xml
Harta e faqes: http://site/sitemaps2.xml

Direktiva e pritësit

Direktiva e pritësit- i tregon robotit pasqyrën kryesore të faqes. Çfarëdo që të jetë në indeksin e pasqyrës së sajtit, duhet ta specifikoni gjithmonë këtë direktivë. Nëse nuk specifikohet, roboti Yandex do të indeksojë të paktën dy versione të faqes me dhe pa www. Derisa roboti i pasqyrës t'i ngjitë ato së bashku. Shembull regjistrimi:

Pritësi: www.site
host: faqe

Në rastin e parë, roboti do të indeksojë versionin me www, në rastin e dytë pa. Vetëm një direktivë Host lejohet në skedarin robots.txt. Nëse shkruani disa prej tyre, roboti do të përpunojë dhe do të marrë parasysh vetëm të parin.

Një direktivë e vlefshme pritës duhet të ketë të dhënat e mëposhtme:
— tregoni protokollin e lidhjes (HTTP ose HTTPS);
- një emër domaini i shkruar saktë (nuk mund të shkruani një adresë IP);
- numri i portit, nëse është e nevojshme (për shembull, Host: site.com: 8080).

Direktivat e bëra gabim thjesht do të injorohen.

Direktiva e zvarritjes së vonesës

Direktiva e zvarritjes së vonesës ju lejon të zvogëloni ngarkesën në server. Është e nevojshme në rast se faqja juaj fillon të bjerë nën sulmin e robotëve të ndryshëm. Direktiva e vonesës së zvarritjes i thotë robotit të kërkimit të presë midis fundit të shkarkimit të një faqeje dhe fillimit të shkarkimit të një faqeje tjetër të faqes. Direktiva duhet të vijë menjëherë pas hyrjeve të direktivës "Mos lejo" dhe/ose "Lejo". Roboti i kërkimit Yandex mund të lexojë vlerat e pjesshme. Për shembull: 1.5 (një sekonda e gjysmë).

Direktiva Clean-param

Direktiva Clean-param nevojiten nga faqet, faqet e të cilave përmbajnë parametra dinamikë. Po flasim për ato që nuk ndikojnë në përmbajtjen e faqeve. Këto janë informacione të ndryshme shërbimi: identifikuesit e sesioneve, përdoruesit, referuesit, etj. Pra, për të shmangur dublikatat e këtyre faqeve, përdoret kjo direktivë. Ai do t'i tregojë PS-së që të mos ri-ngarkojë informacionin e rimëkëmbjes. Ngarkesa në server dhe koha që i duhet robotit për të zvarritur faqen do të ulet gjithashtu.

Clean-param: s /forum/showthread.php

Kjo hyrje i tregon PS se parametri s do të konsiderohet i parëndësishëm për të gjitha url-të që fillojnë me /forum/showthread.php. Gjatësia maksimale e regjistrimit është 500 karaktere.

Ne i kuptuam direktivat, le të kalojmë në vendosjen e robotëve tanë.

Vendosja e robots.txt

Ne vazhdojmë drejtpërdrejt me konfigurimin e skedarit robots.txt. Ai duhet të përmbajë të paktën dy hyrje:

agjenti i përdoruesit:- tregon se për cilin motor kërkimi do të jenë udhëzimet e mëposhtme.
Mos lejo: specifikon se cila pjesë e faqes nuk duhet të indeksohet. Mund të mbyllet nga indeksimi i një faqeje të veçantë të faqes dhe e seksioneve të tëra.

Për më tepër, mund të specifikoni që këto direktiva janë të destinuara për të gjithë motorët e kërkimit, ose për një në mënyrë specifike. Kjo është e specifikuar në direktivën e agjentit përdorues. Nëse dëshironi që të gjithë robotët të lexojnë udhëzimet, vendosni një yll

Nëse dëshironi të shkruani udhëzime për një robot specifik, por duhet të specifikoni emrin e tij.

Agjenti i përdoruesit: YandexBot

Një shembull i thjeshtuar i një skedari robotësh të kompozuar siç duhet do të ishte:

Agjenti i përdoruesit: *
Mos lejo: /files.php
Mos lejo: /seksion/
host: faqe

Ku, * thotë se udhëzimet janë të destinuara për të gjitha PS;
Mos lejo: /files.php- jep një ndalim për indeksimin e skedarit file.php;
Mos lejo: /foto/- ndalon indeksimin e të gjithë seksionit "foto" me të gjithë skedarët e bashkangjitur;
host: faqe- u tregon robotëve se cilën pasqyrë të indeksojnë.

Nëse faqja juaj nuk ka faqe që duhet të mbyllen nga indeksimi, atëherë skedari juaj robots.txt duhet të jetë si ky:

Agjenti i përdoruesit: *
Mos lejo:
host: faqe

Robots.txt për Yandex (Yandex)

Për të treguar që këto udhëzime janë të destinuara për motorin e kërkimit Yandex, duhet të specifikoni në direktivën e agjentit të përdoruesit: Yandex. Për më tepër, nëse shkruajmë "Yandex", atëherë faqja do të indeksohet nga të gjithë robotët Yandex, dhe nëse specifikojmë "YandexBot", atëherë kjo do të jetë një komandë vetëm për robotin kryesor të indeksimit.

Është gjithashtu e nevojshme të regjistrohet direktiva "Host", ku të specifikohet pasqyra kryesore e faqes. Siç shkrova më lart, kjo është bërë për të parandaluar faqet e kopjuara. robots.txt juaj i saktë për Yandex do të jetë si ky:

Agjenti i përdoruesit: Yandex
Mos lejo: /cgi-bin
Mos lejo: /adminka
host: faqe

Deri më tani, shpesh dëgjohen pyetje se çfarë është më mirë të specifikohet në direktivën e hostit, një faqe me ose pa www. Dhe në fund të fundit, nuk ka asnjë ndryshim. Është vetëm se si ju pëlqen, si do të dukej faqja në SERP. Gjëja kryesore është të mos harroni ta specifikoni fare, në mënyrë që të mos krijoni dublikatë.

Robots.txt për Google

Motori i kërkimit Google mbështet të gjitha formatet e zakonshme të hyrjes së skedarëve robots.txt. Vërtetë, nuk merr parasysh direktivën e Pritësit. Prandaj, në të vërtetë nuk do të ketë dallime nga Yandex. Robots.txt për Google do të duket kështu:

Agjenti i përdoruesit: Googlebot
Mos lejo: /cgi-bin
Mos lejo: /adminka
Harta e faqes: http://site/sitemaps.xml

Shpresoj që të dhënat që kam paraqitur do t'ju mjaftojnë për të përpiluar një skedar cilësor dhe më e rëndësishmja, korrekt. robots.txt Nëse përdorni një nga CMS-të e njohura, atëherë në artikullin tjetër kam përgatitur për ju një përzgjedhje të robotëve - robots.txt për vlerësimet e njohura CMS 1, mesatare: 5,00 nga 5)

/ pamje: 21952

Pershendetje te dashur miq! Kontrollimi i robots.txt është po aq i rëndësishëm sa shkrimi i saktë i tij.

Kontrollimi i skedarit robots.txt në panelet Yandex dhe Google Webmasters.

Po kontrolloni robots.txt, pse është e rëndësishme të kontrolloni?

Herët a vonë, çdo autor i faqes që respekton veten e kujton skedarin e robotëve. Për këtë skedar, i vendosur në rrënjën e faqes, është shkruar me bollëk në internet. Pothuajse çdo webmaster ka një faqe në lidhje me rëndësinë dhe korrektësinë e përpilimit të tij. Në këtë artikull, unë do t'u kujtoj blogerëve fillestarë se si ta kontrollojnë atë duke përdorur mjetet në panelin e webmasterit të ofruar nga Yandex dhe Google.

Së pari, pak për të. Skedari Robots.txt (nganjëherë i quajtur gabimisht robot.txt, në njëjës, kërkohet vëmendje ndaj shkronjës angleze s në fund) është krijuar nga webmasterët për të shënuar ose ndaluar disa skedarë dhe dosje të një faqe interneti, për merimangat e kërkimit (si si dhe lloje të tjera robotësh). Kjo do të thotë, ato skedarë në të cilët roboti i motorit të kërkimit nuk duhet të ketë qasje.

Kontrollimi i robots.txt është një atribut i detyrueshëm për autorin e faqes kur krijon një blog në WordPress dhe promovimin e tij të mëtejshëm. Shumë webmaster janë gjithashtu të sigurt për të parë faqet e projektit. Analizimi u tregon robotëve sintaksën e saktë për t'u siguruar që është në një format të vlefshëm. Fakti është se ekziston një Standard i vendosur për përjashtime për robotët. Nuk do të jetë e tepërt të zbuloni mendimin e vetë motorëve të kërkimit, të lexoni dokumentacionin, në të cilin motorët e kërkimit detajojnë vizionin e tyre për këtë skedar.

E gjithë kjo nuk do të jetë e tepërt në mënyrë që të vazhdoni të mbroni faqen tuaj nga gabimet gjatë indeksimit. Unë di shembuj kur, për shkak të një skedari të përpiluar gabimisht, është dhënë një sinjal për të ndaluar dukshmërinë e tij në rrjet. Me korrigjim të mëtejshëm, mund të prisni një kohë të gjatë për një ndryshim në situatën rreth faqes.

Unë nuk do të ndalem në përpilimin e saktë të vetë skedarit në këtë artikull. Ka shumë shembuj në rrjet, mund të shkoni në blogun e çdo blogeri të njohur dhe të shtoni /robots.txt në fund të domenit të tij për verifikim. Shfletuesi do të tregojë versionin e tij, të cilin mund ta përdorni si bazë. Sidoqoftë, secili ka përjashtimet e veta, kështu që ju duhet të kontrolloni për pajtueshmërinë posaçërisht për faqen tuaj. Gjithashtu, një përshkrim dhe një shembull i tekstit të saktë për një blog WordPress mund të gjenden në:

Harta e faqes: http://faqja juaj/sitemap.xml

Agjenti i përdoruesit: Imazhi i Googlebot

#Google Adsense

Agjenti i përdoruesit: Mediapartners-Google*

Agjenti i përdoruesit: duggmirror

Mos lejo: /cgi-bin/

Mos lejo: /wp-admin/

Mos lejo: /wp-includes/

Mos lejo: /wp-content/plugins/

Mos lejo: /wp-content/cache/

Mos lejo: /wp-content/themes/

Mos lejo: /trackback/

Mos lejo: /feed/

Mos lejo: /komentet/

Mos lejo: /category/*/*

Mos lejo: */trackback/

Mos lejo: */feed/

Mos lejo: */comments/

Lejo: /wp-content/uploads/

Ka disa dallime në përpilimin dhe verifikimin e mëtejshëm të skedarit robots.txt për motorët kryesorë të kërkimit të Runet. Më poshtë do të jap shembuj se si të kontrolloni në panelet Yandex Webmaster dhe Google.

Pasi të keni përpiluar skedarin dhe ta keni ngarkuar atë në rrënjën e faqes tuaj nëpërmjet FTP, duhet ta kontrolloni për pajtueshmërinë, për shembull, me motorin e kërkimit Yandex. Kështu, ne do të zbulojmë nëse nuk i kemi mbyllur rastësisht ato faqe, falë të cilave vizitorët do të vijnë tek ju.

Kontrollimi i robots.txt në panelin Yandex Webmaster

Duhet të keni një llogari në panelin Yandex Webmaster. Duke hyrë te mjetet dhe duke specifikuar faqen tuaj, në të djathtë do të ketë një listë të veçorive të disponueshme. Shkoni te skeda "Kontrollo robots.txt"

Specifikoni domenin tuaj dhe klikoni "Shkarko robots.txt nga faqja". Nëse keni përpiluar një skedar që tregon veçmas për secilin motor kërkimi, atëherë duhet të zgjidhni linjat për Yandex dhe t'i kopjoni ato në fushën më poshtë. Ju kujtoj se direktiva Host: është e rëndësishme për Jand., ndaj mos harroni ta futni në fushë për verifikim. Mbetet për të kontrolluar robots.txt. butonin në të djathtë.

Do të shihni fjalë për fjalë menjëherë një analizë nga Yandex për pajtueshmërinë me robots.txt tuaj. Më poshtë do të jenë linjat që Yand. pranuar për shqyrtim. Dhe shikoni rezultatet e testit. Direktivat tregohen në të majtë të Url. Në të djathtë është vetë rezultati. Siç mund ta shihni në pamjen e ekranit, do të jetë e saktë të shihni mbishkrimin me të kuqe - i ndaluar nga rregulli dhe tregohet vetë rregulli. Nëse keni specifikuar një direktivë për indeksimin, atëherë do të shohim jeshile - lejohet.

Pasi të keni kontrolluar robots.txt, do të jeni në gjendje të korrigjoni skedarin tuaj. Unë gjithashtu rekomandoj të kontrolloni faqet e faqes. Ngjitni adresën url të një hyrjeje të vetme në fushën /Lista e URL-ve/. Dhe në dalje marrim rezultatin - të lejuar. Pra, ne mund të kontrollojmë veçmas ndalimet për arkivat, kategoritë, etj.

Mos harroni të regjistroheni, në artikullin tjetër kam në plan të tregoj se si të regjistroheni falas në katalogun Mail.ru. Mos humbasë, .

Si të kontrolloni në Webmasters Yandex.

Kontrolloni robots.txt në panelin e Google Webmasters

Ne hyjmë në llogarinë tuaj dhe shikojmë në të majtë /Status/ - /URL të bllokuara/

Këtu do të shohim praninë e tij dhe aftësinë për ta modifikuar atë. Nëse keni nevojë të kontrolloni të gjithë faqen për pajtueshmëri, specifikoni adresën e faqes kryesore në fushën më poshtë. Është e mundur të kontrolloni se si robotë të ndryshëm të Google e shohin faqen tuaj, duke marrë parasysh kontrollin e skedarit robots.txt

Përveç robotit kryesor të Google, ne zgjedhim gjithashtu një robot të specializuar në lloje të ndryshme të përmbajtjes (2). Pamja e ekranit më poshtë.

  1. Googlebot
  2. Imazhi i Googlebot
  3. Googlebot celular
  4. Mediapartners-Google - Metrics for AdSense
  5. AdsBot-Google - Kontrolli i cilësisë së faqes së uljes

Nuk gjeta tregues për robotët e tjerë të Google:

  • Video Googlebot
  • Lajmet e Googlebot

Për analogji me kontrollimin e skedarit robots.txt në panelin Yandex, ekziston gjithashtu mundësia për të analizuar një faqe të veçantë të faqes. Pas kontrollit, do ta shihni rezultatin veçmas për çdo bot kërkimi.

Me kusht që rezultatet e kontrollit nuk ju përshtaten, thjesht duhet të vazhdoni të redaktoni. Dhe verifikim të mëtejshëm.

Analizoni robots.txt në internet

Përveç këtyre veçorive, mund të analizoni gjithashtu skedarin robots.txt duke përdorur shërbimet në internet. Ato që gjeta janë kryesisht anglisht-folëse. Më pëlqeu ky shërbim. Pas analizës do të jepen rekomandime për korrigjimin e tij.

tool.motoricerca.info/robots-checker.phtml

Kjo eshte e gjitha. Shpresoj që kontrollimi i skedarit robots.txt përmes syve të Yandex dhe Google nuk ju shqetësoi? Nëse keni parë një mospërputhje me dëshirat tuaja, atëherë gjithmonë mund të redaktoni dhe më pas të ri-analizoni. Faleminderit për cicërimin tuaj në Twitter dhe pëlqimin në Facebook!

Skedari robots.txt është një nga më të rëndësishmit kur optimizoni çdo sajt. Mungesa e tij mund të çojë në një ngarkesë të lartë në sit nga robotët e kërkimit dhe indeksimin dhe ri-indeksimin e ngadaltë, dhe një cilësim i gabuar mund të çojë në zhdukjen e plotë të faqes nga kërkimi ose thjesht të mos indeksohet. Prandaj, nuk do të kërkohet në Yandex, Google dhe motorë të tjerë kërkimi. Le të hedhim një vështrim në të gjitha nuancat e konfigurimit të duhur të robots.txt.

Së pari, një video e shkurtër që do t'ju japë një ide të përgjithshme se çfarë është një skedar robots.txt.

Si ndikon robots.txt në indeksimin e faqeve

Robotët e kërkimit do të indeksojnë faqen tuaj pavarësisht nga prania e një skedari robots.txt. Nëse ekziston një skedar i tillë, atëherë robotët mund të udhëhiqen nga rregullat që janë shkruar në këtë skedar. Në të njëjtën kohë, disa robotë mund të injorojnë rregulla të caktuara, ose disa rregulla mund të jenë specifike vetëm për disa robotë. Në veçanti, GoogleBot nuk përdor direktivat Host dhe Crawl-Delay, YandexNews kohët e fundit ka filluar të injorojë direktivën Crawl-Delay dhe YandexDirect dhe YandexVideoParser injorojnë direktivat më të përgjithshme të robotëve (por udhëhiqen nga ato të specifikuara posaçërisht për ta).

Më shumë rreth përjashtimeve:
Përjashtimet e Yandex
Standardi i përjashtimit të robotëve (Wikipedia)

Ngarkesa maksimale në faqe krijohet nga robotë që shkarkojnë përmbajtje nga faqja juaj. Prandaj, duke specifikuar se çfarë të indeksoni dhe çfarë të injoroni, si dhe në cilat intervale kohore të shkarkoni, nga njëra anë mund të zvogëloni ndjeshëm ngarkesën në sit nga robotët, dhe nga ana tjetër, të shpejtoni shkarkimin proces duke ndaluar anashkalimin e faqeve të panevojshme .

Faqe të tilla të panevojshme përfshijnë ajax, skriptet json përgjegjës për format pop-up, banderola, dalje captcha, etj., formularët e porosive dhe një karrocë blerjesh me të gjitha hapat e blerjes, funksionalitetin e kërkimit, llogarinë personale, panelin e administratorit.

Për shumicën e robotëve, është gjithashtu e dëshirueshme që të çaktivizohet indeksimi i të gjitha JS dhe CSS. Por për GoogleBot dhe Yandex, skedarë të tillë duhet të lihen për indeksim, pasi ato përdoren nga motorët e kërkimit për të analizuar komoditetin e faqes dhe renditjen e tij (prova Google, prova Yandex).

direktivat robots.txt

Direktivat janë rregulla për robotët. Ekziston një specifikim W3C nga 30 janari 1994 dhe një standard i zgjeruar nga 1996. Megjithatë, jo të gjithë motorët e kërkimit dhe robotët mbështesin direktiva të caktuara. Në këtë drejtim, do të jetë më e dobishme për ne të dimë jo standardin, por se si robotët kryesorë udhëhiqen nga direktiva të caktuara.

Le ta shikojmë me radhë.

përdorues-agjent

Kjo është direktiva më e rëndësishme që përcakton se për cilët robotë zbatohen rregullat.

Për të gjithë robotët:
Agjenti i përdoruesit: *

Për një robot specifik:
Agjenti i përdoruesit: GoogleBot

Vini re se robots.txt është i pandjeshëm ndaj shkronjave të vogla. Ato. Agjenti i përdoruesit për Google mund të shkruhet po aq mirë si ky:
agjenti i përdoruesit: googlebot

Më poshtë është një tabelë e agjentëve kryesorë të përdoruesve të motorëve të ndryshëm të kërkimit.

Bot Funksioni
Google
Googlebot Roboti kryesor i indeksimit të Google
Lajmet e Googlebot Google News
Imazhi i Googlebot Fotografitë e Google
Video Googlebot video
Mediapartners-Google
partnerët mediatikë Google Adsense, Google Mobile Adsense
AdsBot-Google kontrolli i cilësisë së faqes së uljes
AdsBot-Google-Mobile-Aplikacione Google Robot për aplikacione
Yandex
YandexBot Roboti kryesor i indeksimit të Yandex
YandexImages Yandex.Imazhet
YandexVideo Yandex.Video
YandexMedia të dhëna multimediale
YandexBlogs robot kërkimi në blog
YandexAddurl një robot që akseson faqen kur shtohet nëpërmjet formularit "Shto URL".
YandexFavicons robot që indekson ikonat e faqes (favicon)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
Katalogu Yandex Yandex.Katalog
YandexNews Yandex.News
YandexImageResizer robot i shërbimeve celulare
Bing
bingbot roboti kryesor i indeksimit Bing
Yahoo!
Slurp Roboti kryesor i indeksimit Yahoo!
Mail.Ru
Mail.Ru Roboti kryesor i indeksimit Mail.Ru
Rambler
StackRambler Dikur roboti kryesor i indeksimit Rambler. Sidoqoftë, që nga 23 qershor 2011, Rambler pushon së mbështeturi motorin e tij të kërkimit dhe tani përdor teknologjinë Yandex në shërbimet e tij. Jo më relevante.

Mos lejo dhe lejo

Mos lejo mbyll faqet dhe seksionet e sajtit nga indeksimi.
Lejo hapjen me forcë të faqeve dhe seksioneve të sajtit për indeksim.

Por këtu gjithçka nuk është aq e thjeshtë.

Së pari, duhet të njihni operatorë shtesë dhe të kuptoni se si përdoren - këta janë *, $ dhe #.

* është çdo numër personazhesh, duke përfshirë mungesën e tyre. Në të njëjtën kohë, nuk mund të vendosni një yll në fund të rreshtit, kuptohet që ai është aty si parazgjedhje.
$ - tregon se karakteri para tij duhet të jetë i fundit.
# - koment, çdo gjë pas këtij karakteri në rresht nuk merret parasysh nga roboti.

Shembuj të përdorimit:

Mos lejo: *?s=
Mos lejo: /category/$

Së dyti, ju duhet të kuptoni se si ekzekutohen rregullat e mbivendosura.
Mos harroni se rendi në të cilin janë shkruar direktivat nuk është i rëndësishëm. Trashëgimia e rregullave se çfarë të hapet ose mbyllet nga indeksimi përcaktohet nga cilat direktori janë të specifikuara. Le të marrim një shembull.

Lejo: *.css
Mos lejo: /template/

http://site.ru/template/ - mbyllur nga indeksimi
http://site.ru/template/style.css - i mbyllur nga indeksimi
http://site.ru/style.css - e hapur për indeksim
http://site.ru/theme/style.css - e hapur për indeksim

Nëse dëshironi që të gjithë skedarët .css të jenë të hapura për indeksim, do t'ju duhet ta regjistroni këtë shtesë për secilën prej dosjeve të mbyllura. Në rastin tonë:

Lejo: *.css
Lejo: /template/*.css
Mos lejo: /template/

Përsëri, rendi i direktivave nuk është i rëndësishëm.

Harta e faqes

Direktivë për specifikimin e shtegut për në skedarin XML të Hartës së Faqes. URL-ja shkruhet në të njëjtën mënyrë si në shiritin e adresave.

Për shembull,

Harta e faqes: http://site.ru/sitemap.xml

Direktiva e Hartës së Faqes specifikohet kudo në skedarin robots.txt pa u lidhur me një agjent specifik përdoruesi. Ju mund të specifikoni rregulla të shumta të hartës së faqes.

Mikpritës

Direktivë për përcaktimin e pasqyrës kryesore të faqes (në shumicën e rasteve: me www ose pa www). Ju lutemi vini re se pasqyra kryesore tregohet PA http://, por ME https://. Gjithashtu, nëse është e nevojshme, specifikohet porti.
Direktiva mbështetet vetëm nga robotët Yandex dhe Mail.Ru. Robotët e tjerë, veçanërisht GoogleBot, nuk do ta marrin parasysh komandën. Pritësi regjistrohet vetëm një herë!

Shembulli 1:
Pritësi: site.ru

Shembulli 2:
Pritësi: https://site.ru

Zvarritje-vonesa

Direktivë për vendosjen e intervalit kohor ndërmjet shkarkimit të faqeve të faqes nga roboti. Mbështetur nga robotët Yandex, Mail.Ru, Bing, Yahoo. Vlera mund të vendoset në njësi të plotë ose të pjesshme (ndarëse - pikë), koha në sekonda.

Shembulli 1:
Vonesa e zvarritjes: 3

Shembulli 2:
Vonesa e zvarritjes: 0.5

Nëse faqja ka një ngarkesë të vogël, atëherë nuk ka nevojë të vendosni një rregull të tillë. Sidoqoftë, nëse indeksimi i faqeve nga një robot çon në faktin se siti tejkalon kufijtë ose përjeton ngarkesa të konsiderueshme, deri në ndërprerje të serverit, atëherë kjo direktivë do të ndihmojë në uljen e ngarkesës.

Sa më e lartë të jetë vlera, aq më pak faqe do të shkarkojë roboti në një seancë. Vlera optimale përcaktohet individualisht për çdo vend. Është më mirë të filloni me vlera jo shumë të mëdha - 0.1, 0.2, 0.5 - dhe gradualisht t'i rritni ato. Për robotët e motorëve të kërkimit që janë më pak të rëndësishëm për rezultatet e promovimit, si Mail.Ru, Bing dhe Yahoo, fillimisht mund të vendosni vlera më të larta sesa për robotët Yandex.

Param i pastër

Ky rregull i tregon zvarritësit që URL-të me parametrat e specifikuar nuk duhet të indeksohen. Rregullit i jepen dy argumente: një parametër dhe një URL seksioni. Direktiva mbështetet nga Yandex.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Opsione të tjera

Në specifikimin e zgjeruar robots.txt, mund të gjeni gjithashtu parametrat Request- rate dhe Visit-time. Megjithatë, ato aktualisht nuk mbështeten nga motorët kryesorë të kërkimit.

Kuptimi i direktivave:
Shkalla e kërkesës: 1/5 - ngarkoni jo më shumë se një faqe në pesë sekonda
Koha e vizitës: 0600-0845 - Ngarko faqet vetëm ndërmjet orës 6 të mëngjesit dhe 8:45 GMT.

Mbyllja e robots.txt

Nëse keni nevojë të konfiguroni faqen tuaj që të MOS indeksohet nga robotët e kërkimit, atëherë duhet të shkruani direktivat e mëposhtme:

Agjenti i përdoruesit: *
mos lejo:/

Sigurohuni që këto udhëzime të jenë të shkruara në faqet e testimit të faqes suaj.

Vendosja e duhur e robots.txt

Për Rusinë dhe vendet e CIS, ku pjesa e Yandex është e prekshme, direktivat duhet të shkruhen për të gjithë robotët dhe veçmas për Yandex dhe Google.

Për të konfiguruar siç duhet robots.txt, përdorni algoritmin e mëposhtëm:

  1. Mbyll panelin e administratorit të faqes nga indeksimi
  2. Mbyll llogarinë personale, autorizimin, regjistrimin nga indeksimi
  3. Mbyllni karrocën, formularët e porosive, të dhënat e transportit dhe porosisë nga indeksimi
  4. Mbylle nga indeksimi ajax, skriptet json
  5. Mbyll dosjen cgi nga indeksimi
  6. Mbyllni shtojcat, temat, js, css nga indeksimi për të gjithë robotët përveç Yandex dhe Google
  7. Mbyllni funksionalitetin e kërkimit nga indeksimi
  8. Mbyllni seksionet e shërbimit nga indeksimi që nuk kanë asnjë vlerë për sitin në kërkim (gabim 404, lista e autorëve)
  9. Mbyllni dublikatat teknike të faqeve nga indeksimi, si dhe faqet në të cilat e gjithë përmbajtja kopjohet në një formë ose në një tjetër nga faqet e tjera (kalendarët, arkivat, RSS)
  10. Mbyllni nga faqet e indeksimit me opsione filtri, renditni, krahasoni
  11. Ndalo indeksimin e faqeve me etiketat UTM dhe parametrat e sesioneve
  12. Kontrolloni se çfarë është indeksuar nga Yandex dhe Google duke përdorur parametrin "site:" (shkruani "site:site.ru" në shiritin e kërkimit). Nëse ka faqe në kërkim që gjithashtu duhet të mbyllen nga indeksimi, shtoni ato në robots.txt
  13. Specifikoni hartën e faqes dhe hostin
  14. Nëse është e nevojshme, shkruani Crawl-Delay dhe Clean-Param
  15. Kontrolloni korrektësinë e robots.txt duke përdorur mjetet e Google dhe Yandex (të përshkruara më poshtë)
  16. Pas 2 javësh, kontrolloni përsëri nëse ka faqe të reja në SERP që nuk duhet të indeksohen. Nëse është e nevojshme, përsëritni hapat e mësipërm.

robots.txt shembull

# Një shembull i një skedari robots.txt për konfigurimin e një siti hipotetik https://site.ru Agjenti i përdoruesit: * Mos lejo: /admin/ Mos lejo: /plugins/ Mos lejo: /search/ Mos lejo: /cart/ Mos lejo: * /?s= Mos lejo: *sort= Mos lejo: *view= Mos lejo: *utm= Crawl-Delay: 5 Agjenti i përdoruesit: GoogleBot Mos lejo: /admin/ Mos lejo: /plugins/ Mos lejo: /search/ Mos lejo: /cart/ Mos lejo : */?s = Mos lejo: *sort= Mos lejo: *view= Mos lejo: *utm= Lejo: /plugins/*.css Lejo: /plugins/*.js Lejo: /plugins/*.png Lejo: /plugins/ *.jpg Lejo: /plugins/*.gif Agjenti i përdoruesit: Yandex Mos lejo: /admin/ Mos lejo: /plugins/ Mos lejo: /search/ Mos lejo: /cart/ Mos lejo: */?s= Mos lejo: *sort= Mos lejo: *view= Lejo: /plugins/*.css Lejo: /plugins/*.js Lejo: /plugins/*.png Lejo: /plugins/*.jpg Lejo: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl- Vonesa: 0.5 Harta e faqes: https://site.ru/sitemap.xml Pritësi: https://site.ru

Si të shtoni dhe ku është robots.txt

Pasi të keni krijuar skedarin robots.txt, ai duhet të vendoset në faqen tuaj në site.ru/robots.txt - d.m.th. në direktorinë rrënjë. Zvarritësi i qaset skedarit gjithmonë në URL /robots.txt

Si të kontrolloni robots.txt

Kontrollimi i robots.txt kryhet në lidhjet e mëposhtme:

  • Në Yandex.Webmaster — në skedën e analizës Tools>Robots.txt
  • Google Search Console- në skedën Skano > mjeti i inspektimit të skedarëve robots.txt

Gabimet e zakonshme në robots.txt

Në fund të artikullit, unë do të jap disa gabime tipike të skedarëve robots.txt.

  • robots.txt mungon
  • në robots.txt faqja është e mbyllur nga indeksimi (Mos lejo: /)
  • dosja përmban vetëm direktivat më themelore, nuk ka një studim të detajuar të dosjes
  • faqet me etiketa UTM dhe ID të sesioneve nuk janë të bllokuara nga indeksimi në skedar
  • skedari përmban vetëm direktiva
    Lejo: *.css
    Lejo: *.js
    Lejo: *.png
    Lejo: *.jpg
    Lejo: *.gif
    ndërsa skedarët css, js, png, jpg, gif mbyllen nga direktiva të tjera në një numër drejtorish
  • Direktiva e hostit shkruhet disa herë
  • Pritësi nuk specifikon protokollin https
  • rruga për në hartën e faqes është e pasaktë, ose është specifikuar protokolli i gabuar ose pasqyra e faqes

P.S.

P.S.2

Video e dobishme nga Yandex (Kujdes! Disa rekomandime janë të përshtatshme vetëm për Yandex).

Artikujt kryesorë të lidhur