Interzicerea indexării roboților txt. Ascunderea linkurilor cu scripturi
Interzicerea indexării roboților txt. Ascunderea linkurilor cu scripturi
03.05.2019Securitate
Scopul acestui ghid este de a ajuta webmasterii și administratorii să utilizeze robots.txt.
Introducere
Standardul de excepție pentru robot este în esență foarte simplu. Pe scurt, funcționează astfel:
Când un robot care respectă standardele vizitează un site, în primul rând solicită un fișier numit „/robots.txt”. Dacă se găsește un astfel de fișier, Robotul caută în el instrucțiuni care interzic indexarea unor părți ale site-ului.
Unde să plasați fișierul robots.txt
Robotul solicită pur și simplu adresa URL „/robots.txt” pe site-ul dvs., site-ul în acest caz este o gazdă specifică pe un anumit port.
Poate exista un singur fișier „/robots.txt” pe site. De exemplu, nu ar trebui să plasați fișierul robots.txt în subdirectoarele utilizatorilor - roboții oricum nu îi vor căuta acolo. Dacă doriți să puteți crea fișiere robots.txt în subdirectoare, atunci aveți nevoie de o modalitate de a le asambla în mod programatic într-un singur fișier robots.txt situat la rădăcina site-ului. În schimb, puteți folosi .
Nu uitați că adresele URL sunt sensibile la majuscule, iar numele fișierului „/robots.txt” trebuie scris în întregime cu litere mici.
Locație incorectă a robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt
Fișierul nu se află în rădăcina site-ului
ftp://ftp.w3.com/robots.txt
Roboții nu indexează ftp
http://www.w3.org/Robots.txt
Numele fișierului nu este scris cu litere mici
După cum puteți vedea, fișierul robots.txt trebuie plasat exclusiv în rădăcina site-ului.
Ce să scrieți în fișierul robots.txt
Fișierul robots.txt este scris de obicei ceva de genul:
Agent utilizator: * Nu permiteți: /cgi-bin/ Nu permiteți: /tmp/ Nu permiteți: /~joe/
În acest exemplu, indexarea a trei directoare este interzisă.
Rețineți că fiecare director se află pe o linie separată - nu puteți scrie „Disallow: /cgi-bin/ /tmp/”. De asemenea, nu puteți împărți o singură declarație Disallow sau User-agent în mai multe rânduri, așa cum ruptura de linie este folosită pentru a separa instrucțiunile unele de altele.
Nici expresiile regulate și metacaracterele nu pot fi folosite. Un asterisc (*) în declarația User-agent înseamnă „orice robot”. Instrucțiuni precum „Disallow: *.gif” sau „User-agent: Ya*” nu sunt acceptate.
Instrucțiunile specifice din robots.txt depind de site-ul dvs. și de ceea ce doriți să împiedicați indexarea. Aici sunt cateva exemple:
Preveniți ca întregul site să fie indexat de către toți roboții
Agent utilizator: * interzice: /
Permiteți tuturor roboților să indexeze întregul site
Agent utilizator: * Nu permiteți: /cgi-bin/ Nu permiteți: /tmp/ Nu permiteți: /privat/
Interziceți indexarea site-ului pentru un singur robot
Agent utilizator: BadBot interzice: /
Permiteți indexarea site-ului pentru un robot și interziceți pe toți ceilalți
Agent utilizator: Yandex Nu permiteți:
Agent utilizator: * interzice: /
Interziceți indexarea tuturor fișierelor, cu excepția unuia
Acest lucru este destul de dificil, pentru că. nu există nicio declarație „Permite”. În schimb, puteți muta toate fișierele cu excepția celui care doriți să fie indexat într-un subdirector și să dezactivați indexarea acestuia:
Agent utilizator: * Nu permiteți: /docs/
Sau puteți dezactiva toate fișierele interzise de indexare:
Agent utilizator: * Nu permiteți: /private.html Nu permiteți: /foo.html Nu permiteți: /bar.html
Orice pagină de pe site poate fi deschisă sau închisă pentru indexare de către motoarele de căutare. Dacă pagina este deschisă, motorul de căutare o adaugă la indexul ei, dacă este închisă, atunci robotul nu o vizitează și nu o ține cont. rezultatele cautarii.
Atunci când creați un site, este important la nivel de program să închideți toate paginile de la indexare, care din anumite motive nu ar trebui să fie văzute de utilizatori și de motoarele de căutare.
Astfel de pagini includ partea administrativă a site-ului (panoul de administrare), pagini cu diverse informații despre servicii (de exemplu, cu datele personale ale utilizatorilor înregistrați), pagini cu formulare pe mai multe niveluri (de exemplu, forme complexeînregistrare), formulare părere etc.
Exemplu: Profil de utilizator pe forum despre motoare de căutare ah Motoare de căutare.
De asemenea, este obligatorie închiderea paginilor de la indexare, al căror conținut este deja folosit pe alte pagini.Asemenea pagini se numesc duplicat. Dublatele complete sau parțiale pesimizează foarte mult site-ul, deoarece cresc cantitatea de conținut non-unic de pe site.
După cum puteți vedea, conținutul ambelor pagini se suprapune. Prin urmare, paginile de categorii de pe site-urile WordPress sunt închise de la indexare, sau pe ele este afișat doar titlul postărilor.
Același lucru este valabil și pentru paginile de etichete - aceste pagini se găsesc adesea în structura blogurilor WordPress. Norul de etichete facilitează navigarea pe site și permite utilizatorilor să găsească rapid informații de interes. Cu toate acestea, acestea sunt duplicate parțiale ale altor pagini, ceea ce înseamnă că sunt supuse închiderii de la indexare.
Un alt exemplu este un magazin pe CMS OpenCart.
Pagina categoriei de produse http://www.masternet-instrument.ru/Lampy-energosberegajuschie-c-906_910_947.html .
Pagina produselor acoperite de reducere http://www.masternet-instrument.ru/specials.php .
Aceste pagini au conținut similar, deoarece conțin multe dintre aceleași produse.
Deosebit de critic pentru a duplica conținut diverse pagini site-ul aparține Google. In spate un numar mare de duplicate în Google, puteți câștiga anumite sancțiuni până la excluderea temporară a site-ului din rezultatele căutării.
Un alt caz în care conținutul paginilor nu ar trebui să fie „arat” motorului de căutare este paginile cu conținut neunic. Un exemplu tipic este instrucțiunile pentru medicamente dintr-o farmacie online. Conținutul de pe pagina de descriere a produsului http://www.piluli.ru/product271593/product_info.html nu este unic și a fost publicat pe sute de alte site-uri.
Este practic imposibil să-l faci unic, deoarece rescrierea unor astfel de texte specifice este o sarcină ingrată și interzisă. cea mai bună soluțieîn acest caz, pagina va fi închisă de la indexare, sau de la scrierea unei scrisori către motoarele de căutare cu o solicitare de a fi loiali conținutului neunic care nu poate fi făcut unic dintr-un motiv sau altul.
Cum să închideți paginile de la indexare
Instrumentul clasic pentru închiderea paginilor de la indexare este fișierul robots.txt. Acesta se află în directorul rădăcină al site-ului dvs. și este creat special pentru a arăta roboților de căutare paginile pe care nu ar trebui să le viziteze. Acesta este de obicei fisier text pe care le puteți edita oricând. Dacă nu aveți un fișier robots.txt sau dacă este gol, motoarele de căutare vor indexa implicit toate paginile pe care le găsesc.
Structura fișierului robots.txt este destul de simplă. Poate consta din unul sau mai multe blocuri (instrucțiuni). Fiecare instrucțiune, la rândul său, constă din două rânduri. Prima linie se numește User-agent și specifică ce motor de căutare trebuie să urmeze această instrucțiune. Dacă doriți să dezactivați indexarea pentru toate motoarele de căutare, prima linie ar trebui să arate astfel:
Dacă doriți să dezactivați indexarea paginii pentru un singur PS, de exemplu, pentru Yandex, prima linie arată astfel:
A doua linie a instrucțiunii se numește Disallow. Pentru a dezactiva toate paginile site-ului, scrieți următoarele în acest rând:
Pentru a permite indexarea tuturor paginilor, a doua linie ar trebui să arate astfel:
În linia Disallow, puteți specifica anumite foldere și fișiere pe care doriți să le închideți de la indexare.
De exemplu, pentru a dezactiva indexarea folderului de imagini și a întregului conținut al acestuia, scriem:
Pentru a „ascunde” anumite fișiere din motoarele de căutare, le enumerăm:
Agent utilizator: * Nu permiteți: /myfile1.htm Nu permiteți: /myfile2.htm Nu permiteți: /myfile3.htm
Acestea sunt principiile de bază ale structurii fișierului robots.txt. Acestea vă vor ajuta să închideți paginile și folderele individuale de pe site-ul dvs. de la indexare.
Un alt mod, mai puțin obișnuit, de a dezactiva indexarea este metaeticheta Robots. Dacă doriți să închideți o pagină de la indexare sau să împiedicați motoarele de căutare să indexeze linkurile plasate pe ea, trebuie să adăugați această etichetă în codul său HTML. Trebuie plasat în zona HEAD, înainte de etichetă
.
Metaeticheta Robots constă din doi parametri. INDEX este un parametru responsabil de indexarea paginii în sine, iar FOLLOW este un parametru care permite sau interzice indexarea linkurilor aflate pe această pagină.
Pentru a dezactiva indexarea, în loc de INDEX și FOLLOW, ar trebui să scrieți NOINDEX și, respectiv, NOFOLLOW.
Astfel, dacă doriți să închideți pagina de la indexare și să împiedicați motoarele de căutare să ia în considerare link-urile de pe ea, trebuie să adăugați următoarea linie la cod:
Dacă nu doriți să ascundeți pagina de la indexare, dar trebuie să „ascundeți” linkurile de pe ea, metaeticheta Robots va arăta astfel:
Dacă, dimpotrivă, trebuie să ascundeți pagina de PS, dar țineți cont de linkuri, această etichetă va arăta astfel:
Majoritatea CMS-urilor moderne fac posibilă închiderea unor pagini de la indexare direct din panoul de administrare al site-ului. Acest lucru evită nevoia de a înțelege codul și de a configura manual acești parametri. Cu toate acestea, metodele enumerate mai sus au fost și rămân instrumentele universale și cele mai de încredere pentru interzicerea indexării.
Aspectele tehnice ale site-ului creat joacă nu mai puțin rol important pentru a promova site-ul în motoarele de căutare decât conținutul său. Unul dintre cele mai importante aspecte tehnice este indexarea site-ului, adică determinarea zonelor site-ului (fișiere și directoare) care pot fi sau nu indexate de roboții motoarelor de căutare. În aceste scopuri, se utilizează robots.txt - aceasta este dosar special, care conține comenzi pentru roboții motoarelor de căutare. Fișier corect robots.txt pentru Yandex și Google va ajuta la evitarea multor consecințe neplăcute asociate cu indexarea site-urilor.
2. Conceptul fișierului robots.txt și cerințele pentru acesta
Fișierul /robots.txt are scopul de a instrui toți roboții de căutare (păianjeni) să indexeze servere de informații așa cum este definit în acest fișier, adică numai acele directoare și fișiere server care nu sunt descrise în /robots.txt. Acest fișier trebuie să conțină 0 sau mai multe intrări care sunt asociate cu un anumit robot (după cum este determinat de valoarea câmpului agent_id) și să indice pentru fiecare robot sau pentru toți odată ce anume nu trebuie să fie indexați.
Sintaxa fișierului vă permite să setați zone de indexare restricționate, atât pentru toți, cât și pentru anumiți roboți.
Există cerințe speciale pentru fișierul robots.txt, care, dacă nu sunt urmate, pot duce la citirea incorectă de către robotul motorului de căutare sau chiar la incapacitate fisierul dat.
Cerințe primare:
toate literele din numele fișierului trebuie să fie majuscule, adică trebuie să fie litere mici:
robots.txt este corect
Robots.txt sau ROBOTS.TXT este greșit;
fișierul robots.txt trebuie creat în format text Unix. Când copiați acest fișier pe un site, clientul ftp trebuie configurat la modul text distribuire a unui fisier;
fișierul robots.txt trebuie plasat în directorul rădăcină al site-ului.
3. Conținutul fișierului robots.txt
Fișierul robots.txt include două intrări: „User-agent” și „Disallow”. Numele acestor intrări nu fac distincție între majuscule și minuscule.
Unele motoare de căutare acceptă, de asemenea intrări suplimentare. Deci, de exemplu, motorul de căutare Yandex utilizează înregistrarea gazdă pentru a determina oglinda site-ului principal (oglinda site-ului principal este un site care se află în indexul motorului de căutare).
Fiecare intrare are propriul scop și poate apărea de mai multe ori, în funcție de numărul de pagini și/sau directoare închise de la indexare și de numărul de roboți pe care îi accesați.
Pentru ca un fișier robots.txt să fie considerat valid, cel puțin o directivă „Disallow” trebuie să fie prezentă după fiecare intrare „User-agent”.
Un fișier robots.txt complet gol este echivalent cu niciun fișier robots.txt, ceea ce implică permisiunea de a indexa întregul site.
Intrarea „User-agent”.
Intrarea „User-agent” trebuie să conțină numele crawler-ului. În această intrare, puteți specifica pentru fiecare robot specific ce pagini ale site-ului să indexeze și care nu.
Un exemplu de intrare „User-agent”, în care toate motoarele de căutare sunt accesate fără excepții și este folosit simbolul „*”:
Un exemplu de intrare „User-agent”, unde este accesat doar robotul motorului de căutare Rambler:
Agent utilizator: StackRambler
Robotul fiecărui motor de căutare are propriul nume. Există două moduri principale de a-l recunoaște (nume):
pe site-urile multor motoare de căutare există o secțiune § specializată „ajutor pentru webmaster”, care indică adesea numele robotului de căutare;
la vizualizarea jurnalelor de server web, și anume la vizualizarea apelurilor către fișierul robots.txt, puteți vedea o mulțime de nume care conțin numele motoarelor de căutare sau o parte din acestea. Prin urmare, trebuie doar să alegeți numele dorit și să îl introduceți în fișierul robots.txt.
Intrarea „Disallow”.
Intrarea „Disallow” trebuie să conțină prescripții care să indice crawler-ului din intrarea „User-agent” care fișiere și/sau directoare sunt interzise de indexare.
Un exemplu de intrare în robots.txt (permiteți totul pentru indexare):
Nu permiteți:
Exemplu (site-ul este complet interzis să . Pentru aceasta, este folosit simbolul „/”): Nu permite: /
Exemplu (fișierul „page.htm” aflat în directorul rădăcină și fișierul „page2.htm” situat în directorul „dir” nu sunt permise pentru indexare):
Nu permiteți: /page.htm
Nu permiteți: /dir/page2.htm
Exemplu (pentru indexare, directoarele „cgi-bin” și „forum” și, prin urmare, tot conținutul acestui director este interzis):
Nu permiteți: /cgi-bin/
Nu permiteți: /forum/
Este posibil să blocați indexarea unui număr de documente și (sau) directoare care încep cu aceleași caractere, folosind o singură intrare „Disallow”. Pentru a face acest lucru, trebuie să scrieți caracterele inițiale identice fără o bară oblică de închidere.
Exemplu (pentru indexare, directorul „dir” este interzis, precum și toate fișierele și directoarele care încep cu literele „dir”, adică fișiere: „dir.htm”, „direct.htm”, directoare: „dir”, „director1” ”, „director2”, etc.):
Înregistrați „Permite”
Opțiunea „Permite” este utilizată pentru a indica excluderile din directoare și pagini neindexate care sunt specificate de intrarea „Nepermite”.
De exemplu, există o intrare ca aceasta:
Nu permiteți: /forum/
Dar, în același timp, pagina1 ar trebui să fie indexată în directorul /forum/. Apoi, următoarele linii vor fi necesare în fișierul robots.txt:
Nu permiteți: /forum/
Permite: /forum/page1
Intrare pe harta site-ului
Această intrare indică locația hărții site-ului în format xml, care este folosit de roboții de căutare. Această intrare specifică calea către fișierul dat.
Harta site-ului: http://site.ru/sitemap.xml
Înregistrați „gazdă”
Înregistrarea „gazdă” este utilizată de motorul de căutare Yandex. Este necesar să se determine oglinda principală a site-ului, adică dacă site-ul are oglinzi (o oglindă este parțială sau copie integrală site-ul. Prezența duplicatelor de resurse poate fi necesară pentru proprietarii de site-uri foarte vizitate pentru a crește fiabilitatea și disponibilitatea serviciului lor), apoi folosind directiva „Gazdă”, puteți selecta numele sub care doriți să fiți indexat. În caz contrar, „Yandex” va alege singur oglinda principală, iar indexarea altor nume va fi interzisă.
Pentru compatibilitate cu crawlerele care nu acceptă directiva Gazdă atunci când procesați fișierul robots.txt, trebuie să adăugați o intrare „Gazdă” imediat după intrările Disallow.
Exemplu: www.site.ru - oglinda principală:
Gazdă: www.site.ru
Înregistrați „Crawl-delay”
Această intrare este acceptată de Yandex. Este o comandă pentru robot care face intervale de timp dat (în secunde) între paginile de indexare. Uneori, acest lucru este necesar pentru a proteja site-ul de supraîncărcări.
Deci, o înregistrare de următorul tip înseamnă că robotul Yandex trebuie să treacă de la o pagină la alta nu mai devreme de 3 secunde:
Comentarii
Orice rând din robots.txt care începe cu un caracter „#” este considerat un comentariu. Este permisă utilizarea comentariilor la sfârșitul rândurilor cu directive, dar este posibil ca unii roboți să nu recunoască corect această linie.
Exemplu (comentariul este pe aceeași linie cu directiva):
Nu permiteți: /cgi-bin/ #comment
Este recomandabil să plasați comentariul pe un rând separat. Un spațiu la începutul unei linii este permis, dar nu este recomandat.
4. Exemple de fișiere robots.txt
Exemplu (comentariul este pe o linie separată): Nu permiteți: /cgi-bin/#comment
Un exemplu de fișier robots.txt care permite tuturor roboților să indexeze întregul site:
Gazdă: www.site.ru
Un exemplu de fișier robots.txt care interzice tuturor roboților să indexeze site-ul:
Gazdă: www.site.ru
Un exemplu de fișier robots.txt care interzice tuturor roboților să indexeze directorul „abc”, precum și toate directoarele și fișierele care încep cu caracterele „abc”.
Gazdă: www.site.ru
Un exemplu de fișier robots.txt care interzice indexarea paginii „page.htm”, aflată în directorul rădăcină al site-ului, de către robotul de căutare „googlebot”:
Agent utilizator: googlebot
Nu permiteți: /page.htm
Gazdă: www.site.ru
Un exemplu de fișier robots.txt care dezactivează indexarea:
– către robotul „googlebot” – pagina „page1.htm” aflată în directorul „directory”;
- către robotul „Yandex” - toate directoarele și paginile care încep cu caracterele „dir” (/dir/, /direct/, dir.htm, direction.htm etc.) și situate în directorul rădăcină al site-ului.
Agent utilizator: googlebot
Nu permiteți: /directory/page1.htm
Agent utilizator: Yandex
5. Erori legate de fișierul robots.txt
Una dintre cele mai frecvente greșeli este sintaxa inversată.
Nu dreapta:
Nu permite: Yandex
Dreapta:
Agent utilizator: Yandex
Nu dreapta:
Nu permiteți: /dir/ /cgi-bin/ /forum/
Dreapta:
Nu permiteți: /cgi-bin/
Nu permiteți: /forum/
Dacă, la procesarea unei erori 404 (documentul nu a fost găsit), serverul web emite o pagină specială, iar fișierul robots.txt lipsește, atunci este posibil ca robotul de căutare, la solicitarea fișierului robots.txt, să primească la fel pagina speciala, care nu este un fișier de control al indexării.
O eroare legată de utilizarea incorectă a majusculelor în fișierul robots.txt. De exemplu, dacă trebuie să închideți directorul „cgi-bin”, atunci nu puteți scrie numele directorului în majuscule „cgi-bin” în intrarea „Disallow”.
Nu dreapta:
Nu permiteți: /CGI-BIN/
Dreapta:
Nu permiteți: /cgi-bin/
O eroare legată de absența unei bare oblice de deschidere la închiderea unui director de la indexare.
Nu dreapta:
Nu permiteți: page.HTML
Dreapta:
Nu permiteți: /page.HTML
Pentru a evita cele mai frecvente erori, fișierul robots.txt poate fi verificat folosind Yandex.Webmaster sau Instrumente pentru webmasteri Google. Verificarea se efectuează după ce fișierul este încărcat.
6. Concluzie
Astfel, prezența unui fișier robots.txt, precum și compilarea acestuia, pot afecta promovarea site-ului în motoarele de căutare. Fără a cunoaște sintaxa fișierului robots.txt, puteți interzice indexarea posibilelor pagini promovate, precum și a întregului site. Și, dimpotrivă, compilarea competentă a acestui fișier poate ajuta foarte mult la promovarea resursei, de exemplu, puteți închide documente care interferează cu promovarea paginilor necesare de la indexare.
Doriți să aflați cum să dezactivați indexarea site-urilor în robots.txt și alte instrumente? Atunci acest articol este doar pentru tine.
Desigur, proprietarii de site-uri se străduiesc să se asigure că resursa lor este indexată de motoarele de căutare cât mai repede posibil. Dar există momente când este necesar să interziceți indexarea site-ului, astfel încât botul de căutare să nu viziteze resursa de ceva timp. Astfel de cazuri pot fi:
crearea recentă a site-ului, când încă nu există informații utile despre acesta;
necesitatea de a face actualizări (de exemplu, schimbarea designului site-ului);
prezența partițiilor ascunse sau secrete sau Link-uri utile, pe care nu ați dori să-l transmiteți boților de căutare.
Puteți închide întregul site sau părțile sale individuale:
Există multe moduri prin care puteți bloca site-ul de la indexare. Editarea fișierului robots.txt este una dintre ele. Vom lua în considerare această metodă și încă două dintre cele mai populare și simple.
Cum să închideți un site de la indexare pentru Yandex, Google și toate motoarele de căutare în robots.txt
Editarea fișierului robots.txt este una dintre cele mai fiabile și mai rapide moduri setați această interdicție pentru motoarele de căutare pentru ceva timp sau pentru totdeauna. Ce trebuie sa fac:
Crearea unui fișier robots.txt. Pentru a face acest lucru, trebuie să creați un obișnuit Document text cu extensia .txt, numiți-o „roboți”.
Încărcați fișierul generat în folderul rădăcină blogul tau. Dacă site-ul este construit pe Motor WordPress, atunci acest folder poate fi găsit unde se află folderele wp-includes, wp-content etc.
Setarea directă a interzicerii indexării pentru motoarele de căutare.
Interzicerea indexării site-urilor poate fi setată atât pentru anumite motoare de căutare, cât și pentru toate motoarele de căutare. Ne vom uita la diferite opțiuni.
Pentru a împiedica indexarea site-ului de către roboții de căutare Google, va trebui să scrieți următoarele în fișierul robots.txt:
Agent utilizator: Googlebot
interzice: /
Pentru a verifica dacă site-ul a fost închis de la indexare, este creat un cont și site-ul dorit este adăugat la Google Webmaster. Există o funcție de verificare aici.
După aceea, rezultatele vor fi afișate. Dacă site-ul este blocat pentru indexare, va spune „Blocat după linie” și va indica ce linie blochează indexarea. Dacă vreo acțiune de interzicere a indexării de către roboții de căutare Google a fost efectuată incorect, atunci „Permis” va fi semnat.
Vă rugăm să rețineți că acest lucru nu este posibil cu motorul de căutare robots.txt sistemul Google Dezactivează 100% indexarea. Acesta este un fel de recomandare pentru Google, deoarece va decide singur dacă indexează un singur document sau nu.
Pentru a împiedica indexarea materialelor site-ului de către Yandex, introduceți următoarele în fișierul robots.txt:
Agent utilizator: Yandex
interzice: /
Pentru a verifica starea unei resurse, trebuie să o adăugați la Yandex Webmaster, unde apoi trebuie să introduceți câteva pagini de pe site-ul dvs. și să faceți clic pe butonul „Verifică”. Dacă totul a funcționat, în rând va fi afișată inscripția „Interzis de regulă”.
De asemenea, puteți seta o interdicție de indexare a site-ului dvs. în același timp pentru toate motoarele de căutare. Pentru a face acest lucru, deschideți din nou fișierul robots.txt și scrieți următoarea linie în el:
Agent utilizator: *
interzice: /
Verificarea interdicției de indexare pentru Google și Yandex se efectuează conform schemei de mai sus în Google Webmaster și, respectiv, Yandex Webmaster.
Pentru a vedea fișierul robots.txt, trebuie să accesați domeniul dumneavoastră.ru/robots.txt. Tot ce a fost scris va fi afișat aici. Se întâmplă să apară o eroare 404. Aceasta indică faptul că ceva a fost greșit la încărcarea fișierului.
Preveniți indexarea unei resurse utilizând bara de instrumente
Metoda de închidere a site-ului de la indexare folosind bara de instrumente este potrivită doar pentru acele resurse care au fost realizate pe WordPress.
Procedura este simplă și rapidă:
Deschideți „Panou de control”, accesați „Setări” - „Citire”;
Bifați caseta „Recomandă motoarele de căutare să nu indexeze acest site”.
Salvează modificările.
Efectuarea acestor acțiuni este doar o recomandare pentru motoarele de căutare.. Și dacă materialele de resurse vor fi indexate sau nu, ei decid singuri. În setările de vizibilitate a site-ului, există chiar sfoară specială: « motoare de căutare decideți dacă vă urmați cererea.” Rețineți că Yandex de obicei „se supune”, iar Google poate acționa la propria discreție și, în unele cazuri, poate indexa site-ul, în ciuda recomandării.
Închiderea manuală a site-ului de la indexare
În codul sursă, când pagina sau întreaga resursă este închisă de la indexare, apare o linie
Această linie le spune motoarelor de căutare că nu este necesară indexarea materialelor sau resurselor individuale. Puteți introduce manual această linie oriunde pe site. Principalul lucru este că este afișat pe toate paginile.
Această metodă este potrivită și pentru a închide orice document inutil de la indexare.
După efectuarea actualizărilor, trebuie să verificați dacă totul a funcționat. Pentru aceasta trebuie să deschideți sursă prin intermediul tastele CTRL+ U și vezi dacă conține linia dorită. Prezența acestuia confirmă operațiunea de succes de închidere de la indexare. În plus, puteți verifica în Yandex Webmaster și Google Webmaster.
Deci, am considerat cel mai simplu și moduri rapide, permițându-vă să închideți întregul site sau materialele individuale de resurse de la indexare motoare de căutare. Și, după cum sa dovedit, robots.txt este una dintre modalitățile ușoare și relativ fiabile.
Recent, mi-a împărtășit observația că multe site-uri care vin la noi pentru audit au adesea aceleași erori. Mai mult decât atât, aceste greșeli nu pot fi numite întotdeauna banale - chiar și webmasterii avansați le fac. Așa că a venit ideea de a scrie o serie de articole cu instrucțiuni de urmărire și remediere greseli similare. În primul rând este un ghid pentru configurarea indexării site-urilor. Dau cuvântul autorului.
Pentru o indexare bună a site-ului și o mai bună clasare a paginii, este necesar ca motorul de căutare să ocolească paginile cheie promovate ale site-ului, iar pe paginile în sine să poată evidenția cu acuratețe conținutul principal fără a se confunda în abundența de servicii și informații auxiliare. Site-urile web care vin la noi pentru analiză au două tipuri de erori:
1. Atunci când promovează un site, proprietarii lor nu se gândesc la ceea ce vede botul de căutare și adaugă la index. În acest caz, poate apărea o situație când în index există mai multe pagini nedorite decât cele promovate, iar paginile în sine sunt supraîncărcate.
2. Dimpotrivă, proprietarii sunt prea zeloși să curețe șantierul. Impreuna cu informatii inutile datele care sunt importante pentru promovarea și evaluarea paginilor pot fi, de asemenea, ascunse.
Astăzi vrem să luăm în considerare ce merită cu adevărat ascuns de roboții de căutare și cum să o facem cel mai bine. Să începem cu conținutul paginii.
Conţinut
Probleme legate de închiderea conținutului de pe site:
Pagina este evaluată de roboții de căutare în mod cuprinzător și nu numai de indicatori de text. Fiind purtat de inchiderea diverselor blocuri, informatiile care sunt importante pentru evaluarea utilitatii si clasamentului sunt deseori sterse.
Să luăm un exemplu dintre cele mai multe greșeli comune:
ascunde antetul site-ului. De obicei conține Informații de contact, linkuri. Dacă antetul site-ului este închis, motoarele de căutare ar putea să nu știe că ați avut grijă de vizitatori și ați plasat Informații importante pe un loc proeminent;
- filtrele, formularul de căutare, sortarea sunt ascunse de indexare. Prezența unor astfel de oportunități într-un magazin online este un indicator comercial important care este mai bine să arăți decât să ascunzi. - informațiile despre plată și livrare sunt ascunse. Acest lucru se face pentru a crește unicitatea pe cardurile de produse. Dar acestea sunt și informații care ar trebui să fie pe un card de produs de înaltă calitate. – meniul este „decupat” din pagini, înrăutățind evaluarea confortului navigării pe site.
De ce o parte din conținutul site-ului este închis? De obicei, există mai multe obiective: - să se concentreze pe conținutul principal din pagină, eliminând informațiile auxiliare, blocurile de servicii, meniurile din index; - face pagina mai unică, utilă prin eliminarea blocurilor duplicate de pe site; - eliminați textul „extra”, crește relevanța textului paginii.
Toate acestea pot fi realizate fără a fi nevoie să ascundeți o parte din conținut! Ai un meniu foarte mare? Afișați pe pagini numai acele articole care au legătură directă cu secțiunea.
Multe alegeri în filtre? Afișați numai cele populare în codul principal. Încărcați alte opțiuni numai dacă utilizatorul face clic pe butonul „afișați tot”. Da, aici sunt folosite scripturi, dar nu există nicio înșelăciune - scriptul funcționează la cererea utilizatorului. Motorul de căutare va putea găsi toate articolele, dar atunci când sunt evaluate, acestea nu vor primi aceeași valoare ca și conținutul principal al paginii.
Pe pagina bloc mare cu stirile? Reduceți numărul acestora, afișați numai titluri sau pur și simplu eliminați blocul de știri dacă utilizatorii dau clic rar pe linkuri din acesta sau dacă există puțin conținut principal pe pagină.
Roboții de căutare, deși departe de a fi ideali, se îmbunătățesc constant. Google arată deja ascunderea scripturilor de la indexare ca o eroare Tablouri de bord GoogleSearch Console(fila „Resurse blocate”). Nu arăta un anumit conținut roboților poate fi într-adevăr util, dar aceasta nu este o metodă de optimizare, ci mai degrabă „cârje” temporare care ar trebui folosite doar atunci când este absolut necesar.
Iti recomandam: – tratați ascunderea conținutului ca pe o „cârjă”, și recurgeți la ea doar în situații extreme, încercând să rafinați pagina în sine; - atunci când eliminați o parte a conținutului din pagină, concentrați-vă nu numai pe indicatorii de text, ci și evaluați confortul și informațiile care afectează; – înainte de a ascunde conținutul, efectuați un experiment pe mai multe pagini de testare. Boții de căutare știu cum să analizeze paginile, iar temerile tale cu privire la o scădere a relevanței se pot dovedi a fi zadarnice.
Să aruncăm o privire la ce metode sunt folosite pentru a ascunde conținutul:
eticheta noindex
Această metodă are mai multe dezavantaje. În primul rând, această etichetă ia în considerare numai Yandex, deci este inutilă pentru ascunderea textului de la Google. În plus, este important să înțelegeți că eticheta interzice numai textul să fie indexat și afișat în rezultatele căutării. Nu se aplică altor conținuturi, cum ar fi link-urile.
Asistența Yandex nu acoperă cu adevărat modul în care funcționează noindex. puțin mai multe informatii se afla intr-una din discutiile de pe blogul oficial.
Întrebarea utilizatorului:
„Mecanica acțiunii și impactul asupra clasamentului etichetei nu sunt pe deplin înțelese text. În continuare, voi explica de ce atât de nedumerit. Și acum - sunt 2 ipoteze, aș vrea să aflu adevărul.
#1 Noindex nu afectează deloc clasarea/relevanța paginii
Sub această ipoteză: singurul lucru pe care îl face este să blocheze o parte din conținut să nu apară în rezultatele căutării. În acest caz, întreaga pagină este considerată ca un întreg, inclusiv blocurile închise, relevanța și parametrii asociați (unicitate, conformitate, etc.) pentru aceasta sunt calculate în funcție de tot conținutul din cod, chiar și închis.
Nr. 2 Noindex afectează clasarea și relevanța, deoarece conținutul inclus într-o etichetă nu este evaluat deloc. În consecință, este adevărat opusul. Pagina va fi clasată în funcție de conținutul care este deschis roboților.
Când poate fi utilă o etichetă: – dacă există suspiciuni că pagina este retrogradată în rezultatele Yandex din cauza reoptimizării, dar în același timp ocupă poziții de TOP pentru fraze importante în Google. Trebuie să înțelegeți că aceasta este o soluție rapidă și temporară. Dacă întregul site a intrat sub „Baden-Baden”, noindex, după cum au confirmat în mod repetat reprezentanții Yandex, nu va ajuta; - a ascunde generalul informatii de serviciu, pe care dumneavoastră, din cauza reglementărilor corporative sau legale, trebuie să le indicați în pagină; – pentru a corecta fragmente în Yandex dacă acestea conțin conținut nedorit.
Ascunderea conținutului cu AJAX
Acest metoda universala. Vă permite să ascundeți conținut atât din Yandex, cât și din Google. Dacă doriți să curățați pagina de conținut care estompează relevanța, este mai bine să o utilizați. Reprezentanții PS, desigur, nu salută această metodă și recomandă asta roboți de căutare au văzut același conținut ca și utilizatorii. Tehnologie folosind AJAX este larg răspândită și dacă nu vă angajați în desimulare explicită, sancțiunile pentru utilizarea sa nu amenință. Dezavantajul metodei este că încă trebuie să blocați accesul la scripturi, deși Yandex și Google nu recomandă să faceți acest lucru.
Paginile site-ului
Pentru promovare de succes este important nu numai să scapi de Informații suplimentare pe pagini, dar și clar index de căutare site din pagini nedorite inutile. În primul rând, va accelera indexarea principalelor pagini promovate ale site-ului. În al doilea rând, prezența în index un numar mare paginile nedorite vor afecta negativ evaluarea site-ului și promovarea acestuia.
Enumerăm imediat paginile pe care este indicat să le ascundem:
– pagini de aplicații, coșuri de utilizator; – rezultatele căutării pe site; – informatiile personale ale utilizatorilor; – pagini de rezultate de comparare a produselor și similare module auxiliare; – pagini generate de filtrele de căutare și sortare; – paginile părții administrative a site-ului; - Versiunea printabila.
Luați în considerare modalități prin care puteți închide paginile de la indexare.
Închideți în robots.txt
Aceasta nu este cea mai bună metodă.
În primul rând, fișierul roboți nu este conceput pentru a trata duplicatele și pentru a curăța site-urile de pagini nedorite. În aceste scopuri, este mai bine să folosiți alte metode.
În al doilea rând, o interdicție în fișierul roboți nu este o garanție că pagina nu va intra în index.
Iată ce spune Google despre asta în ajutorul lor:
metaetichetă noindex
Pentru a vă asigura că paginile sunt excluse din index, este mai bine să utilizați această metaetichetă.
Mai jos este o variantă a etichetei meta pe care ambele motoare de căutare o înțeleg:
Punct important!
Pentru ca Googlebot să vadă metaeticheta noindex, trebuie să deschideți accesul la paginile care sunt închise în fișierul robots.txt. Dacă acest lucru nu se face, robotul poate pur și simplu să nu viziteze aceste pagini.
X-Roboți-Anteturi de etichete
Un avantaj semnificativ al acestei metode este că interdicția poate fi plasată nu numai în codul paginii, ci și prin fișierul rădăcină .htaccess.
Această metodă nu este foarte comună în Runet. Credem că principalul motiv pentru această situație este că Yandex utilizează această metodă perioadă lungă de timp nu a susținut. În acest an, angajații Yandex au scris că metoda este acum acceptată.
Nu puteți apela răspunsul de asistență detaliat))). Înainte de a trece la interzicerea indexării folosind X-Robots-Tag, este mai bine să vă asigurați că această metodă funcționează sub Yandex. Încă nu ne-am creat propriile experimente pe această temă, dar este posibil să facem acest lucru în viitorul apropiat.
Protecție cu parolă
Dacă trebuie să ascundeți întregul site, de exemplu, o versiune de testare, vă recomandăm și utilizarea acestei metode. Poate singurul dezavantaj este că poate fi dificil, dacă este necesar, să scanezi un domeniu ascuns sub o parolă.
Eliminați paginile nedorite cu AJAX
Ideea nu este doar de a interzice indexarea paginilor generate de filtre, sortare etc., ci de a nu crea deloc pagini similare pe site.
De exemplu, dacă utilizatorul a selectat un set de parametri în filtrul de căutare pe care nu i-ați creat pagină separată, modificările aduse produselor afișate pe pagină au loc fără modificarea adresei URL în sine.
Complexitatea acestei metode este că de obicei nu poate fi aplicată imediat pentru toate cazurile. O parte din paginile generate este folosită pentru promovare.
De exemplu, filtrați paginile. Pentru „frigider + Samsung + alb”, avem nevoie de o pagină, dar pentru „frigider + Samsung + alb + cu două camere + fără îngheț”, nu mai avem nevoie de pagină.
Prin urmare, trebuie să creați un instrument care implică crearea de excepții. Acest lucru complică sarcina programatorilor.
Folosiți metode de interzicere a indexării din algoritmii de căutare
Acest instrument vă permite să specificați cum să identificați o apariție în Adresele URL ale paginilor noi optiuni.
Directiva Clean-param în robots.txt
În Yandex, o interdicție similară pentru parametrii URL poate fi înregistrată folosind directiva Clean-param. Puteți citi despre asta.
Adrese canonice ca o modalitate de a preveni apariția paginilor nedorite pe site Această metaetichetă a fost creată special pentru a combate duplicatele și paginile nedorite de pe site. Vă recomandăm să îl înregistrați pe întreg site-ul, pentru a preveni apariția paginilor duplicate și gunoi în index.
Instrumente pentru eliminarea locală a paginilor din indexul Yandex și Google
Dacă apare o situație când aveți nevoie urgent să eliminați informații din index, fără a aștepta ca banul dvs. să fie văzut munca de prospectare, puteți utiliza instrumente din panoul Yandex.Webmaster și Google Search Console.
În Yandex, acesta este „Ștergeți adresa URL”:
În Google Search Console „Eliminați adresa URL”:
Link-uri interne
Legăturile interne sunt închise de la indexare pentru a redistribui ponderile interne către paginile principale promovate. Dar chestia este: - o astfel de redistribuire poate afecta negativ legături comuneîntre pagini – linkurile de la șablon prin blocuri au de obicei o greutate mai mică sau pot să nu fie luate în considerare deloc.
Luați în considerare opțiunile care sunt utilizate pentru a ascunde legăturile:
eticheta noindex
Această etichetă este inutilă pentru ascunderea linkurilor. Se aplică doar textului.
atribut
În prezent, atributul nu permite să economisiți greutate pe pagină. Când utilizați , greutatea este pur și simplu pierdută. În sine, utilizarea etichetei pentru legăturile interne nu pare foarte logică.
Ascunderea linkurilor cu scripturi
Aceasta este de fapt singura metodă de lucru prin care puteți ascunde link-urile din motoarele de căutare. Puteți utiliza Ajax și puteți încărca blocuri de link-uri după ce pagina s-a încărcat sau puteți adăuga link-uri prin înlocuirea etichetei cu un script pe . În același timp, este important să ținem cont de asta algoritmi de căutare capabil să recunoască scripturi.
Ca și în cazul conținutului, aceasta este o „cârjă” care poate rezolva uneori o problemă. Dacă nu sunteți sigur că veți obține un efect pozitiv dintr-un bloc ascuns de link-uri, este mai bine să nu utilizați astfel de metode.
Concluzie
Eliminarea blocurilor voluminoase transversale dintr-o pagină poate avea într-adevăr un efect pozitiv asupra clasamentelor. Este mai bine să faceți acest lucru prin scurtarea paginii și afișarea numai a conținutului de care au nevoie vizitatorii pe ea. Ascunderea conținutului din motorul de căutare este o cârjă care ar trebui folosită numai în cazurile în care este imposibil să se reducă blocurile transversale în alte moduri.
Când eliminați o parte a conținutului din pagină, nu uitați că nu doar criteriile de text sunt importante pentru clasare, ci și caracterul complet al informațiilor, factorii comerciali.
Situația este aproximativ aceeași cu link-urile interne. Da, uneori poate fi util, dar redistribuirea artificială a masei de link-uri pe site este o metodă controversată. Este mult mai sigur și mai de încredere să respingi pur și simplu link-urile despre care nu ești sigur.
Cu paginile site-ului totul este mai clar. Este important să vă asigurați că paginile nedorite, inutile, nu intră în index. Pentru a face acest lucru, există multe metode pe care le-am colectat și descris în acest articol.
Vă puteți consulta oricând cu noi aspecte tehnice optimizare sau promovare la cheie, care include .