Conținut duplicat. Conținut duplicat

13.08.2019 Programe

Conținutul duplicat este una dintre principalele probleme ale clasamentului scăzut al unui site în motoarele de căutare. Această problemă este cauzată de prezența paginilor pe site care sunt complet sau parțial identice între ele. Desigur, pentru motoarele de căutare, prezența paginilor de gunoi pe site este o problemă serioasă, deoarece trebuie să cheltuiți puterea serverului pentru procesarea acestora. Nu are sens ca motoarele de căutare să risipească resurse fizice indexând astfel de conținut inutil. Prin urmare, ei luptă cu astfel de site-uri aplicând un filtru acestora, sau le subestimează în clasament, ceea ce duce la poziții scăzute pentru interogările promovate.

Duplicat și SEO

Prezența paginilor duplicate pe site duce la faptul că:

Sucul de link-uri utile este irosit pe aceste pagini inutile.
Pagina duplicată după următoarea actualizare înlocuiește pagina țintă și își pierde poziția.
Conținutul duplicat reduce unicitatea tuturor paginilor pe care este plasat.
Deoarece motorul de căutare se luptă cu astfel de pagini, eliminându-le din căutare, poate exclude și pagina promovată.

Clasificarea duplicatelor și soluții pentru eliminarea acestora

Duplicatele pot fi complete sau parțiale. Dublatele complete sunt atunci când paginile sunt complet identice. În consecință, dublurile parțiale sunt atunci când paginile nu se potrivesc complet. Dublatele complete sunt eliminate prin robots.txt și setarea de redirecționare 301. Dublatele parțiale sunt eliminate prin efectuarea modificărilor necesare pe site.

Iată o listă de liste de verificare pe care trebuie să le parcurgeți pentru a identifica și rezolva problema duplicaturilor:

Căutați duplicate ale paginii principale a site-ului. De exemplu, pot exista următoarele variante ale paginii principale: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http ://domen.com/, https://www.domen.com/, http://www.domen.com/index.html. După cum puteți vedea, există multe opțiuni, dar cea mai bună opțiune este http://www.domen.com/. Pentru a elimina copiile rămase ale paginii principale, se folosește o redirecționare 301 și o închidere în robots.txt (în cazul structurilor precum https://www.domen.com/.
Verificarea fundamentală (regula de aur a SEO) - fiecare pagină ar trebui să fie disponibilă doar la o singură adresă. Nu este permis ca adresele să varieze după cum urmează: http://www.domen.com/stranica1/stranica2/ și http://www.domen.com/stranica2/stranica1/.
Verificarea prezenței variabilelor în url. Ei, în adresa paginii, nu ar trebui să fie. De exemplu, generarea de adrese URL precum: http://www.domen.ru/index.php?dir=4567&id=515 este o eroare. Url-ul corect ar fi: http://www.domen.ru/dir/4567/id/515.
Verificarea prezenței identificatorilor de sesiune în adresele URL. De exemplu, adrese URL precum http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 nu sunt permise. Astfel de adrese URL conțin un număr infinit de copii ale fiecărei pagini. Prin urmare, este necesar să închideți toți identificatorii de sesiune din robots.txt.

Bună prieteni! Conținutul duplicat pe un site web este cronic în comerțul electronic. Se pare că fiecare platformă, indiferent cât de optimizată este pentru , creează o formă de conținut repetitiv, împiedicând site-ul să atingă performanțe de vârf.

Modul în care conținutul duplicat de pe site-ul tău distruge SEO

În primul rând, să înțelegem ce este conținutul duplicat. Poate că nu este chiar ceea ce crezi.

Contrar credinței populare, nu există penalități pentru conținutul duplicat. În 2008, Google scria pe blogul lor: „Să punem totul la locul lui odată pentru totdeauna, băieți. Pur și simplu nu există o penalizare pentru conținutul duplicat.”

Cu toate acestea, există o problemă foarte reală, dar mai puțin vizibilă cu acest tip de conținut. Ușurarea algoritmică sau degradarea performanței are loc cu toate tipurile de pagini care conțin conținut repetitiv.

Conținutul duplicat de pe un site concurează cu el însuși pentru aceleași cuvinte cheie subiect și împărtășește greutatea legăturilor pe două sau mai multe pagini.

Două lucruri indică în mod direct importanța în motoarele de căutare:

relevanţă
autoritate

Având mai mult de o pagină vizată de aceeași pagină, le face din ce în ce mai puțin relevante pentru motoarele de căutare, deoarece le este greu să-și dea seama pentru ce pagină să se clasifice. Și, deoarece mai multe pagini sunt legate de aceleași chei, linkurile care ar fi putut face copii de rezervă pentru o pagină, în schimb, susțin slab fiecare dintre acele pagini, fără a aduce beneficii niciuna dintre ele.

Slăbirea în acest caz înseamnă semnale mai slabe trimise de site către motoarele de căutare, ceea ce îi afectează capacitatea de a se clasa.

De ce nu există nicio pedeapsă pentru asta?

În lumea Google, pedeapsa este administrată manual de o persoană reală din departamentul de calitate web al sistemului atunci când o anumită pagină sau site se încadrează în definiția stabilită a spam-ului. Cineva trebuie să sancționeze fizic resursa dacă este într-adevăr o pedeapsă. Slăbirea este de natură algoritmică și mai greu de detectat, deoarece Google nu vă va avertiza despre aceasta, așa cum este cazul amenzilor setate manual prin Google Search Console.

Efecte nedorite

Problema cu eliminarea conținutului duplicat este că simpla ștergere a paginilor poate avea câteva efecte nedorite.

În unele cazuri, clienții dvs. trebuie să vadă aceste pagini. Grilele de vizualizare sortate, paginile cu liste de dorințe, paginile imprimabile etc. pot fi din punct de vedere tehnic conținut duplicat. Eliminarea acestor pagini ar putea afecta clientul și, eventual, veniturile.

Autoritate de legătură

Fiecare adresă URL indexată are o mică greutate. Pur și simplu distrugerea paginilor duce în cele din urmă la o pierdere a autorității link-urilor și, în mod ironic, încercând să vă ajutați SEO, îl veți răni.

Scopul este de a defini exact ceea ce trebuie să realizați:

Doriți să eliminați pagina pentru motoarele de căutare, dar să o păstrați pentru cumpărători?
Trebuie să eliminați o pagină atât pentru cumpărători, cât și pentru motoarele de căutare?
Este mai important să scapi de pagină imediat (din motive legale sau din alte motive), indiferent de impactul ei SEO, sau încerci să îmbunătățești SEO cu acțiuni planificate?

Următorul tabel vă va ajuta în procesul de luare a deciziilor.

7 moduri de a scăpa de conținutul duplicat

Primul pe listă este 301 redirecționări, vedeta SEO. Folosiți această metodă de a elimina conținutul duplicat ori de câte ori este posibil, deoarece este singura modalitate de a realiza o combinație de redirecționare bot și client prin transmiterea unui link către noua adresă URL și eliminând cea veche. Spre deosebire de unele dintre celelalte opțiuni, o redirecționare 301 este o comandă către motoarele de căutare și nu doar o solicitare care poate fi ignorată.

Dacă echipa dvs. de dezvoltare evită această metodă sau dacă cumpărătorii trebuie să vadă în continuare o pagină pe care motoarele de căutare o consideră a fi conținut duplicat, luați în considerare etichetele canonice ca înlocuitoare. Au nevoie în continuare de asistență pentru dezvoltatori, dar vor necesita mai puține teste în timpul implementării și mai puțină utilizare a resurselor serverului pentru a le menține în viață. Cu toate acestea, rețineți că Google poate ignora etichetele canonice dacă crede că ați făcut o greșeală sau dacă pur și simplu nu trebuie să le respecte din anumite motive algoritmice.

Al treilea pe listă este redirecționarea 302, deși este doar pe listă pentru că este legată de redirecționarea atotputernică 301. Potrivit inginerului Google John Mueller, redirecționările 302 redirecționează autoritatea linkului, dar în 99% din cazuri nu există niciun motiv pentru a testa această teorie pentru că o redirecționare 301 oferă mai mult pentru același efort. Motivul utilizării unei redirecționări 302 poate fi atunci când este necesară o redirecționare temporară și Google nu ar trebui să deindexeze pagina, deoarece va reveni în curând.

Conținutul eliminat este dăunător

Celelalte patru metode doar de-indexează conținutul. Nu redirecționează sau nu cumpără și nu deleg autoritatea de link către o altă pagină. Așa că folosiți-le dacă sunt singura opțiune viabilă, deoarece uciderea paginilor fără a le redirecționa risipește resurse de link.

Autoritate de legătură- cel mai valoros și greu de găsit produs în căutarea naturală. Puteți crea conținut grozav și îl puteți optimiza pe site-ul dvs. canalizând autoritatea acolo unde este nevoie. Dar creșterea etică a ponderii link-urilor, cu o colecție cu adevărat diversă și autorizată de site-uri externe, necesită o combinație rară de noroc, acoperire digitală, relații cu presa, marketing offline etc. Site-urile care au reușit să învețe acest lucru sunt puține.

Dacă trebuie să distrugi o pagină, decideți dacă trebuie distrusă doar din motive SEO (de exemplu, conținut duplicat) sau din motive legale (de exemplu, nimeni altcineva nu ar trebui să o vadă vreodată). Dacă doriți doar să o excludeți temporar de la Google, puteți face acest lucru rapid și ușor în Google Search Console, folosind instrumentul Eliminare adrese URL (Index Google > Eliminare adrese URL). Pentru clienți, pagina va fi în continuare afișată atunci când este vizualizată, dar Google o va elimina imediat de la indexare.

Fii atent cu acest instrument. Dacă este utilizat incorect, este capabil să vă deindexeze întregul site.
Singura modalitate de a exclude o pagină atât de la accesul uman, cât și de la bot este de a o elimina de pe servere, determinând astfel adresa URL să returneze o eroare 404 File not found sau, folosind o redirecționare 301, redirecționarea către o nouă adresă URL.

Meta etichete noindex pentru roboți și echipe robots.txt respingerea sunt ultimele pe această listă din mai multe motive:

Atât pentru azi, succes tuturor și ne vedem curând!

Motoarele de căutare precum Google au o problemă - și numele acesteia este „conținut duplicat”. Conținutul se numește duplicat dacă apare într-o formă similară în diferite locuri de pe internetul global (la adrese URL diferite), drept urmare motoarele de căutare nu știu ce URL să afișeze în rezultatele căutării. Acest lucru poate avea un efect negativ asupra clasamentului unei pagini web, iar atunci când oamenii încep să creeze linkuri către versiuni diferite ale aceluiași conținut, problema nu face decât să se agraveze.

Acest articol vă va ajuta să înțelegeți cauzele conținutului duplicat și vă va oferi o înțelegere a ceea ce trebuie făcut în fiecare caz specific.

Ce este conținutul duplicat?

Conținutul duplicat poate fi comparat cu o răscruce de drumuri unde semnele rutiere indică în direcții diferite pentru aceeași localitate: pe ce drum ar trebui să luați? Pentru a înrăutăți lucrurile, destinația finală este și ea diferită, doar puțin. Ca cititor, nu-ți pasă, principalul lucru este să obții ceea ce ai venit, dar motorul de căutare trebuie să aleagă ce pagină să afișeze în rezultatele căutării, pentru că, desigur, nu vor să re-afișeze același conținut.

Să presupunem că articolul tău despre „cuvântul cheie x” apare neschimbat la adrese Și http://www.example.com/article-category/keyword-x/. Situația nu este exagerată: acest lucru se întâmplă în multe sisteme moderne de management al conținutului. Apoi, să presupunem că articolul tău a fost preluat de mai mulți bloggeri, unii trimit la prima adresă URL, iar alții la al doilea. Iată-l, chiar momentul în care problema motoarelor de căutare își arată adevărata natură – te preocupă și pe tine. conținutul duplicat este problema ta, deoarece acele linkuri promovează adrese URL diferite. Dacă ar fi conectat la aceeași adresă URL, șansele de clasare pentru „cuvânt cheie x” ar fi mai mari.

1 Cauzele conținutului duplicat

Există zeci de motive pentru care apare conținut duplicat. Cele mai multe dintre ele sunt de natură tehnică: nu se întâmplă adesea ca o persoană să decidă să posteze același conținut în două locuri diferite, fără a preciza care dintre ele este originală - pentru cei mai mulți dintre noi acest lucru pare nefiresc. Cu toate acestea, există multe motive tehnice și apar în principal pentru că dezvoltatorii gândesc în felul lor - nu ca browserele și nici măcar ca utilizatorii, ca să nu mai vorbim de păianjenii de căutare - ei gândesc ca programatorii. Luați, de exemplu, articolul menționat mai devreme la http://www.example.com/keyword-x/ și http://www.example.com/article-category/keyword-x/. Dacă le cereți părerea dezvoltatorilor, aceștia vă vor asigura că aici există un singur articol.

1.1 Înțelegerea greșită a conceptului de URL

Nu, dezvoltatorii nu sunt nebuni, doar vorbesc o altă limbă. Site-ul va fi susținut cel mai probabil de un CMS și va conține doar un singur articol în baza de date, dar software-ul site-ului web va permite accesul la acest articol prin mai multe adrese URL. Neînțelegerea apare pentru că, din punctul de vedere al dezvoltatorilor, identificatorul unic al articolului este ID-ul atribuit acestuia în baza de date, și nu un fel de URL. Dar pentru un motor de căutare, o adresă URL este un identificator unic de conținut. Dacă explicați situația dezvoltatorilor, aceștia vor începe să înțeleagă esența problemei și, după ce ați citit articolul, le puteți oferi chiar și o soluție gata făcută.

1.2 Identificatori de sesiune

Adesea, doriți să urmăriți activitățile vizitatorilor și să le lăsați, de exemplu, să salveze articolele dorite într-un coș de cumpărături. Pentru a realiza acest lucru, trebuie să le oferiți o „ședință”. O sesiune este un scurt istoric al activității unui vizitator pe site-ul dvs., care poate include articolele menționate anterior în coșul de cumpărături și altele asemenea. Pentru a salva sesiunea activității utilizatorului (în timp ce acesta continuă să deruleze prin paginile site-ului), trebuie să salvați undeva un identificator unic de sesiune, numit și ID-ul sesiunii. Cea mai comună soluție este utilizarea cookie-urilor, dar adevărul este că motoarele de căutare de obicei nu le salvează.

Într-un astfel de caz, unele sisteme se opresc la utilizarea identificatorilor de sesiune în URL. Aceasta înseamnă că URL-ului fiecărui link intern al site-ului web i se atribuie un ID de sesiune și, deoarece acest ID este unic pentru sesiune, acest lucru duce la crearea de noi adrese URL și, în consecință, la conținut duplicat.

1.3 Parametri URL utilizați pentru urmărire și sortare

Un alt motiv pentru apariția conținutului duplicat este utilizarea parametrilor URL care nu modifică conținutul paginii în sine, cum ar fi link-urile de urmărire. Vedeți, pentru URL-urile unui motor de căutare http://www.example.com/keyword-x/Și http://www.example.com/keyword-x/? source=rss sunt diferite. Acest lucru vă poate permite să urmăriți ce resursă a adus vizitatori, dar, în același timp, vă va îngreuna clasarea - o consecință foarte nedorită!

Acest lucru, desigur, nu se aplică numai parametrilor de urmărire, ci tuturor parametrilor care pot fi adăugați la o adresă URL și care nu modifică o parte fundamentală a conținutului. Și nu contează pentru ce este acest parametru, fie că este vorba despre „modificări în sortarea categoriei de produse” sau „afișează următoarea bară laterală” - oricare dintre ele provoacă conținut duplicat.

1.4 Scrapers și sindicare de conținut

În cea mai mare parte, site-ul dvs. sau dvs. sunteți de vină pentru apariția conținutului duplicat. Cu toate acestea, uneori, alte site-uri web vă folosesc conținutul, cu sau fără consimțământul dumneavoastră. Nu întotdeauna se leagă la sursa originală, lăsând motorul de căutare să se ocupe de încă o versiune a aceluiași articol. Cu cât site-ul tău devine mai popular, cu atât atrage mai mult scrapers, exacerbând problema din ce în ce mai mult.

1.5 Ordinea parametrilor

Un alt motiv comun este că CMS-ul nu folosește URL-uri destul de curate, ci mai degrabă URL-uri precum / ?id=1&cat=2 unde „ID” se referă la articol și „pisica” la categorie. URL /?cat=2&id=1 va reprezenta același rezultat pentru majoritatea sistemelor de site-uri web, dar pentru un motor de căutare rezultatele vor fi complet diferite.

1.6 Paginarea comentariilor

În WordPress-ul meu preferat, precum și în alte sisteme de management al conținutului, există posibilitatea de paginare a comentariilor. Acest lucru are ca rezultat conținut duplicat care apare la adresa URL a articolului, deoarece /comment-page-1/, /comment-page-2/ etc. sunt atașate la adresa URL a articolului.

1.7 Versiunea imprimabilă a paginilor

Dacă sistemul de management al conținutului creează o versiune imprimabilă a paginilor și tu le faci linkuri din articolul tău, este mai probabil ca Google să le găsească (cu excepția cazului în care, desigur, au fost blocate intenționat). Acum fii sincer cu tine: ce versiune ai prefera să vezi în rezultatele căutării Google? Versiunea cu reclamele tale și conținutul suport, sau cea cu doar articolul?

1.8 cu WWW și fără WWW

Acest motiv este la fel de vechi ca lumea, dar în cazul disponibilității ambelor versiuni ale WWW și fără WWW, motoarele de căutare din când în când (deși nu des) continuă să perceapă conținutul relevant ca fiind duplicat. Un alt motiv (nu atât de popular, dar cu care a trebuit să mă ocup și eu) este HTTP și conținutul duplicat.

2 Soluție conceptuală: URL „Canonic”.

După cum am văzut deja, atunci când mai multe adrese URL duc la același conținut, există o problemă, dar, totuși, poate fi rezolvată. Ar trebui să fie ușor pentru o persoană care lucrează la o publicație să explice care ar trebui să fie adresa URL „corectă” pentru un anumit articol, dar dacă întrebi trei persoane din aceeași companie, răspunsurile pot fi complet diferite...

Această problemă poate fi rezolvată doar cu ajutorul adresei, deoarece, oricum ar fi, nu poate exista decât o singură adresă URL. O astfel de adresă URL „corectă” pentru un anumit conținut este considerată de motoarele de căutare drept canonică.

remarcă ironică
„Canonic” este un termen care provine din tradiția romano-catolică, conform căruia a fost creată o listă de cărți sacre și acceptată ca fiind autentică. Ei au devenit cunoscuți ca Evanghelia canonică a Noului Testament. În mod ironic, a fost nevoie de Biserica Romano-Catolică peste 300 de ani și de multe bătălii pentru a stabili această listă canonică. În cele din urmă, au căzut de acord asupra a patru versiuni ale aceleiași povești...

3 Identificarea problemelor de conținut duplicat

Poate nu știți ce a cauzat apariția conținutului duplicat pentru dvs., site-ul sau conținutul în sine este de vină? Există mai multe moduri de a afla.

3.1 Google Search Console

Google Search Console este un instrument excelent pentru identificarea conținutului duplicat. Accesați Search Console pentru site-ul dvs., apoi la fila Aspect căutare -> Îmbunătățiri HTML și veți vedea următoarele:

Paginile cu titluri sau etichete repetitive sunt aproape întotdeauna un lucru rău. Odată făcut clic, vor fi găsite adrese URL cu titluri sau etichete duplicat pentru a vă ajuta să identificați problema. În cazul în care aveți un articol ca cel pe care l-am menționat mai devreme (cuvânt cheie X) și apare în două categorii, este posibil să aibă titluri diferite. De exemplu, „Cuvânt cheie X – Categoria X – Exemplu de site” și „Cuvânt cheie X – Categoria Y – Exemplu de site”. Google nu va considera aceste titluri ca fiind duplicate, dar pot fi găsite făcând o căutare.

3.2 Căutați titluri sau fragmente

Există mai mulți operatori de căutare care sunt foarte utili în cazuri precum cel de mai sus. Dacă doriți să găsiți toate adresele URL ale site-ului dvs. care conțin articolul „cuvânt cheie X”, trebuie să introduceți următoarea expresie în căutarea Google:

site:example.com intitle:„Cuvânt cheie X”

Google vă va afișa apoi toate paginile găsite pe example.com care conțin cuvântul cheie specificat. Cu cât titlul este mai specific, cu atât va fi mai ușor să eliminați conținutul duplicat. Puteți utiliza această metodă pentru a identifica conținutul duplicat de pe Internet. Dacă, de exemplu, titlul complet al articolului dvs. este „Cuvânt cheie X – De ce e tare”, ați folosi expresia:

intitle:"Cuvântul cheie X - De ce e tare"

Și Google vă va oferi toate site-urile care se încadrează în această rubrică. Uneori este logic să cauți chiar și una sau două propoziții complete din articolul tău, deoarece unele răzuitoare pot schimba titlul. În unele cazuri, o astfel de căutare poate duce la afișarea următoarei notificări pe ultimele pagini ale unei căutări Google:

Acesta este un semn că Google este deja ocupat cu eliminarea conținutului duplicat. Dar încă nu este suficient, așa că merită să urmăriți linkul și să vă uitați la toate celelalte rezultate pentru a vedea dacă măcar unele dintre ele pot fi remediate.

4 Soluții practice pentru conținut duplicat

Odată ce ați decis care adresă URL este adresa canonică pentru o anumită parte a conținutului dvs., este timpul să treceți la procesul de canonizare („da, știu”, încercați să spuneți asta cu voce tare de trei ori repede). Aceasta înseamnă că trebuie să spunem motoarelor de căutare despre versiunea canonică a paginii și să le lăsăm să o găsească cât mai curând posibil. Există patru soluții posibile, în ordinea preferințelor acestea fiind următoarele:

Nu creați conținut duplicat
Redirecționați conținutul duplicat la adresa URL canonică
Adăugați atributul rel=canonic la o pagină cu conținut duplicat
Adăugați un link HTML de la o pagină cu conținut duplicat la versiunea canonică a paginii

4.1 Cum să evitați conținutul duplicat

Unele dintre cauzele de mai sus ale conținutului duplicat sunt ușor de eliminat:

URL-urile dvs. au coduri de sesiune în ele? Adesea, puteți doar să le luați și să le dezactivați în setările sistemului.
Aveți versiuni imprimabile ale paginilor? Nu este nevoie de ele: trebuie doar să utilizați stiluri CSS pentru imprimare.
Folosești paginarea comentariilor în WordPress? Trebuie doar să dezactivați această funcție (în secțiunea de setări pentru 99% dintre site-uri).
Ordinea parametrilor rămâne aceeași? Spune-i programatorului să scrie un script care va ordona întotdeauna parametrii (denumită adesea „fabrică de URL”).
Există probleme cu urmărirea link-urilor?În cele mai multe cazuri, puteți implementa o campanie de urmărire a hashtagurilor în loc să utilizați parametrii pentru a face acest lucru.
Ai probleme cu „WWW și non-WWW”? Alegeți unul și apoi redirecționați către cealaltă adresă. De asemenea, puteți seta preferințe utilizând Instrumentele Google pentru webmasteri, dar ambele versiuni ale numelui de domeniu trebuie să fie ale dvs.

Chiar dacă rezolvarea problemei tale nu este ușoară, efortul poate fi bine justificat. Scopul ar trebui să fie evitarea conținutului duplicat, deoarece aceasta este de departe cea mai bună soluție.

4.2 301 redirecționare conținut duplicat

Există momente în care pur și simplu nu este posibil să evitați complet sistemul să folosească adrese URL proaste (pentru conținut), dar acestea pot fi cazuri în care puteți utiliza redirecționări. Dacă credeți că nu există nicio logică în asta (vă pot înțelege), amintiți-vă doar să vă amintiți acest lucru când discutați cu dezvoltatorii. Când lucrați la depanarea problemelor de conținut duplicat, asigurați-vă că redirecționați tot conținutul duplicat de la adresele URL vechi la cele canonice.

4.3 Utilizarea link-urilor

Uneori, chiar dacă știți că adresa URL este greșită, nu doriți sau nu puteți scăpa de versiunea duplicată a unui articol. Pentru a rezolva această problemă, motoarele de căutare au introdus elementul link canonic, care se află în antetul site-ului dvs. și arată astfel:

link rel="canonical" href="http://example.com/wordpress/seo-plugin/

Setați atributul href al linkului canonic la adresa URL canonică corectă a articolului dvs. Atunci când un motor de căutare care acceptă linkuri canonice întâlnește un astfel de element, efectuează o redirecționare 301, dând astfel aproape toată valoarea câștigată de pagina versiunii sale canonice.

Adevărat, va fi mai rapid să utilizați direct redirecționarea 301 și, prin urmare, dacă aveți de ales, trebuie să îi acordați preferință.

Cu siguranță, ați auzit de mai multe ori expresia „conținut duplicat” și, ca proprietar de site cu experiență, nu ați posta niciodată același conținut de două ori, nu?

Conținutul duplicat poate fi comparat cu un descoperit de cont bancar. Numai în acest caz vă cheltuiți bugetul valoros de crawling.

Bugetul de accesare cu crawlere este numărul de pagini de pe site pe care un robot de căutare le poate accesa cu crawlere într-o anumită perioadă de timp. Prin urmare, este atât de important să-l cheltuim pe paginile de care avem nevoie.

Manifestându-se sub diverse forme, conținutul duplicat poate deveni una dintre cele mai evazive și invizibile probleme care pot afecta negativ clasarea și promovarea unui site. Aspectul său este adesea asociat cu particularitățile arhitecturii site-ului sau cu limitările CMS.

Din păcate, nu există un astfel de verificator în Google Webmaster care ar putea detecta cu ușurință conținut duplicat. Chiar și cele mai avansate instrumente terțe nu sunt întotdeauna bune la această sarcină, mai ales când sursa problemei este în interior. Verificarea manuală este inevitabilă.

Iată o listă cu 8 motive potențiale pentru apariția paginilor duplicate pe site:

Pagini HTTP și HTTPS

Una dintre cele mai rapide moduri de a verifica dacă aveți două versiuni ale unui site disponibile pentru indexare este să încercați să îl accesați folosind atât protocoalele HTTP, cât și HTTPS. Dacă ambele versiuni se deschid, este evident că dezvoltatorul dvs. a mutat site-ul pe HTTPS și nu a configurat o redirecționare 301 din versiunea HTTP.

Înainte ca Google să încurajeze în mod activ webmasterii să-și migreze site-urile în întregime la HTTPS, mulți activau HTTPS doar pe anumite pagini care necesitau securitate suplimentară, cum ar fi paginile de conectare sau paginile de tranzacții. Dacă dezvoltatorul a folosit linkuri relative, atunci de fiecare dată când crawler-ul vizitează paginile protejate, el este forțat să adauge HTTPS la toate adresele URL, ceea ce duce în cele din urmă la pagini duplicate.

În același mod, trebuie să verificați dacă site-ul are două versiuni de pagini atât cu WWW, cât și fără WWW. Puteți rezolva această problemă setând o redirecționare 301 și specificând domeniul dvs. preferat (oglindă principală) în Google Webmaster.

Site-uri care vă fură conținutul

Deși nu există nicio legislație care să vă returneze conținutul furat, există doar modalități prin care puteți folosi codul pentru a îngreuna hoții să vă transmită conținutul drept al lor. Pentru a face acest lucru, utilizați întotdeauna link-uri absolute de pe site în loc de link-uri relative:

Link-uri absolute: http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (începe cu protocolul și conține numele site-ului).
Link-uri relative:/wiki/dublirovannyi-kontent.html (proiectează din rădăcina site-ului sau din documentul curent).

De ce este important? Când utilizați adrese URL relative, browserul dvs. presupune că linkul indică o pagină pe care vă aflați deja. Unii dezvoltatori preferă adrese URL relative, deoarece facilitează scrierea codului.

Dacă dezvoltatorul nu dorește să rescrie întregul site, pot fi utilizate etichete canonice cu auto-referință. Atunci când conținutul dvs. este găzduit pe alt site, etichetele canonice pot rămâne, ajutând Google să stabilească că site-ul dvs. este sursa originală a conținutului.

Pentru a afla că conținutul dvs. a fost furat, puteți utiliza oricare dintre serviciile gratuite (de exemplu, Siteliner, Copyscape. Etxt, AdvegoPlagiatus etc.)

Subdomenii abandonate

Să presupunem că ați renunțat la un subdomeniu și ați decis să utilizați un subdirector. Sau, de exemplu, ați creat un site complet nou. În orice caz, conținutul tău vechi poate fi în continuare accesibil și, mai mult, poate avea un efect negativ asupra clasamentului paginilor noi. Cel mai bun mod de a rezolva problema este să utilizați o redirecționare 301 din acest subdomeniu către noul site/director. Acest lucru este important mai ales dacă resursa dvs. veche are o masă mare de linkuri.

Pagini ascunse în curs de dezvoltare

Te-ai decis să actualizezi designul? Îți pregătești site-ul pentru o schimbare majoră? Dacă înainte de asta nu ți-ai închis paginile de test (și cu atât mai mult versiunile dev ale site-ului) de la indexare, atunci nu ești imun de faptul că robotul nu le va detecta.

Există o concepție greșită obișnuită că nimeni nu va ghici vreodată să introducă o adresă URL fictivă în linia browserului de pe site-ul dvs. http://razrabotka.sait.ru/, dacă nu există niciun link către acesta nicăieri în cod, se pare că acest lucru este pur și simplu nerealist. Dar nu este! Google caută și indexează în mod constant noi pagini web, inclusiv cele în curs de dezvoltare. Toate acestea pot afecta rezultatele clasamentului, precum și pot induce în eroare utilizatorii.

Acest lucru nu numai că are o taxă uriașă asupra site-ului în ceea ce privește confidențialitatea și securitatea, dar poate avea și o taxă mare asupra bugetului de accesare cu crawlere. A evita acest lucru este simplu: utilizați metaeticheta robots c noindex pe toate paginile de testare sau blocați-le în fișierul robots.txt.

Ambele opțiuni indică interzicerea indexării textului și a urmăririi linkurilor de pe pagină.

Amintiți-vă că atunci când mutați pagini din modul dev în live, trebuie să eliminați aceste directive de blocare din cod.

Parametri generați dinamic în URL

Cel mai adesea, adresele URL dinamice sunt generate pe baza filtrelor utilizate pe site. Cum arată exact aceste adrese URL?

Adresa URL 1: www.shop.com/chocolate/cake/vanilla
Adresa URL 2: www.shop.com/chocolate/cake/vanilla%8in
Adresa URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble

Acesta este un exemplu simplu, cu toate acestea, CMS-ul dvs. poate adăuga diverse opțiuni de filtrare și poate genera șiruri inutil de lungi de adrese URL care pot fi accesate cu crawler de către crawler.

Astfel, Google poate crea și indexa combinații nesfârșite de adrese URL pe care utilizatorul nici măcar nu le solicită.

În acest caz, aplicați eticheta canonică cu adresa URL preferată și configurați opțiunile de accesare cu crawlere URL în Google Webmaster.

Puteți sări peste acest pas și să blocați anumite adrese URL din fișierul robots.txt folosind caracterul (*) pentru a preveni indexarea tot ce se află în directorul specificat. De exemplu: Disallow:/ciocolata/tort/*

Subdirectoare în oglindă

Afacerea dvs. operează în mai multe regiuni? Unele companii preferă să creeze o pagină de destinație principală care să permită utilizatorilor să selecteze regiunea care li se potrivește cel mai bine și apoi să le redirecționeze către subdirectorul corespunzător. De exemplu:

Adresa URL 1: www.wonderfullywhisked.com/fr
Adresa URL 2: www.wonderfullywhisked.com/de

Deși poate părea logic, luați în considerare dacă această setare este cu adevărat necesară. La urma urmei, în timp ce vizați publicuri diferite, există șansa ca ambele subdirectoare să se dubleze complet în conținut. Pentru a rezolva această problemă, utilizați Google Webmaster pentru a configura direcționarea geografică.

Sindicarea conținutului

Sindicarea de conținut este reutilizarea aceluiași conținut pe diferite resurse pentru a vă promova site-ul/marca/conținutul și pentru a atrage trafic suplimentar.

Sindicarea este o modalitate excelentă de a introduce noi audiențe pe site-ul dvs., cu toate acestea, merită să stabiliți reguli pentru cine vă va republica conținutul.

În mod ideal, ar trebui să le ceri editorilor să folosească atributul „rel=canonic” de pe pagina de conținut pentru a indica motoarelor de căutare că site-ul tău web este sursa originală a conținutului. În plus, ele pot împiedica și indexarea conținutului, ceea ce va rezolva potențialele probleme legate de duplicarea rezultatelor căutării.

La urma urmei, editorii pot trimite înapoi la articolul original, creditându-vă ca sursă originală.

Continut Asemanator

Conținutul similar poate provoca la fel de mult rău ca și conținutul duplicat. Definiția Google a conținutului duplicat include chiar și expresia „în mod substanțial similar”. În timp ce părți ale materialului pot diferi în sintaxă, regula generală este că, dacă puteți obține aceleași informații de la ele, atunci nu există niciun motiv pentru ca ambele să existe pe un site web. Aici, o soluție excelentă la problemă este să folosiți eticheta canonică sau să luați în considerare combinarea acestor părți de conținut într-una singură.

concluzii

Este foarte important să urmăriți apariția conținutului duplicat pe site pentru a evita cheltuirea bugetului de crawling, deoarece acest lucru împiedică robotul să găsească și să indexeze pagini noi de care aveți nevoie. În acest caz, cele mai bune instrumente din arsenalul tău sunt etichetele canonice, redirecționările 301, atributele nofollow/noindex din metaeticheta „roboți” și directivele din fișierul robots.txt. Lucrați la identificarea și eliminarea conținutului duplicat adăugând aceste puncte de control la auditul dvs. SEO.

Conținutul duplicat agravează indexarea site-ului

„Drumuri diferite duc în locuri diferite și doar unul dintre ele este corect”

Bună prieteni! De mult am de gând să dezvălui acest subiect pe paginile site-ului meu, prin urmare, după ce am studiat o mulțime de materiale despre duplicarea conținutului și cauzele, consecințele și modalitățile sale de a elimina acest fenomen negativ, am decis să-mi exprim părerile despre această problemă. pe modesta mea resursă.

Aveți răbdare și studiați cu atenție toate recomandările articolului, apoi verificați starea resurselor dvs. Dacă vrei să vezi un clasament excelent al paginilor site-urilor tale în motoarele de căutare, urmărește-le cu strictețe.

Fără a pretinde că dețin toate modalitățile posibile de a elimina cauzele conținutului duplicat, îmi voi propune totuși să studiez cele mai importante puncte ale acestei probleme.

Dacă un utilizator obișnuit (și uneori webmasterul însuși) poate să nu observe conținutul duplicat de pe site, atunci motoarele de căutare vor determina imediat acest lucru. Reacția lor va fi fără echivoc: conținut din aceste pagini nu mai este unic. Și acest lucru este deja rău, deoarece le va afecta negativ clasamentul.

În plus, duplicarea estompează greutatea de referință, la o anumită postare pe care, prin optimizare, încercați să o promovați în TOP ca pagină de destinație. Dublatele vor ruina pur și simplu toate încercările de optimizare, iar efectul relinkării va fi minim.

Ce este conținutul duplicat?

1. Conținut copiat de cineva sau de dvs. personal și postat pe resurse terțe.

Puteți citi multe articole pe Internet despre cum să faceți față conținutului furat, deoarece una dintre opțiuni este articolul meu. Este posibil să exterminăm - o întrebare retorică, iar astăzi, în opinia mea, nu există soluții cardinale la această problemă pe Internet. Există doar câteva metode mai mult sau mai puțin eficiente.

2. Conținutul este un duplicat pe care webmasterul îl creează cu propriile mâini.

Un duplicat complet (sau incomplet) atunci când se distribuie informații (sau, așa cum sunt numite și anunțuri) pe site-uri și forumuri speciale. Dacă doriți să obțineți un duplicat al intrării dvs. pe Internet - duplicați-l pe o resursă decentă - rezultatul va fi aproape întotdeauna imediat. Dublarea este posibilă direct pe paginile site-ului. Ați văzut vreodată două pagini identice pe resursa dvs. când ați creat doar una? De ce se întâmplă? Motivele sunt editarea intrărilor sau salvarea celor neterminate în schițe și apoi, din neatenție, crearea unui duplicat. Webmasterul, fără să-l observe el însuși și pe viitor fără să se uite prin toate înregistrările sale pentru a nu găsi un duplicat, trăiește fericiți pentru totdeauna, nebănuind că are „gemeni”, „tripleți” etc.

3. Dublare din motive tehnice – apariția unor duplicate în care CMS-ul este de vină.

Aceste erori provin din faptul că dezvoltatorii CMS nu gândesc precum browserele sau păianjenii de căutare, ci gândesc așa cum ar trebui dezvoltatorii de motoare de site-uri web; mulți păcătuiesc asta - Joomla, de exemplu.

O să explic puțin. Să presupunem că aveți un articol cu un cuvânt cheie „conținut duplicat”. Ar trebui să fie localizat pe o pagină cu următoarea adresă:, http://domain.ru/content duplication/, dar același conținut poate fi afișat astfel: http://domain.ru/article-category/content duplication/. Și dacă țineți cont de alte duplicari, pagini, de exemplu: http://domain.ru/content duplication/?source=rss. Toate aceste adrese URL sunt adrese diferite pentru orice , dar aceleași pentru utilizator (cititor). Aceste diferențe permit webmasterului să urmărească de unde a venit utilizatorul, dar pot fi și dăunătoare dacă nu sunt făcute setările de indexare necesare.

Se știe că site-urile web funcționează datorită sistemului de baze de date existent. Există o singură versiune a unui anumit articol (ID) în baza de date, dar scripturile site-ului permit afișați acest articol din baza de date pe diferite pagini (URL). Dar motoarele de căutare au nevoie de un document (URL) - doar că este un identificator unic și nimic altceva!

4. Luări neclare.

Un tip special de duplicare, care se găsește în principal în magazinele online, unde paginile cu carduri de produse diferă doar în câteva propoziții cu o descriere, iar tot restul conținutului, constând din blocuri transversale și alte elemente, este același. Este greu să dai vina pe webmaster, deși există câteva opțiuni pentru a le remedia.

Deci, ne-am dat seama care sunt cauzele și consecințele dublării conținutului. Acum să trecem la rezolvarea problemelor. În primul rând, să aflăm

Cum detectăm paginile de copiere?

1. Mod manual.

1) Dacă conținutul dvs. nu este prea mare, parcurgeți pagina din panoul de administrare „Toate înregistrările” și, dacă se găsesc duplicate, ștergeți-le pe cele suplimentare.

2) Pentru a afla prezența duplicatelor, puteți utiliza serviciile motoarelor de căutare Yandex Webmaster sau Google Webmaster Tools.

De exemplu, în Instrumentele pentru webmasteri, deschideți pagina „Instrumente pentru webmasteri” - „Optimizare” - „Optimizare HTML”: dacă există erori și duplicate, vrăjitorul vă va arăta totul. Înțelege prin clicuri, elimină erorile și duplicatele, în același timp.

3) Utilizați direct ferestrele de căutare a sistemului (metodă aproximativă). Introduceți pentru fiecare dintre ele o înregistrare a formularului site: domain.ruși comparați rezultatele acestora. Dacă nu sunt foarte diferite, atunci duplicarea dvs. nu este atât de rea.

4) Există o modalitate eficientă de a găsi duplicate - căutarea în fragmente de text. Acest lucru se face simplu: în caseta de căutare a oricărui sistem, introduceți un fragment de text din intrarea dvs. (articol) în cantitate de 10-20 de cuvinte (de preferință din mijloc) și analizați rezultatul. Prezența a două sau mai multe pagini în rezultatele căutării înseamnă că există duplicate pentru această opusă. Daca nu, te poti bucura putin :).

Este dificil dacă site-ul a acumulat multe pagini. Verificarea de mai sus poate deveni o corvoadă insuportabilă. Dacă doriți să minimizați costurile de timp - utilizați programul Detectiv-ul lui Xenu.

Pentru a verifica site-ul, trebuie să deschideți un nou proiect selectând „Fișier” „Verificare URL” din meniu, introduceți adresa și faceți clic pe „OK”. După aceea, programul va începe să proceseze toate adresele URL ale site-ului. La sfârșitul verificării, trebuie să exportați datele primite în orice editor convenabil și să începeți să căutați duplicate.

Cine are nevoie de un link pentru a descărca fișierul acestui program, dezabonează-te în comentarii, trimite-l pe e-mail.

Așadar, am aflat care sunt motivele (principale) care duc la apariția conținutului duplicat. Acum să găsim modalități de a o remedia.

Modalități de a elimina conținutul duplicat

URL-uri canonice - o soluție conceptuală la problemă

Dacă nu aveți capacitatea de a () elimina duplicatele, problema poate fi rezolvată folosind eticheta canonica l (folosit pentru copii neclare). Eticheta canonică este potrivită și pentru versiuni pagini de tipărit si in alte cazuri similare. Se aplică foarte simplu - pentru toate copiile este specificat atributul rel="canonical", dar nu și pentru pagina principală, care este cea mai relevantă. Codul ar trebui să arate cam așa: link rel="canonical" href="http://domain.ru/page-copy"/ și să fie în eticheta head.

Pentru utilizatorii cu motor WordPress, există o oportunitate excelentă de a face toate acestea în mod automat, instalând un plugin all-in-one seo pack sau similar. În setări, această operație este setată cu etichete:

Setarea funcțiilor de interzicere în fișierul robots.txt al site-ului dvs

Deși configurarea paginilor blocate pentru indexare nu este întotdeauna o modalitate eficientă de a preveni duplicatele, deoarece motoarele de căutare reușesc uneori să le ocolească, un robot.txt configurat corespunzător va face mult mai ușoară prevenirea acestora.

DINwwwsau fărăwww

Cum vor arăta paginile site-ului dvs. - folosind doar http sau http.www? Incertitudinea va genera duplicarea. Imediat, după crearea site-ului, stabiliți ce protocol de transport hipertext veți folosi. Pentru a face acest lucru, puneți alegerea dvs. în panourile pentru webmasteri Yandex și Google (în Google, acest lucru se poate face pentru ambele versiuni, dar va trebui să confirmați drepturile pentru ambele adrese). Este posibil să-l părăsiți implicit sau să „alegeți un robot de căutare”, dar este mai bine să fiți clar definit.

Configurare redirecționare

Redirecționarea 301 este excelentă pentru lipirea paginilor de copiere ale căror adrese URL diferă prin prezența și absența www. După cum ați înțeles deja (vezi captura de ecran de mai sus), configurarea unei redirecționări pe WordPress este, de asemenea, simplificată folosind un plugin. În esență, dacă dvs. și robotul de căutare v-ați „hotarat” cu privire la alegerea dvs. - cu www sau fără acesta va exista un domeniu principal, nu este necesară configurarea unei redirecționări pentru toate paginile. Cu toate acestea, subiectul instalării unei redirecționări și oportunitatea acesteia este subiectul unui articol separat.

Rezultate și concluzii

nu permite duplicarea paginilor (conținutului) pe resursele tale, deoarece duplicatele duc la o scădere serioasă a relevanței paginilor, ceea ce face dificilă aducerea lor în prim-plan în rezultatele căutării (TOP);
problemele cu duplicarea conținutului în cea mai mare parte au o soluție - pentru aceasta, utilizați toate mijloacele posibile;
monitorizați în mod constant procesul de indexare a conținutului dvs. și de a nu crea duplicate pe acesta

Asta e tot, dragă cititor. Dacă aveți ceva de adăugat sau de corectat, puneți o întrebare - riscați!

Nu tocmai pe subiect, ci despre gemeni.

(Vizitat de 28 de ori, 1 vizite astăzi)

Conținut duplicat. Conținut duplicat

Duplicat și SEO

Clasificarea duplicatelor și soluții pentru eliminarea acestora

Modul în care conținutul duplicat de pe site-ul tău distruge SEO

De ce nu există nicio pedeapsă pentru asta?

Efecte nedorite

Autoritate de legătură

Scopul este de a defini exact ceea ce trebuie să realizați:

7 moduri de a scăpa de conținutul duplicat

Conținutul eliminat este dăunător

Meta etichete noindex pentru roboți și echipe robots.txt respingerea sunt ultimele pe această listă din mai multe motive:

Ce este conținutul duplicat?

1 Cauzele conținutului duplicat

1.1 Înțelegerea greșită a conceptului de URL

1.2 Identificatori de sesiune

1.3 Parametri URL utilizați pentru urmărire și sortare

1.4 Scrapers și sindicare de conținut

1.5 Ordinea parametrilor

1.6 Paginarea comentariilor

1.7 Versiunea imprimabilă a paginilor

1.8 cu WWW și fără WWW

2 Soluție conceptuală: URL „Canonic”.

remarcă ironică

3 Identificarea problemelor de conținut duplicat

3.1 Google Search Console

3.2 Căutați titluri sau fragmente

4 Soluții practice pentru conținut duplicat

4.1 Cum să evitați conținutul duplicat

4.2 301 redirecționare conținut duplicat

Pagini HTTP și HTTPS

Site-uri care vă fură conținutul

Subdomenii abandonate

Pagini ascunse în curs de dezvoltare

Parametri generați dinamic în URL

Subdirectoare în oglindă

Sindicarea conținutului

Continut Asemanator

concluzii

Ce este conținutul duplicat?

1. Conținut copiat de cineva sau de dvs. personal și postat pe resurse terțe.

2. Conținutul este un duplicat pe care webmasterul îl creează cu propriile mâini.

3. Dublare din motive tehnice – apariția unor duplicate în care CMS-ul este de vină.

4. Luări neclare.

Cum detectăm paginile de copiere?

1. Mod manual.

Modalități de a elimina conținutul duplicat

URL-uri canonice - o soluție conceptuală la problemă

Setarea funcțiilor de interzicere în fișierul robots.txt al site-ului dvs

DINwwwsau fărăwww

Configurare redirecționare

Rezultate și concluzii

Top articole similare