Duplicirani sadržaj. Duplicirani sadržaj

13.08.2019 Programi

Duplikat sadržaja je jedan od glavnih problema niskog rangiranja web stranice na pretraživačima. Ovaj problem je uzrokovan prisustvom stranica koje su potpuno ili djelomično identične jedna drugoj. Naravno, za pretraživače prisustvo neželjenih stranica na web stranici predstavlja ozbiljan problem, jer moraju trošiti snagu servera da ih obrađuju. Nema smisla da pretraživači troše fizičke resurse na indeksiranje takvog beskorisnog sadržaja. Stoga se bore protiv takvih stranica primjenom filtera na njih ili snižavanjem rangiranja, što dovodi do niskih pozicija za promovirane upite.

Duplikati i SEO

Prisustvo duplikata stranica na web stranici dovodi do sljedećeg:

Na ovim beskorisnim stranicama se troši korisni link.
Nakon sljedećeg ažuriranja, duplikat stranice pomiče ciljnu stranicu i gubi poziciju.
Duplikat sadržaja smanjuje jedinstvenost svih stranica na kojima je objavljen.
Kako se pretraživač bori protiv takvih stranica tako što ih uklanja iz pretraživanja, može također isključiti stranicu koja se promovira.

Klasifikacija duplikata i rješenja za njihovo uklanjanje

Duplikati mogu biti potpuni ili djelomični. Potpuni duplikati su kada su stranice potpuno identične. Prema tome, djelomični duplikati su kada se stranice ne podudaraju u potpunosti. Potpuni duplikati se eliminiraju putem robots.txt i postavljanjem 301 preusmjeravanja. Djelomični duplikati se eliminišu unošenjem potrebnih izmjena na stranici.

Evo liste kontrolnih lista kroz koje morate proći kako biste identificirali i riješili problem duplikata:

Potražite duplikate glavne stranice stranice. Na primjer, mogu postojati sljedeće opcije početne stranice: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http:/ /domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Kao što vidite, postoji mnogo opcija, ali optimalna opcija je http://www.domen.com/. Da bi se eliminisale druge kopije glavne stranice, koristi se 301 preusmjeravanje i zatvaranje u robots.txt (u slučaju struktura kao što je https://www.domen.com/.
Provjera osnovnog (zlatno pravilo SEO-a) – svakoj stranici treba pristupiti samo na jednoj adresi. Adrese se ne mogu razlikovati na sljedeći način: http://www.domen.com/stranica1/stranica2/ i http://www.domen.com/stranica2/stranica1/.
Provjera prisutnosti varijabli u URL-u. Oni ne bi trebali biti u adresi stranice. Na primjer, generiranje URL-ova poput: http://www.domen.ru/index.php?dir=4567&id=515 je greška. Tačan URL bi bio: http://www.domen.ru/dir/4567/id/515.
Provjera prisutnosti identifikatora sesije u URL-ovima. Na primjer, URL-ovi poput http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 su neprihvatljivi. Takvi URL-ovi sadrže beskonačan broj kopija svake stranice. Stoga je potrebno zatvoriti sve identifikatore sesije u robots.txt.

Zdravo prijatelji! Duplikat sadržaja na web stranici je kroničan u e-trgovini. Čini se da svaka platforma, bez obzira na to koliko je optimizirana za , stvara neki oblik materijala koji se ponavlja, sprečavajući web stranicu da postigne vrhunske performanse.

Kako duplirani sadržaj na web stranici ubija SEO

Prvo, hajde da shvatimo šta je duplirani sadržaj. Možda nije baš ono što mislite.

Suprotno popularnom mišljenju, ne postoje kazne za duplirani sadržaj. Google je još 2008. godine napisao na svom blogu: „Stavimo sve na svoje mjesto jednom za svagda, momci. Jednostavno ne postoji takva stvar kao što je kazna za duplirani sadržaj.”

A ipak postoji vrlo stvaran, ali manje vidljiv problem sa ovakvim sadržajem. Algoritamsko slabljenje ili degradacija performansi javlja se na svim vrstama stranica koje sadrže sadržaj koji se ponavlja.

Duplicirani sadržaji na web-mjestu takmiče se sami sa sobom za iste ključne riječi za temu i dijeli težinu veze između dvije ili više stranica.

Dvije stvari direktno ukazuju na važnost u pretraživačima:

relevantnost
autoritet

Imajući više stranica koje ciljaju na istu stvar, oni su sve manje relevantni za pretraživače, jer im je teško odrediti koju stranicu da rangiraju. A pošto je više stranica povezano istim ključevima, veze koje bi mogle podržati jednu stranicu umjesto toga slabo podržavaju svaku od tih stranica, ne donoseći nikakvu korist nijednoj od njih.

Slabljenje u ovom slučaju znači slabije signale koje sajt šalje pretraživačima, što utiče na njegovu sposobnost rangiranja.

Zašto nema kazni za ovo?

U svijetu Google-a, kazne se ručno dodijeljuju od strane stvarne osobe u odjeljenju za web kvalitetu sistema kada određena stranica ili web lokacija spadaju u utvrđenu definiciju neželjene pošte. Neko mora fizički sankcionisati resurs ako je to zaista kazna. Slabljenje je algoritamske prirode i teže ga je otkriti jer vas Google neće upozoriti na to, kao što je slučaj s ručno postavljenom kaznom putem Google Search Consolea.

Neželjeni efekti

Problem s otklanjanjem dupliciranog sadržaja je taj što jednostavno brisanje stranica može imati nekoliko neželjenih efekata.

U nekim slučajevima, vaši klijenti moraju vidjeti ove stranice. Sortirane mreže za pregledavanje, stranice liste želja, stranice za štampanje, itd. tehnički mogu biti duplirani sadržaj. Uklanjanje ovih stranica moglo bi naštetiti vašem klijentu i možda vašem prihodu.

Link Authority

Svaki indeksirani URL ima određenu težinu. Jednostavno ubijanje stranica na kraju rezultira gubitkom autoriteta veza, a ironično, pokušavajući da pomognete svom SEO-u, zapravo ćete ga povrijediti.

Cilj je tačno odrediti šta trebate postići:

Želite li ukloniti stranicu za tražilice, ali je zadržati za kupce?
Trebate li ukloniti stranicu i za kupce i za pretraživače?
Da li je važnije da se odmah riješite stranice (iz pravnih ili drugih razloga), bez obzira na njen SEO utjecaj, ili pokušavate poboljšati SEO kroz planirane akcije?

Sljedeća tabela će vam pomoći u procesu donošenja odluke.

7 načina da se riješite dupliciranog sadržaja

Prvo na listi je 301 preusmjeravanje, zvijezda SEO-a. Kad god je to moguće, koristite ovu metodu za uklanjanje duplikata sadržaja, jer je to jedini način da se postigne kombinacija preusmeravanja bota i klijenta, prosleđivanja linka na novi URL i uklanjanja starog. Za razliku od nekih drugih opcija, 301 preusmjeravanje je naredba tražilicama, a ne samo zahtjev koji se može zanemariti.

Ako vaš razvojni tim izbjegava ovu metodu, ili ako kupci moraju i dalje vidjeti stranicu koju pretraživači smatraju dupliranim sadržajem, isprobajte Canonical oznake kao zamjenu. I dalje im je potrebna podrška programera, ali će zahtijevati manje testiranja tokom implementacije i manje korištenja resursa servera da bi ostali živi. Međutim, imajte na umu da Google može zanemariti kanonske oznake ako misli da ste pogriješili ili jednostavno smatra da nema potrebe da ih poštuje iz nekog algoritamskog razloga.

Treće na listi je preusmjeravanje 302, iako je samo na listi jer je povezano sa svemogućim preusmjeravanjem 301. Prema Google inženjeru Johnu Muelleru, 302 preusmjeravanja preusmjeravaju autoritet veze, ali 99% vremena nema razloga testirati tu teoriju jer 301 preusmjeravanje daje više za isti napor. Razlog za korištenje 302 preusmjeravanja može biti situacija u kojoj je potrebno privremeno preusmjeravanje i Google ne mora deindeksirati stranicu jer će se uskoro vratiti.

Izbrisani sadržaj je štetan

Preostale četiri metode samo deindeksiraju sadržaj. Ne preusmjeravaju ni kupca i ne prenose ovlaštenje za vezu na drugu stranicu. Zato ih koristite ako su jedina održiva opcija, jer uništavanje stranica bez preusmjeravanja s njih gubi resurse veza.

Link Authority— najvredniji i teško dostupan proizvod u prirodnoj potrazi. Možete kreirati odličan sadržaj, možete optimizirati svoj na svojoj web lokaciji, stavljajući autoritet tamo gdje je potreban. Ali etički povećanje težine vašeg linka, sa zaista raznolikom i renomiranom kolekcijom eksternih sajtova, zahteva retku kombinaciju sreće, digitalnog dosega, odnosa sa medijima, offline marketinga, itd. Web lokacije koje su uspele da to urade su retke.

Ako treba da ubijete stranicu, odlučite da li je treba da se rešite samo iz SEO razloga (npr. dupli sadržaj) ili iz pravnih razloga (npr. niko više ne bi trebalo da je vidi). Ako ga samo želite privremeno isključiti iz Googlea, to možete brzo i jednostavno učiniti u Google Search Console pomoću alata za uklanjanje URL-ova (Google indeks > Ukloni URL-ove). Korisnicima će stranica i dalje biti vidljiva prilikom pregledavanja, ali će je Google odmah ukloniti iz indeksiranja.

Budite oprezni s ovim alatom. Ako se koristi pogrešno, može deindeksirati cijelu vašu web lokaciju.
Jedini način da isključite stranicu iz pristupa i ljudi i botova je da je uklonite sa servera, uzrokujući time da URL izbaci grešku 404 File not found ili, koristeći preusmjeravanje 301, preusmjerava na novi URL.

Meta oznake noindex za robote i tim robots.txt disallow je posljednja na ovoj listi iz više razloga:

To je sve za danas, sretno svima i vidimo se opet!

Pretraživači poput Googlea suočeni su s problemom – a to se zove „duplikat sadržaja“. Sadržaj se naziva duplikat ako se pojavljuje u sličnom obliku na različitim mjestima na globalnom internetu (na različitim URL-ovima), zbog čega pretraživači ne znaju koji URL da prikažu u rezultatima pretraživanja. To može imati negativan utjecaj na rangiranje web stranice, a kada ljudi počnu povezivati različite verzije istog sadržaja, problem se samo pogoršava.

Ovaj će vam članak pomoći da shvatite uzroke duplog sadržaja i da vam pružimo razumijevanje o tome što treba učiniti u svakom konkretnom slučaju.

Šta je duplirani sadržaj?

Duplikat sadržaja se može uporediti sa raskrsnicama na kojima putokazi ukazuju u različitim smjerovima za istu lokaciju: kojom rutom treba ići? Da stvar bude gora, krajnja destinacija je također drugačija, samo malo. Kao čitaocu, nije vas briga koliko ćete dobiti ono po šta ste došli, ali pretraživač mora izabrati koju stranicu da prikaže u rezultatima pretrage jer prirodno ne želi da prikazuje isti sadržaj više puta.

Recimo da se vaš članak o “ključnoj riječi x” pojavljuje nepromijenjen na adresama I http://www.example.com/article-category/keyword-x/. Situacija nije daleko: to se dešava u mnogim modernim sistemima za upravljanje sadržajem. Onda je, recimo, vaš članak preuzelo nekoliko blogera, neki su se povezivali na prvi URL, a drugi na drugi. Ovo je upravo trenutak kada problem pretraživača pokazuje svoju pravu prirodu - tiče se i vas. Duplikat sadržaja je vaš problem jer te veze promoviraju različite URL-ove. Ako se povezuju na isti URL, šanse za rangiranje "ključne riječi x" bile bi veće.

1 Razlozi za dupliranje sadržaja

Postoji na desetine razloga zašto se pojavljuje duplirani sadržaj. Većina njih je tehničke prirode: nije često da osoba odluči objaviti isti sadržaj na dva različita mjesta, a da nije jasno koji je od njih originalan - većini nas to izgleda neprirodno. Međutim, postoji mnogo tehničkih razloga, a oni nastaju uglavnom zato što programeri razmišljaju na svoj način - ne kao pretraživači, pa čak ni kao korisnici, a da ne govorimo o paucima pretraživanja - oni razmišljaju kao programeri. Uzmite, na primjer, ranije spomenuti članak, koji se nalazi na http://www.example.com/keyword-x/ i http://www.example.com/article-category/keyword-x/. Ako pitate programere za njihovo mišljenje, oni će vas uvjeriti da ovdje postoji samo jedan članak.

1.1 Nerazumijevanje koncepta URL-a

Ne, programeri nisu ludi, oni samo govore drugačiji jezik. Najvjerovatnije će stranica biti podržana CMS sistemom za upravljanje sadržajem, a njegova baza podataka će sadržavati samo jedan članak, ali softver web stranice će omogućiti pristup ovom članku preko više URL-ova. Do nesporazuma dolazi jer sa stanovišta programera, jedinstveni identifikator za članak je ID koji mu je dodijeljen u bazi podataka, a ne neka vrsta URL-a. Ali za pretraživač, URL je jedinstveni identifikator sadržaja. Ako programerima objasnite situaciju, oni će početi razumjeti suštinu problema, a nakon čitanja članka možete im čak pružiti i gotovo rješenje.

1.2 ID-ovi sesija

Često želite da pratite radnje svojih posetilaca i dozvolite im, na primer, da sačuvaju željene artikle u svoju korpu za kupovinu. Da biste to postigli, morate im obezbijediti „sesiju“. Sesija je kratka historija aktivnosti posjetitelja na vašoj web stranici, koja može uključivati prethodno navedene artikle u korpi i slično. Da biste sačuvali sesiju aktivnosti korisnika (dok on nastavlja da skroluje po stranicama sajta), morate negde da sačuvate jedinstveni identifikator sesije, koji se takođe naziva ID sesije. Najčešće rješenje je korištenje kolačića, ali ih tražilice obično ne spremaju.

U ovom slučaju, neki sistemi prestaju da koriste ID-ove sesije u URL-u. To znači da se URL-u svake interne veze na web stranicu dodjeljuje ID sesije, a pošto je ovaj ID jedinstven za sesiju, to dovodi do stvaranja novih URL-ova i samim tim dupliciranog sadržaja.

1.3 URL parametri koji se koriste za praćenje i sortiranje

Drugi razlog za dupliranje sadržaja je korištenje parametara URL-a koji ne mijenjaju sadržaj same stranice, kao što su veze za praćenje. Vidite, za pretraživač, URL-ovi http://www.example.com/keyword–x/ I http://www.example.com/keyword-x/? source=rss su različiti. Ovo vam može omogućiti da pratite koji je resurs doveo posjetitelje, ali u isto vrijeme otežava rangiranje - što je vrlo nepoželjna posljedica!

Ovo se, naravno, ne odnosi samo na parametre praćenja, već na sve parametre koji se mogu dodati URL-u koji ne mijenjaju suštinski važan dio sadržaja. I nije važno za što se ovaj parametar koristi, bilo da se radi o "promjeni u sortiranju za kategoriju proizvoda" ili "prikazu druge bočne trake" - bilo koji od njih uzrokuje pojavu dupliciranog sadržaja.

1.4 Scrappers i sindikacija sadržaja

Uglavnom, dupli sadržaj je ili vaša greška ili vaša greška. Međutim, ponekad vaš sadržaj dijele druge web stranice, sa ili bez vašeg pristanka. Ne povezuju se uvijek s izvornim izvorom, što uzrokuje da se tražilica bavi još jednom verzijom istog članka. Što vaša web lokacija postaje popularnija, to privlači više scrapera, što problem čini sve gori i gori.

1.5 Redoslijed parametara

Drugi uobičajeni razlog je taj što CMS ne koristi lijepe čiste URL-ove, već URL poput / ?id=1&cat=2, u kojem se “ID” odnosi na članak, a “mačka” na kategoriju. URL /?cat=2&id=1će prikazati isti rezultat većini sistema web stranica, ali za tražilicu rezultati će biti potpuno drugačiji.

1.6 Paginacija komentara

U mom omiljenom WordPress-u, kao i u nekim drugim sistemima za upravljanje sadržajem, postoji opcija paginacije komentara. Ovo dovodi do dupliciranog sadržaja na URL-u članka, jer se /komentar-stranica-1/, /komentar-stranica-2/, itd. dodaju URL-u članka.

1.7 Verzija stranica za štampanje

Ako sistem za upravljanje sadržajem kreira verziju stranica za štampanje i povežete ih na njih iz svog članka, Google će ih vjerovatno pronaći (osim ako su namjerno blokirane, naravno). Sada si iskreno odgovorite: koju verziju biste radije vidjeli u rezultatima Google pretrage? Verzija s vašim oglasima i pratećim sadržajem ili ona sa samo člankom?

1.8 sa i bez WWW

Ovaj razlog je star koliko i svijet, ali ako su dostupne obje verzije WWW-a i bez WWW-a, pretraživači s vremena na vrijeme (iako ne često) nastavljaju da percipiraju odgovarajući sadržaj kao dupliran. Drugi razlog (ne toliko popularan, ali s kojim sam se također susreo) je HTTP i duplirani sadržaj.

2 Konceptualno rješenje: "kanonski" URL

Kao što smo već naučili, kada više URL-ova upućuje na isti sadržaj, nastaje problem, ali on se ipak može riješiti. Jedna osoba koja radi na publikaciji ne bi trebala imati problema s objašnjenjem koji bi trebao biti “tačan” URL za određeni članak, ali ako pitate tri osobe iz iste kompanije, možete dobiti potpuno različite odgovore...

Ovaj problem se može riješiti samo pomoću adresiranja, jer, kako god bilo, može postojati samo jedan URL. Takav „ispravan“ URL za određeni sadržaj pretraživači smatraju kanonskim.

Ironična primedba
Kanonski" je pojam izveden iz rimokatoličke tradicije, prema kojoj je kreiran popis svetih knjiga i prihvaćen kao vjerodostojan. Postali su poznati kao kanonsko jevanđelje Novog zavjeta. Ironično, Rimokatoličkoj crkvi je trebalo skoro 300 godina i mnogo bitaka da uspostavi ovu kanonsku listu. Na kraju su se složili oko četiri verzije iste priče...

3 Identifikacija problema sa dupliranim sadržajem

Možda ne znate zbog čega se pojavio vaš duplirani sadržaj, da li je to web lokacija ili sam sadržaj? Postoji nekoliko načina da saznate.

3.1 Google Search Console

Google Search Console je odličan alat za prepoznavanje dupliciranog sadržaja. Idite na Search Console za svoju web lokaciju, zatim Search View -> HTML Improvements, i vidjet ćete sljedeće:

To što stranice imaju duple naslove ili deskriptore je gotovo uvijek loša stvar. Nakon klika, naći će se URL-ovi s dupliranim naslovima ili ručkama, što će vam pomoći da identificirate problem. U slučaju da imate članak poput onog koji smo ranije spomenuli (ključna riječ X) i pojavljuje se u dvije kategorije, može imati različite naslove. Na primjer, „Ključna riječ X – Kategorija X – Primjer stranice” i „Ključna riječ X – Kategorija Y – Primjer web mjesta”. Google neće smatrati ove naslove duplikatima, ali ih možete pronaći pretraživanjem.

3.2 Pretraživanje naslova ili isječaka

Postoji nekoliko operatora pretraživanja koji su vrlo korisni u slučajevima poput gore opisanog. Ako želite pronaći sve URL-ove vaše stranice koji sadrže članak "ključna riječ X", potrebno je da unesete sljedeću frazu u Google pretragu:

site:example.com intitle:"Ključna riječ X"

Google će vam tada prikazati sve stranice identificirane na example.com koje sadrže navedenu ključnu riječ. Što je naslov konkretniji, lakše će se ukloniti duplirani sadržaj. Ovu metodu možete koristiti za identifikaciju dupliciranog sadržaja na Internetu. Ako je, na primjer, puni naslov vašeg članka "Ključna riječ X - Zašto je to cool", upotrijebili biste frazu:

intitle: "Ključna riječ X - zašto je to cool"

I Google će vam dati sve stranice koje spadaju pod ovaj naslov. Ponekad ima smisla pretražiti čak i samo jednu ili dvije pune rečenice vašeg članka, budući da neki strugači mogu promijeniti naslov. U nekim slučajevima, takvo pretraživanje može rezultirati prikazivanjem sljedećeg obavještenja na posljednjim stranicama Google pretraživanja:

Ovo je znak da je Google već zauzet uklanjanjem dupliciranog sadržaja. Ali to još uvijek nije dovoljno, pa je vrijedno pratiti link i pogledati sve ostale rezultate kako biste vidjeli mogu li se barem neki od njih ispraviti.

4 Praktična rješenja u vezi sa dupliranim sadržajem

Nakon što odlučite koji je URL kanonski za određeni dio vašeg sadržaja, morate prijeći na proces kanonizacije („da, znam“ pokušajte to izgovoriti tri puta brzo i naglas). To znači da moramo reći pretraživačima o kanonskoj verziji stranice i omogućiti im da je pronađu što je brže moguće. Postoje četiri moguća rješenja, prema redosljedu, to su:

Nemojte kreirati duple sadržaje
Preusmjerite duplirani sadržaj na kanonski URL
Dodajte atribut rel=canonical na stranicu sa dupliranim sadržajem
Dodajte HTML vezu sa stranice sa dupliranim sadržajem kanonskoj verziji stranice

4.1 Kako izbjeći dupliranje sadržaja

Neki od gore navedenih razloga za dupliranje sadržaja mogu se lako eliminirati:

Da li vaši URL-ovi imaju ID-ove sesije?Često ih možete jednostavno isključiti u postavkama sistema.
Da li imate verzije stranica za štampanje? Nema potrebe za njima: samo trebate koristiti CSS stilove za ispis.
Koristite li paginaciju komentara u WordPressu? Samo treba da onemogućite ovu funkciju (u odjeljku postavki na 99% stranica).
Da li redoslijed parametara ostaje isti? Recite svom programeru da napiše skriptu koja će uvijek uređivati parametre (često se naziva "fabrika URL-ova").
Ima li problema sa praćenjem veza? U većini slučajeva možete primijeniti hashtag praćenje umjesto korištenja parametara.
Imate li problema sa "WWW i non-WWW"? Odaberite jednu, a zatim preusmjerite na preostalu adresu. Također možete postaviti postavke koristeći Google Webmaster Tools, ali morate posjedovati obje verzije naziva domene.

Čak i ako rješavanje vašeg problema nije lako, trud se može isplatiti. Cilj bi trebao biti spriječiti dupliranje sadržaja, jer je to daleko najbolje rješenje.

4.2 301 preusmjeravanje dupliciranog sadržaja

Postoje slučajevi kada jednostavno nije moguće u potpunosti izbjeći da sistem koristi pogrešne URL adrese (za sadržaj), ali to mogu biti slučajevi u kojima se mogu koristiti preusmjeravanja. Ako mislite da ovo nema smisla (mogu vas razumjeti), samo zapamtite ovo kada razgovarate sa programerima. Dok radite na rješavanju problema s dupliranim sadržajem, pobrinite se da sav duplirani sadržaj preusmjerite sa starih URL-ova na kanonske URL-ove.

4.3 Upotreba linkova

Ponekad, čak i ako znate da je URL pogrešan, ne želite ili ne možete se riješiti duplicirane verzije članka. Da bi riješili ovaj problem, pretraživači predstavljaju kanonski element linka koji se nalazi u zaglavlju vaše stranice i izgleda ovako:

link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/

Kanonski link href atribut je mjesto gdje dodjeljujete ispravan kanonski URL svom članku. Kada pretraživač koji podržava kanonske veze naiđe na takav element, on izvodi 301 preusmjeravanje, dajući tako praktično svu vrijednost koju stranica zaradi kanonskoj verziji.

Istina je da će biti brže direktno koristiti 301 preusmjeravanje i stoga, ako imate izbora, morate mu dati prednost.

Sigurno ste više puta čuli frazu „duplicirani sadržaj“ i vi, kao iskusni vlasnik web stranice, nikada ne biste objavili isti sadržaj dvaput, zar ne?

Duplikat sadržaja može se uporediti sa prekoračenjem u banci. Tek tada gubite svoj dragocjeni budžet za puzanje.

Budžet za indeksiranje je broj stranica na web stranici koje robot za pretraživanje može indeksirati u određenom vremenskom periodu. Zato je toliko važno da ga potrošimo na stranice koje su nam potrebne.

Manifestirajući se u različitim oblicima, duplirani sadržaj može biti jedan od najneuhvatljivijih i najnevidljivijih problema koji mogu negativno utjecati na rangiranje i promociju web stranice. Njegov izgled se često povezuje sa karakteristikama arhitekture sajta ili ograničenjima CMS-a.

Nažalost, u Google Webmasteru ne postoji provjeravač koji bi lako mogao otkriti duplirani sadržaj. Čak i najnapredniji alati trećih strana ne obavljaju uvijek dobro ovaj zadatak, posebno kada je izvor problema interni. Ručna provjera se ne može izbjeći.

Evo liste sa 8 potencijalnih razloga za pojavu duplikata stranica na sajtu:

HTTP i HTTPS stranice

Jedna od najbržih provjera da li imate dvije verzije web-mjesta dostupne za indeksiranje je pokušaj da mu pristupite koristeći i HTTP i HTTPS protokole. Ako se obje verzije otvore, očito je da je vaš programer prebacio stranicu na HTTPS i nije postavio 301 preusmjeravanje sa HTTP verzije.

Prije nego što je Google počeo aktivno ohrabrivati webmastere da svoje web stranice u potpunosti prebace na HTTPS, mnogi su omogućili HTTPS samo na određenim stranicama kojima je bila potrebna dodatna sigurnost, kao što su stranice za prijavu ili stranice za transakcije. Ako je programer koristio relativne veze, onda svaki put kada robot za pretraživanje posjeti zaštićene stranice, prisiljen je dodati HTTPS svim URL-ovima, što na kraju dovodi do duplih stranica.

Na isti način morate provjeriti da li stranica ima dvije verzije stranica, i sa WWW i bez WWW. Ovaj problem možete riješiti postavljanjem 301 preusmjeravanja i navođenjem željene domene (glavnog ogledala) u Google Webmasteru.

Web stranice koje kradu vaš sadržaj

Dok ne postoji zakon koji će vam vratiti ukradeni sadržaj, postoje samo načini na koje možete koristiti kod kako biste otežali lopovima koji pokušavaju da odaju vaš sadržaj kao svoj. Da biste to učinili, uvijek koristite apsolutne veze na svojoj web stranici umjesto relativnih:

Apsolutni linkovi: http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (počinje protokolom i sadrži naziv stranice).
Relativni linkovi:/wiki/dublirovannyi-kontent.html (počinje od korijena stranice ili trenutnog dokumenta).

Zašto je to važno? Kada koristite relativne URL-ove, vaš pretraživač pretpostavlja da veza upućuje na stranicu na kojoj se već nalazite. Neki programeri preferiraju relativne URL-ove jer olakšavaju proces kodiranja.

Ako programer ne želi da prepiše cijelu stranicu, mogu se koristiti kanonske oznake koje se sami pozivaju. Kada se vaš sadržaj objavi na drugoj stranici, kanonske oznake mogu ostati, pomažući Googleu da utvrdi da je vaša web lokacija izvorni izvor sadržaja.

Da biste saznali da je vaš sadržaj ukraden, možete koristiti bilo koju od besplatnih usluga (na primjer, Siteliner, Copyscape. Etxt, AdvegoPlagiatus, itd.)

Napuštene poddomene

Recimo da ste se odlučili protiv poddomena i umjesto toga odlučili koristiti poddirektorij. Ili, na primjer, kreirali ste potpuno novu web stranicu. U svakom slučaju, vaš stari sadržaj može biti dostupan i, štoviše, može loše uticati na rangiranje novih stranica. Da biste riješili problem, najbolje je koristiti 301 preusmjeravanje s ove poddomene na novu stranicu/direktorij. Ovo je posebno važno ako vaš stari resurs ima veliku masu veza.

Skrivene stranice u izradi

Odlučili ste ažurirati svoj dizajn? Pripremate li svoju web stranicu za velike promjene? Ako prije toga niste blokirali indeksiranje svojih testnih stranica (a još više dev verzije stranice), onda niste imuni na činjenicu da ih robot neće otkriti.

Uobičajena je zabluda da nikome nikada neće pasti na pamet da unese neki izmišljeni URL na vašoj web stranici http://razrabotka.sait.ru/ u liniju preglednika; ako nigdje u kodu nema veze do njega, čini se da je ovo jednostavno je nerealno. Ali to nije istina! Google stalno traži i indeksira nove web stranice, uključujući i one u razvoju. Sve ovo može uticati na rezultate rangiranja i takođe dovesti u zabludu korisnike.

Ovo ne samo da uzrokuje ogromnu štetu web lokaciji u smislu privatnosti i sigurnosti, već može uzrokovati i ozbiljnu štetu budžetu za puzanje. Ovo je lako izbjeći: koristite meta oznaku robots s noindexom na svim test stranicama ili ih blokirajte u datoteci robots.txt.

ili

Obje opcije znače zabranu indeksiranja teksta i praćenja linkova na stranici.

Zapamtite da kada prebacujete stranice iz dev moda u način rada uživo, morate ukloniti ove direktive blokiranja iz koda.

Dinamički generirani parametri u URL-u

Najčešće se dinamički URL-ovi generišu na osnovu filtera koji se koriste na sajtu. Kako tačno izgledaju ovi URL-ovi?

URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble

Ovo je jednostavan primjer, međutim, vaš CMS može dodati različite opcije filtera i generirati nepotrebno duge URL nizove koji mogu biti uključeni u proces indeksiranja.

Na ovaj način, Google može kreirati i indeksirati beskrajne kombinacije URL-ova koje korisnik ni ne zahtijeva.

U ovom slučaju, primijenite kanonsku oznaku koja označava vaš željeni URL i konfigurirajte postavke indeksiranja URL-a u Google Webmasteru.

Možete preskočiti ovaj korak i blokirati određene URL-ove u datoteci robots.txt pomoću znaka (*) kako biste spriječili indeksiranje bilo čega unutar navedenog direktorija. Na primjer: Disallow:/chocolate/cake/*

Mirror poddirektorijumi

Da li vaše poslovanje posluje u nekoliko regija? Neke kompanije odlučuju kreirati glavnu odredišnu stranicu koja omogućava korisnicima da odaberu regiju koja im najviše odgovara, a zatim ih preusmjerava na odgovarajući poddirektorij. Na primjer:

URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de

Iako ovo može izgledati logično, razmislite da li zaista postoji potreba za ovim podešavanjem. Uostalom, dok ciljate različitu publiku, postoji šansa da će oba poddirektorija u potpunosti duplicirati jedan drugog u sadržaju. Da biste riješili ovaj problem, koristite Google Webmaster za postavljanje geografskog ciljanja.

Sindikacija sadržaja

Sindikacija sadržaja je ponovna upotreba istog sadržaja na različitim resursima kako bi se promovirala vaša web stranica/brend/sadržaj i privukao dodatni promet.

Sindikacija je odličan način da predstavite svoju web stranicu novoj publici, ali vrijedi postaviti smjernice za to ko će ponovo objaviti vaš sadržaj.

U idealnom slučaju, trebali biste zamoliti izdavače da koriste atribut “rel=canonical” na stranici sa sadržajem kako bi naznačili pretraživačima da je vaša web stranica izvorni izvor sadržaja. Osim toga, oni također mogu spriječiti indeksiranje sadržaja, što će pomoći u rješavanju potencijalnih problema s dupliranjem u rezultatima pretraživanja.

Uostalom, izdavači se mogu vratiti na originalni članak, navodeći vas kao izvorni izvor.

Povezani sadržaj

Sličan sadržaj može uzrokovati isto toliko štete kao i duplirani sadržaj. Googleova definicija dupliciranog sadržaja čak uključuje frazu "suštinski sličan". Iako se dijelovi materijala mogu razlikovati u sintaksi, opće pravilo je da, ako iz njih možete izvući iste informacije, nema razloga da oboje postoje na web stranici. Ovdje je odlično rješenje problema korištenje kanonske oznake ili razmatranje spajanja ovih dijelova sadržaja u jedan.

zaključci

Vrlo je važno pratiti pojavu dupliranog sadržaja na stranici kako biste izbjegli trošenje vašeg budžeta za indeksiranje, jer to sprječava robota da pretražuje i indeksira nove stranice koje su vam potrebne. U ovom slučaju, najbolji alati u vašem arsenalu su kanonske oznake, 301 preusmjeravanja, nofollow/noindex atributi u meta oznaci “robots” i direktive u datoteci robots.txt. Radite na identifikaciji i uklanjanju dupliciranog sadržaja dodavanjem ovih kontrolnih tačaka vašoj SEO reviziji.

Duplikat sadržaja pogoršava indeksiranje web stranice

“Različiti putevi vode do različitih mjesta, a samo jedan od njih je pravi.”

Zdravo, prijatelji! Dugo sam planirao da o ovoj temi razgovaram na stranicama svoje web stranice, pa sam, nakon što sam proučio dosta materijala o dupliciranju sadržaja i njegovim uzrocima, posljedicama i načinima otklanjanja ove negativne pojave, odlučio iznijeti svoje mišljenje o tome problem na mom skromnom resursu.

Budite strpljivi i pažljivo proučite sve preporuke u članku, a zatim provjerite status svojih resursa. Ako želite da vidite odlično rangiranje stranica vaše web stranice u pretraživačima, striktno ih pratite.

Ne pretendujući da pružim sve moguće načine za otklanjanje uzroka dupliranja sadržaja, ipak ću predložiti da se prouče najvažnije tačke ovog pitanja.

Ako običan korisnik (a ponekad i sam webmaster) možda ne primijeti duplicirani sadržaj na web mjestu, tražilice će to odmah otkriti. Njihova reakcija će biti jasna: sadržaj sa ovih stranica prestaće da bude jedinstven. A to već nije dobro, jer će negativno uticati na njihov rang.

Osim toga, dupliciranje zamagljuje težinu veze, na određenu objavu koju ste optimizacijom pokušali promovirati na TOP, poput odredišne stranice. Duplikati će jednostavno uništiti sve pokušaje optimizacije, a efekat međusobnog povezivanja će biti minimalan.

Šta je duplirani sadržaj?

1. Sadržaj koji je neko ili vi lično kopirao i objavljen na resursima trećih strana.

Na internetu možete pročitati mnogo članaka o tome kako se nositi s ukradenim sadržajem, jedna od opcija je i moj članak. Da li se to može istrijebiti je retoričko pitanje i danas, po mom mišljenju, na internetu nema fundamentalnih rješenja za ovaj problem. Postoji samo nekoliko manje ili više efikasnih tehnika.

2. Sadržaj je duplikat koji webmaster kreira vlastitim rukama.

Potpuni (ili nepotpuni) duplikat prilikom distribucije informacija (ili, kako ih još zovu, najava) na posebnim stranicama i forumima. Ako želite da dobijete duplikat svog unosa na Internetu, duplirajte ga na nekom pristojnom resursu - rezultat će skoro uvek biti trenutan. Duplikat je moguć direktno na stranicama stranice. Jeste li ikada vidjeli dvije identične stranice na svojoj web stranici kada ste kreirali samo jednu? Zašto se ovo dešava? Razlozi uključuju uređivanje unosa ili spremanje nedovršenih u skice, a zatim nenamjerno kreiranje duplikata. Webmaster, a da to sam ne primijeti i naknadno ne pregleda sve svoje unose, kako ne bi otkrio duplikat, živi sretno do kraja života, ne sluteći da ima "blizance", "trojke" itd.

3. Dupliranje iz tehničkih razloga - pojava duplikata za koje je kriv CMS.

Ove greške se pojavljuju zato što programeri CMS-a ne razmišljaju kao pretraživači ili pretraživači, već misle kao što bi programeri web stranica trebali; Mnogi ljudi su krivi za to - Joomla, na primjer.

Da objasnim malo. Recimo da imate članak s ključnom riječi "duplicirani sadržaj". Trebalo bi da se nalazi na stranici sa sljedećom adresom: http://domain.ru/duplication of content/, ali bi isti sadržaj mogao biti prikazan, na primjer, ovako: http://domain.ru/article-category/duplication of content/. A ako uzmemo u obzir i druga umnožavanja, stranice, na primjer: http://domain.ru/duplication of content/?source=rss. Svi ovi URL-ovi su različite adrese za bilo koju, ali iste za korisnika (čitača). Ove razlike omogućavaju webmasteru da prati odakle je korisnik došao, ali također mogu uzrokovati štetu ako se ne naprave potrebne postavke indeksiranja.

Poznato je da web stranice rade zahvaljujući postojećem sistemu baze podataka. Postoji samo jedna verzija određenog članka (ID) u bazi podataka, ali skripte stranice dozvoljavaju prikaži ovaj članak iz baze podataka na različitim stranicama (URL). Ali pretraživačima je potreban dokument (URL) - samo je to jedinstveni identifikator i ništa više!

4. Fuzzy uzima.

Poseban tip umnožavanja koji se javlja uglavnom u online trgovinama, gdje se stranice s karticama proizvoda razlikuju samo u nekoliko rečenica s opisom, a sav ostatak sadržaja, koji se sastoji od blokova s kraja na kraj i drugih elemenata, je isti . Teško je kriviti webmastera, iako postoje neke opcije za njihovo uklanjanje.

Dakle, pozabavili smo se uzrocima i posljedicama duplih sadržaja. Sada pređimo na rješavanje problema. Prije svega, hajde da saznamo

Kako otkriti duple stranice?

1. Ručna metoda.

1) Ako vaš sadržaj nije prevelik, samo skrolujte kroz stranicu u admin panelu „Svi unosi» i, ako se pronađu duplikati, obrišite nepotrebne.

2) Da biste saznali prisutnost duplikata, možete koristiti usluge pretraživača "Yandex Webmaster" ili Google Webmaster Tools.

Na primjer, u Webmaster Tools otvorite stranicu “Alati za webmastere” - “Optimizacija” - “HTML optimizacija”: Ako postoje greške i duplikati, čarobnjak će vam sve pokazati. Shvatite to pomoću klikova, eliminišite greške i duplikate, istovremeno.

3) Koristite prozore za pretragu sistema direktno (približna metoda). Za svaku od njih unesite unos obrasca stranica: domain.ru i uporedi njihove rezultate. Ako se ne razlikuju mnogo, onda vaše dupliranje nije tako loše.

4) Postoji jedan efikasan način za pronalaženje duplikata - pretraživanje po fragmentima teksta. To se radi jednostavno: u prozor za pretragu bilo kojeg sistema unesite fragment teksta vašeg posta (članka) od 10-20 riječi (po mogućnosti iz sredine) i analizirajte rezultat. Prisustvo dvije ili više stranica u rezultatima pretrage znači da postoje duplikati za ovaj opus. Ako ne, možete se malo radovati :).

Teško je ako stranica ima mnogo stranica. Gornja provjera može postati nepodnošljiv posao. Ako želite da minimizirate vremenske troškove, koristite program Xenu's Link Sleuth.

Da biste provjerili stranicu, potrebno je da otvorite novi projekat odabirom “Provjeri URL” iz menija “Datoteka”, unesete adresu i kliknete “OK”. Nakon toga, program će početi obraditi sve URL-ove web stranice. Nakon što završite provjeru, morate izvesti primljene podatke u bilo koji prikladan uređivač i početi tražiti duplikate.

Kome treba link za preuzimanje fajla ovog programa, pišite u komentarima, poslaću vam ga na e-mail.

Dakle, saznali smo koji (glavni) razlozi dovode do dupliranja sadržaja. Sada odredimo kako to eliminirati.

Načini uklanjanja duplih sadržaja

Kanonski URL-ovi - konceptualno rješenje problema

Ako nemate opciju () za uklanjanje duplikata, problem se može riješiti pomoću oznake canonica l (koristi se za nejasne kopije). Kanonska oznaka je također pogodna za verzije stranice za štampanje iu drugim sličnim slučajevima. Primjenjuje se vrlo jednostavno - atribut rel=”canonical” je specificiran za sve kopije, ali ne i za glavnu stranicu, koja je najrelevantnija. Kôd bi trebao izgledati otprilike ovako: link rel=”canonical” href=”http://domain.ru/page-copy”/ i biti unutar oznake head.

Za korisnike sa WordPress engine-om, postoji sjajna prilika da sve ovo urade automatski instaliranjem all in one seo pack plugina ili sličnog. U postavkama je ova operacija postavljena sa sljedećim oznakama:

Postavljanje disallow funkcija u datoteci robots.txt vaše web stranice

Iako postavljanje zabranjenih stranica za indeksiranje nije uvijek efikasan način za sprječavanje duplikata, budući da ih pretraživači ponekad uspijevaju zaobići, pravilno konfiguriran robot.txt će uvelike olakšati zadatak njihovog sprječavanja.

WITHwwwili bezwww

Kako će izgledati stranice vaše web stranice - koristeći samo http ili http.www? Nesigurnost će stvoriti dupliciranje. Odmah nakon kreiranja stranice odredite koji ćete protokol za prijenos hiperteksta koristiti. Da biste to učinili, unesite svoj izbor u Yandex i Google webmaster panele (u Googleu se to može učiniti za obje verzije, ali ćete morati potvrditi prava na obje adrese). Možete ga ostaviti kao zadano ili "izbor robota za pretraživanje", ali je bolje da ga jasno definirate.

Postavljanje preusmjeravanja

301 preusmjeravanje je odlično za spajanje stranica za kopiranje čiji se URL-ovi razlikuju po prisutnosti i odsustvu www. Kao što ste već shvatili (pogledajte snimak ekrana iznad), postavljanje preusmjeravanja na WordPress je također pojednostavljeno pomoću dodatka. U suštini, ako ste se vi i robot za pretraživanje „odlučili“ o svom izboru – sa ili bez www ili bez njega postojaće glavna domena, postavljanje preusmjeravanja za sve stranice nije potrebno. Međutim, tema postavljanja preusmjeravanja i njegove izvodljivosti tema je posebnog članka.

Rezultati i zaključci

ne dozvolite dupliranje stranica (sadržaja) na vašim resursima, jer duplikati dovode do ozbiljnog smanjenja relevantnosti stranica, što otežava njihovo dovođenje u prvi plan u rezultatima pretrage (TOP);
Većina problema s umnožavanjem sadržaja ima rješenje - koristite sva moguća sredstva da to učinite;
Stalno pratite proces indeksiranja vašeg sadržaja i ne kreirajte duplikate na njemu

To je to, dragi čitaoče. Ako imate nešto da me dodate ili ispravite, postavite pitanje - iskoristite priliku!

Ne baš na temu, ali o blizancima.

(Posjećeno 28 puta, 1 posjeta danas)

Duplicirani sadržaj. Duplicirani sadržaj

Duplikati i SEO

Klasifikacija duplikata i rješenja za njihovo uklanjanje

Kako duplirani sadržaj na web stranici ubija SEO

Zašto nema kazni za ovo?

Neželjeni efekti

Link Authority

Cilj je tačno odrediti šta trebate postići:

7 načina da se riješite dupliciranog sadržaja

Izbrisani sadržaj je štetan

Meta oznake noindex za robote i tim robots.txt disallow je posljednja na ovoj listi iz više razloga:

Šta je duplirani sadržaj?

1 Razlozi za dupliranje sadržaja

1.1 Nerazumijevanje koncepta URL-a

1.2 ID-ovi sesija

1.3 URL parametri koji se koriste za praćenje i sortiranje

1.4 Scrappers i sindikacija sadržaja

1.5 Redoslijed parametara

1.6 Paginacija komentara

1.7 Verzija stranica za štampanje

1.8 sa i bez WWW

2 Konceptualno rješenje: "kanonski" URL

Ironična primedba

3 Identifikacija problema sa dupliranim sadržajem

3.1 Google Search Console

3.2 Pretraživanje naslova ili isječaka

4 Praktična rješenja u vezi sa dupliranim sadržajem

4.1 Kako izbjeći dupliranje sadržaja

4.2 301 preusmjeravanje dupliciranog sadržaja

HTTP i HTTPS stranice

Web stranice koje kradu vaš sadržaj

Napuštene poddomene

Skrivene stranice u izradi

Dinamički generirani parametri u URL-u

Mirror poddirektorijumi

Sindikacija sadržaja

Povezani sadržaj

zaključci

Šta je duplirani sadržaj?

1. Sadržaj koji je neko ili vi lično kopirao i objavljen na resursima trećih strana.

2. Sadržaj je duplikat koji webmaster kreira vlastitim rukama.

3. Dupliranje iz tehničkih razloga - pojava duplikata za koje je kriv CMS.

4. Fuzzy uzima.

Kako otkriti duple stranice?

1. Ručna metoda.

Načini uklanjanja duplih sadržaja

Kanonski URL-ovi - konceptualno rješenje problema

Postavljanje disallow funkcija u datoteci robots.txt vaše web stranice

WITHwwwili bezwww

Postavljanje preusmjeravanja

Rezultati i zaključci

Najbolji članci na ovu temu