Slične (duplicirane) stranice. Kako prepoznati duplirani sadržaj

05.07.2019 U kontaktu sa

Duplikat sadržaja je djelimično ili potpuno isti tekst, slike i drugi elementi sadržaja stranice, dostupni na različitim adresama stranica (URL). Prisutnost duplikata može značajno zakomplicirati promociju web stranice na pretraživačima.

Prema mišljenju stručnjaka, dupli sadržaj je najčešća greška interne optimizacije, prisutna na svakom drugom web resursu.

Kako provjeriti postoje li duplikati na vašoj web stranici i kako ih se riješiti? O tome ćemo vam reći u novom broju naše mailing liste.

Šta su duplikati

Dvostruke su jasne i nejasne (ili potpune i nepotpune).

Čisti dupli - kopirajte stranice sa potpuno istim sadržajem, sadržajem meta oznake Opis i zaglavlja naslova, dostupnih na različitim adresama. Na primjer, originalna stranica može imati sljedeće duplikate:

ogledalo sa ili bez WWW;
stranice sa različitim ekstenzijama (.html, .htm, index.php, GET parametar "?a=b" itd.);
verzija za štampanje;
verzija za RSS;
prethodni oblik URL-a nakon promjene motora;
itd.

Fuzzy dupli - djelomično identičan sadržaj na različitim URL-ovima.

Primjeri takvih duplikata uključuju sljedeće:

kartice iste vrste robe sa ponovljenim opisom ili opisom koji nedostaje;
najave članaka, vijesti, proizvoda u različitim kategorijama, na tag stranicama i paginaciji;
arhive datuma u blogovima;
stranice na kojima blokovi s kraja na kraj po obimu premašuju glavni sadržaj;
stranice sa različitim tekstovima, ali identičnim naslovom i opisom.

Zašto su duplikati opasni za promociju

1. Poteškoće s indeksiranjem stranice (i određivanjem glavne stranice)

Zbog duplikata, broj stranica u bazi podataka pretraživača može se povećati nekoliko puta, neke stranice možda neće biti indeksirane, jer se robotu za pretragu dodjeljuje fiksna kvota broja stranica da zaobiđe stranicu.

Postaje teže odrediti glavnu stranicu koja će ući u rezultate pretraživanja: izbor robota se možda neće podudarati s izborom webmastera.

2. Glavna stranica u izdanju može se zamijeniti duplikatom

Ako duplikat dobije dobar promet i metriku ponašanja, onda sa sljedećim ažuriranjem može zamijeniti glavnu (promoviranu) stranicu u rezultatima pretraživanja. U isto vrijeme, pozicije u pretrazi će „potonuti“, jer duplikat neće imati popularnost veza.

3. Gubitak vanjskih linkova na glavnu stranicu

4. Rizik od pada ispod PS filtera

I Yandex i Google bore se s nejedinstvenim sadržajem, u vezi s kojim mogu primijeniti AGS i Panda filtere na "začepljenu" stranicu.

5. Gubitak značajnih stranica u indeksu

Nepotpuni duplikati (stranice kategorija, vijesti, kartice proizvoda itd.) zbog niske jedinstvenosti imaju šansu da uopće ne uđu u indeks tražilice. Na primjer, to se može dogoditi s dijelom kartica proizvoda koje algoritam pretraživanja smatra duplikatima.

Kako pronaći i ukloniti duplikate na stranici

Budući da ste vlasnik stranice, čak i bez posebnih znanja i vještina, možete samostalno pronaći duplikate na svom resursu. U nastavku se nalaze upute za pronalaženje i uklanjanje duplikata sadržaja.

Potražite pune duplikate

Najbrži način da pronađete pune duplikate na web lokaciji je praćenje podudaranja između oznaka naslova i opisa. Da biste to učinili, možete koristiti Google webmaster panel ili uslugu Xenu, koja je popularna kod SEO-a. Pretraživanje se vrši među indeksiranim stranicama.

Protiv: ne mogu se (i trebaju) svi duplikati izbrisati (na primjer, verzije stranica sa reklamnim oznakama); naporan posao, koji oduzima puno vremena sa velikim brojem stranica. Ne isključuje pojavu novih duplikata. Težina duplikata se ne prenosi na glavnu stranicu.

Prednosti: ne zahtijeva posebne vještine programiranja.

6. Gotova rješenja za popularni CMS

Programeri popularnog CMS-a su obezbijedili niz rješenja za sprječavanje duplikata. Istovremeno, kada rade s motorom, webmasteri moraju pažljivo postaviti postavke. Ako ste nešto previdjeli, a duplikati se i dalje pojavljuju, nikad nije kasno da sve popravite i eliminišete kopije. Jasna uputstva za podešavanje motora i korišćenje SEO dodataka mogu se naći na specijalizovanim blogovima i na forumima WordPress, Joomla, Drupal, Bitrix i drugih široko zastupljenih CMS-a.

Korisni SEO dodaci za borbu protiv duplikata:

WordPress: Sve u jednom SEO paketu, Clearfy;
Drupal: Globalno preusmjeravanje, naslov stranice;
Joomla: Canonical Links All in One, JL No Dubles.

7. Borite se na nivou motora

Univerzalno rješenje za razne CMS je spriječiti pojavu novih duplikata na nivou motora. Neophodno je postaviti uslov pod kojim će CMS tokom obrade adresnih linkova razlikovati "dobre" od "loše" i prikazati u traci pretraživača samo one koje je dozvoljeno pravilom. Ovo će izbjeći formiranje sinonimnih stranica (sa i bez znaka “/”, sa nepotrebnim završetkom .html, GET parametrima, itd.), ali neće zaštititi od duplikata ako stranice nemaju jedinstveni naslov i opis.

Za implementaciju ove metode, sljedeće pravilo mora biti uključeno u .htaccess datoteku:

RewriteEngine na RewriteCond %(REQUEST_FILENAME) !-d RewriteCond %(REQUEST_FILENAME) !-f RewriteRule ^(.*)$ index.php

Osim toga, trebali biste provesti potrebne provjere u samom motoru.

Metoda je vrlo složena i zahtijeva primjenu kod stručnjaka za razvoj.

Protiv: izuzetno visok stepen složenosti.
Prednosti: Sprečava pojavljivanje stranica sinonima.

Potražite nepotpune duplikate

1. Pretražujte koristeći Google webmaster ili Xenu uslugu

Algoritam radnji u ovim servisima je potpuno isti kao i za traženje punih duplikata. Jedina razlika je u tome što je među pronađenim duplikatima potrebno odabrati one stranice koje imaju identičan naslov i/ili opis, ali potpuno drugačiji sadržaj.

Kao rezultat Google pretrage, pronašli smo grupu nepotpunih duplikata (slika 2).

Rice. 2. Potpuno drugačije vijesti sa dupliranim metapodacima

2. Tražimo u traci za pretraživanje Yandex ili Google

Stranice sa djelimično sličnim sadržajem, ali različitim metapodacima na gore navedeni način neće se moći identificirati. U ovom slučaju, morat ćete raditi ručno.

Prvo, uslovno istaknite rizična područja:

loš sadržaj (unakrsni blokovi po obimu premašuju glavni tekst stranice);
kopirani sadržaj (opis sličnih proizvoda);
presjek sadržaja (najave, naslovi/poddirektoriji, filteri, sortiranje).

Odaberite više stranica iz svake grupe.

Za vizualnu ilustraciju primjera, koristili smo jednu od kartica proizvoda na web stranici trgovine namještajem koja je revidirana u našem odjeljku Stručnost. Vjerovatnoća da će se ovdje pojaviti duplikati je prilično velika, budući da na karticama dominiraju slike i blokovi koji se međusobno seku, a jedinstveni sadržaj je minimiziran.

Navedite u Google traci za pretraživanje fragment teksta iz opisa proizvoda, stavljen pod navodnike, i domenu stranice sa operatorom stranice: (Sl. 3).

Duplicirani sadržaj mogu se podijeliti na tri velike kategorije: tačan duplikat, gdje dva URL-a imaju potpuno isti sadržaj, sadržaj sa manjim razlikama(red rečenica, malo drugačije slike, itd.) i duplikati više domena, gdje egzaktna ili malo izmijenjena kopija postoji na mnogim domenama.

Postoje dva povezana koncepta za koje Google ne smatra da su isto što i duplirani sadržaj, ali koji često zbunjuju izdavače i neiskusne SEO-e:

tanak sadržaj - kao što je ranije navedeno, ovo su stranice koje imaju vrlo malo sadržaja. Primjer bi bio skup stranica izgrađen na listi poslovnih adresa koja ima 5000 adresa, ali svaka stranica sadrži samo jednu adresu—samo nekoliko redova;
rezanje sadržaja Ova kategorija uključuje stranice koje se malo razlikuju jedna od druge. Zamislite stranicu koja prodaje Nike Air Max cipele koje dolaze u veličinama 37, 37.5, 38, 38.5, 39, ... 46. Ako stranica ima zasebnu stranicu za svaku veličinu cipela, razlika između svih ovih stranica će biti beznačajna . Google naziva ovaj efekat tanak rez.

Google ne voli tanak sadržaj ili tanke rezove. Bilo koji od ovih efekata može biti detektovan Panda algoritmom . Kako Bing tačno razlikuje dupliciranje sadržaja, tanki sadržaj i rezanje sadržaja nije jasno, ali je jasno da bi izdavači trebali izbjegavati stvaranje ovakvih vrsta stranica.

Duplikat sadržaja može nastati iz mnogo razloga, uključujući licenciranje sadržaja vaše web stranice, nedostatke u arhitekturi stranice zbog sistema upravljanja sadržajem koji nije optimiziran za pretraživače ili zbog plagijata. U proteklih pet godina spameri željni sadržaja počeli su da izvlače sadržaj iz legitimnih izvora, preuređuju riječi kroz mnoge složene procese i postavljaju rezultirajući tekst na svoje stranice kako bi privukli dugotrajna pretraživanja i prikazali kontekstualno oglašavanje, kao i za druge nečasne svrhe.

Dakle, danas živimo u svijetu "problema sa duplim sadržajem" i "kaznama za duplirani sadržaj". Evo nekih definicija koje će biti korisne za našu raspravu.

Jedinstveni sadržaj- napisano od strane čovjeka, potpuno drugačije od bilo koje druge kombinacije slova, simbola i riječi na World Wide Webu, na koje ne utječu kompjuterski algoritmi za obradu teksta (kao što su alati za slanje neželjene pošte Markova lanca).
Fragmenti - to su mali dijelovi sadržaja (poput citata) koji se kopiraju i koriste iznova i iznova. Oni gotovo nikada nisu problem za pretraživače, posebno kada su uključeni u veći dokument sa puno jedinstvenog sadržaja.
šindre - pretraživači traže relativno male segmente fraza (pet do šest riječi) na drugim stranicama na World Wide Webu. Ako dva dokumenta dijele previše šindre, pretraživači mogu protumačiti ove dokumente kao duplikat sadržaja.
Problemi s dupliranim sadržajem - ova fraza se obično koristi za označavanje duplikata sadržaja zbog kojih se stranica može kazniti. Takav sadržaj je jednostavno kopija postojeće stranice, primoravajući pretraživač da odabere koju verziju će prikazati u indeksu (ovo je tzv. filter duplikata sadržaja).
Filter dupliciranog sadržaja - situacija u kojoj tražilica uklanja sličan sadržaj iz rezultata pretraživanja kako bi pružila bolje rezultate korisniku.
Kazna za duplirani sadržaj - kazne (penali) se primjenjuju rijetko i samo u očiglednim situacijama. Pretraživači mogu rangirati ili zabraniti ostale stranice stranice, a mogu čak i zabraniti cijelu web stranicu.

Posljedice dupliranja sadržaja

Pod pretpostavkom da je vaš duplirani sadržaj rezultat bezopasnog previda od strane vaših programera, tražilica će vjerovatno filtrirati sve osim jedne od duplikata stranica jer želi prikazati samo jednu verziju dupliciranog sadržaja na stranicama s rezultatima pretraživanja. U nekim slučajevima, pretraživač može filtrirati rezultate prije nego što budu uključeni u indeks, au drugim slučajevima može prihvatiti stranicu u indeks i filtrirati je već kada priprema rezultate pretraživanja kao odgovor na određeni upit. U ovom potonjem slučaju, stranica može biti filtrirana za neke specifične zahtjeve, a ne filtrirana za druge.

Korisnici žele vidjeti raznolikost u rezultatima (a ne iste rezultate uvijek iznova). Stoga pretraživači pokušavaju filtrirati duplirani sadržaj, a to ima sljedeće posljedice:

Robot tražilice dolazi na stranicu sa određenim budžetom za pregled, izraženim u smislu broja stranica koje planira da pogleda u svakoj određenoj sesiji. Svaki put kada udari na duplikat stranice koju samo treba filtrirati iz rezultata pretraživanja, dopuštate robotu da potroši dio svog budžeta za pretraživanje. To znači da će manje vaših "dobrih" stranica biti pregledano i rezultirati time da će manje vaših stranica biti uključeno u indeks pretraživača;
iako pretraživači pokušavaju da filtriraju duple sadržaje, veze ka stranicama sa dupliranim sadržajem i dalje im prenose sok linkova. Dakle, duple stranice mogu dobiti PageRank ili sok linkova, a pošto im to ne pomaže da se rangiraju, taj resurs se gubi;
nijedan od pretraživača nije dao jasno objašnjenje kako njihov algoritam bira koju verziju stranice će prikazati. Drugim riječima, ako pronađe tri kopije istog sadržaja, koje će dvije od njih filtrirati? Koji će pokazati? Da li to zavisi od upita za pretragu? Kao rezultat toga, pretraživač može prikazati pogrešnu verziju koja vam je potrebna.

Iako se pojedini optimizatori mogu osporiti s nekim od ovdje predstavljenih tačaka, opšta struktura je gotovo bez prigovora. Međutim, postoji nekoliko problema duž granica ovog modela.

Na primjer, vaša web lokacija ima grupu stranica proizvoda, kao i verzije za ispis tih stranica. Pretraživač može izabrati da prikaže verziju za štampanje u svojim rezultatima. To se ponekad dešava, a može se dogoditi čak i kada stranica za štampanje ima manje veze i niže rangiranje od glavne stranice proizvoda.

Da biste to popravili, primijenite atribut veze rel="canonical" na sve duplirane verzije stranice kako biste naznačili glavnu verziju.

Druga opcija se može pojaviti kada svoj sadržaj udružite (dozvolite ponovno štampanje vašeg sadržaja) trećim stranama. Problem je u tome što pretraživač može izostaviti vaš original iz rezultata pretrage i preferirati verziju koju koristi osoba koja je ponovo štampala vaš članak. Postoje tri potencijalna rješenja za ovaj problem:

neka osoba koja je ponovo objavila vaš članak vrati vezu na originalni članak na vašem sajtu sa atributom rel=”canonical”. Ovo će ukazati pretraživačima da je vaša kopija stranice original i sve veze koje upućuju na sindiciranu stranicu bit će pripisane vašoj originalnoj stranici;
neka vaš sindikacijski partner pokrije svoju kopiju atributom noindex. U ovom slučaju, dupli sadržaj jednostavno neće biti indeksiran od strane pretraživača. Osim toga, sve veze u ovom sadržaju do vaše stranice i dalje će prenijeti ovlaštenje na vas;
neka vaš partner link vrati na originalnu stranicu na vašoj web lokaciji. Pretraživači to obično tumače ispravno i naglašavaju vašu verziju sadržaja. Međutim, treba napomenuti da je bilo slučajeva u kojima je Google pogrešno pripisao sadržaj i dodijelio autorstvo stranici koja ga je ponovo objavila, posebno ako ta stranica ima daleko veći autoritet i kredibilitet od pravog izvornog izvora sadržaja.

Kako pretraživači prepoznaju duplirani sadržaj?

Ilustrovaćemo proces traženja duplikata sadržaja na World Wide Webu za Google motor sa primerima. U primjerima prikazanim na sl. 1-4, napravljene su tri pretpostavke:

stranica sa tekstom je stranica koja sadrži duplikat sadržaja (a ne samo njegov fragment, kao što je prikazano na slikama);
sve stranice sa dupliranim sadržajem su u različitim domenima;
koraci prikazani u nastavku su pojednostavljeni kako bi proces bio što lakši i jednostavniji. Ovo svakako nije tačan opis kako Google funkcionira, ali prenosi značenje.

Rice. jedan

Rice. 2

Rice. 3

Rice. 4

Postoji nekoliko činjenica o dupliranim sadržajima koje zaslužuju posebno spomenuti jer mogu biti zbunjujuće za webmastera koji je tek početnik u problemima dupliciranog sadržaja. Hajde da razmotrimo ove faktore.

Lokacija dupliciranog sadržaja - ako je sav ovaj sadržaj na mojoj web stranici, da li je duplikat? Da, jer se duplicirani sadržaji mogu pojaviti i unutar iste stranice i na različitim stranicama.
Postotak dupliranog sadržaja - Koji postotak stranice mora biti dupliciran da bi se kvalificirao za filtriranje dupliciranog sadržaja? Nažalost, pretraživači nikada ne otkrivaju ove informacije jer bi to bilo štetno za njihovu sposobnost da spriječe sam problem.
Gotovo je sigurno da se ovaj postotak stalno mijenja za sve motore, a kada se otkrije dupli sadržaj, ne radi se samo direktno poređenje. Suština je da stranice ne moraju biti identične da bi se smatrale duplikatima.
Korelacija između koda i teksta -Šta ako je naš kod vrlo velik, ali ima nekoliko jedinstvenih HTML elemenata na stranici? Neće li Google pomisliti da su sve stranice duplikati jedne druge? br. Pretraživači ne brinu o vašem kodu, njima je stalo do sadržaja vaših stranica. Veličina koda postaje problem samo kada postane prevelika.
Odnos elemenata navigacije i jedinstvenog sadržaja - sve stranice na mojoj web stranici imaju veliku navigacijsku traku, puno zaglavlja i podnožja, ali vrlo malo sadržaja. Ne bi li Google sve ove stranice smatrao duplikatima? br. Google (kao i Yahoo! i Bing) uzima u obzir elemente navigacije prije procjene stranica za duplikate. Oni su vrlo upoznati sa izgledom web stranica i razumiju da je imati konzistentne strukture na svim stranicama (ili na velikom broju njih) potpuno normalno. Oni obraćaju pažnju na jedinstvene dijelove stranica, a gotovo potpuno zanemaruju ostale.
Licencirani sadržaj -Što ako želim izbjeći probleme s duplim sadržajem, ali imam sadržaj iz drugih web izvora za koje sam licencirao da ih prikazujem svojim posjetiteljima? Koristite meta ime koda = "robots" content="noindex, follow" . Stavite ga u zaglavlje vaše stranice i pretraživači će znati da ovaj sadržaj nije za njih. Ovo je najbolja praksa jer će ljudi i dalje moći posjetiti ovu stranicu i napravite link ka njoj, a veze na ovoj stranici će zadržati svoju vrijednost.

Druga opcija je da dobijete ekskluzivna prava na posjedovanje ovog sadržaja i da ga objavite.

Identifikacija i otklanjanje kršenja autorskih prava

Jedan od najboljih načina da pronađete duplikate na vašoj web lokaciji je korištenje CopyScape (copyscape.com), koji vam omogućava da odmah vidite stranice na World Wide Webu koje koriste vaš sadržaj. Ne brinite ako su stranice ovih sajtova u podindeksu ili imaju znatno niži rang od vašeg - ako se neka velika, autoritativna, sadržajno bogata domena pokuša boriti protiv svih kopija svog materijala na World Wide Webu, potrebna su najmanje dva stalno zaposlena radnika. Srećom, pretraživači vjeruju takvim stranicama i stoga ih prepoznaju kao izvorne izvore.

S druge strane, ako imate relativno novu stranicu, ili stranicu s malo dolaznih linkova, a plagijatori se stalno rangiraju više od vas (ili vam neka moćna stranica ukrade rad), postoje stvari koje možete učiniti. Jedna od opcija je da pošaljete zahtjev izdavaču da ukloni sadržaj koji krši autorska prava. U nekim slučajevima izdavač jednostavno nije znao za kršenje autorskih prava. Druga opcija je da pišete hosting provajderu. Hosting kompanije potencijalno se mogu smatrati odgovornim za organiziranje dupliranih sadržaja, tako da često brzo odgovaraju na takve zahtjeve. Samo se uvjerite da ste voljni pružiti što je moguće više dokumentacije da dokažete autorstvo sadržaja.

Sljedeća opcija je podnošenje zahtjeva za kršenje autorskih prava (DMCA) Googleu, Yahoo! i Bing. Isti zahtjev treba da pošaljete kompaniji koja hostuje web stranicu počinitelja.

Druga opcija je poduzimanje pravnog postupka protiv stranice koja krši autorska prava ili prijetnja da će to učiniti. Ako je stranica koja objavljuje vaš rad u vlasništvu u vašoj zemlji, ovo je vjerovatno najpametniji prvi korak. Možete početi s neformalnijom komunikacijom i tražiti da se sadržaj ukloni prije nego što čak i pošaljete službeno pismo od advokata, jer može proći mjeseci prije nego što mjere DMCA stupe na snagu. Ali ako ne dobijete odgovor, onda nemate razloga da odgađate ozbiljniju akciju.

Veoma efikasna i jeftina opcija za ovaj proces je DCMA.com.

Situacija sa pravim penalom

Prethodni primjeri prikazuju duple filtere sadržaja na djelu, ali to nisu kazne, iako je u praksi učinak isti kao i kazne - snižavanje rangiranja vaše stranice. Međutim, postoje situacije kada se može pojaviti prava novčana kazna. Na primjer, web lokacije za prikupljanje sadržaja su u opasnosti, posebno ako sama stranica dodaje malo jedinstvenog sadržaja. U ovom scenariju, stranica može biti stvarno kažnjena.

Jedini način da se ovo popravi je smanjenje broja duplikata stranica dostupnih pauku tražilice. Ovo se postiže njihovim uklanjanjem, dodavanjem kanonskog atributa duplikatima, dodavanjem noindex atributa samim stranicama ili dodavanjem značajne količine jedinstvenog sadržaja.

Primjer sadržaja koji se može često filtrirati je ovaj "tanka" partnerska stranica. Ovo se često naziva sajtom koji promoviše prodaju tuđih proizvoda kako bi zaradio provizije, ali ne pruža nove informacije. Takva stranica bi mogla primati opise od proizvođača proizvoda i jednostavno reproducirati te opise, zajedno s vezom do podružnice, kako bi unovčila "klikove" ili kupovine.

Problem nastaje kada prodavač ima hiljade partnera koji koriste isti sadržaj - a inženjeri pretraživača su dobili povratnu informaciju od korisnika da (sa njihove tačke gledišta) takve stranice ne dodaju ništa vrijedno njihovim indeksima. Stoga pretraživači pokušavaju filtrirati takve stranice ili ih čak isključiti iz svojih indeksa. Affiliate modele koristi mnogo sajtova, ali oni takođe pružaju bogat novi sadržaj, tako da obično nemaju problema. Pretraživači poduzimaju radnje samo kada postoji i duplirani sadržaj i nedostatak jedinstvene vrijednosti u isto vrijeme.

Kako izbjeći dupliranje sadržaja na stranici?

Kao što smo ranije napomenuli, dupli sadržaj se može kreirati na mnogo načina. Interno umnožavanje materijala zahtijeva upotrebu specifičnih taktika kako bi se postigli najbolji rezultati u smislu optimizacije. U mnogim slučajevima, duple stranice su stranice koje nemaju nikakvu vrijednost za korisnike ili tražilice. Ako je to slučaj, pokušajte u potpunosti ukloniti ovaj problem. Podesite implementaciju tako da samo jedan URL vodi na svaku stranicu. Također izvršite 301 preusmjeravanje za stare URL-ove na preostale URL-ove , da pomognete pretraživačima da vide promjene koje unosite što je brže moguće i da zadrže "sok linkova" koji su imale obrisane stranice.

Ako to nije moguće, postoji mnogo drugih opcija. . Slijedi sažetak smjernica za najjednostavnija rješenja za različite scenarije:

koristite datoteku robots.txt da blokirate paukove pretraživača da puze kroz duple verzije stranica vašeg sajta;
koristite element rel="canonical" - ovo je drugo rješenje (od najboljih) za uklanjanje duplikata stranica;
koristiti KOD dati indikaciju PRETRAŽIVAČ motori ne indeksiraju duple stranice.

Međutim, imajte na umu da ako koristite datoteku robots.txt da spriječite prikaze stranice, onda korištenje noindex ili nofollow atributa na samoj stranici nema smisla. Pošto pauk ne može pročitati ovu stranicu, nikada neće vidjeti atribute noindex ili nofollow. Imajući na umu ove alate, pogledajmo neke specifične situacije dupliciranog sadržaja.

HTTPS stranice - ako koristite SSL (šifrovanu razmjenu između preglednika i web servera koja se često koristi za e-trgovinu), tada vaša stranica ima stranice koje počinju sa HTTPS: (umjesto HTTP :). Problem nastaje kada linkovi na vašim HTTPS stranicama upućuju na druge stranice na web mjestu koristeći relativne, a ne apsolutne veze (tako da, na primjer, veza do vaše početne stranice postaje https://www.YourDomain.com umjesto http:// www.yourdomain.com).

Ako vaša stranica ima takav problem, onda možete koristiti element rel="canonical" ili 301 preusmjeravanja da ga riješite. Alternativno rješenje je da promijenite linkove u apsolutne: http://www.YourDomain.com/content.html umjesto /contenthtml), što istovremeno malo otežava život onima koji kradu vaš sadržaj.

Sistemi za upravljanje sadržajem koji kreiraju duplirani sadržaj - ponekad stranica ima mnogo verzija identičnih stranica. To je zbog ograničenja u nekim sistemima za upravljanje sadržajem koji se obraćaju istom sadržaju s više od jednog URL-a. Ovo je obično potpuno nepotrebno umnožavanje koje nema nikakvu vrijednost za korisnike, a najbolje rješenje je ukloniti duplicirane stranice i 301 preusmjeriti izbrisane stranice na preostale stranice. Ako ne uspije, isprobajte druge metode (navedene na početku ovog članka).
Stranice za štampanje ili mnoge opcije sortiranja - mnoge web stranice nude stranice za ispis koje korisniku pružaju isti sadržaj u formatu pogodnom za štampanje. Neki sajtovi za e-trgovinu nude liste svojih proizvoda sa mnogo mogućih vrsta (po veličini, boji, brendu i ceni). Ove stranice imaju vrijednost za korisnika, ali nemaju vrijednost za tražilice, pa će im se stoga činiti kao dupli sadržaj. U takvoj situaciji, morate ili koristiti jednu od opcija koje su prethodno navedene na ovom blogu ili postaviti CSS list za ispis (kao što je opisano u objavi yoast.com/added-print-css-style-sheet/ na Yoast-u web stranica).
Duplikat sadržaja u blogovima i arhivskim sistemima- blogovi su zanimljiva varijacija problema duplog sadržaja. Objava na blogu se može pojaviti na nekoliko različitih stranica: početnoj stranici bloga, stranici s trajnim vezama posta, stranicama arhive i stranicama kategorija. Svaka instanca posta je duplikat ostalih instanci. Vrlo je rijetko da se izdavači suoče s problemom objavljivanja i na početnoj stranici bloga i na stranici s stalnim linkovima. I, očigledno, pretraživači rade prilično dobar posao u rješavanju ovog problema. Međutim, možda bi imalo smisla prikazati samo isječke postova na stranicama kategorije i arhive.
Korisnički generirani duplirani sadržaj (duplikati postova, itd.) - mnoge stranice implementiraju strukture za primanje sadržaja koji generiraju korisnici, kao što su blogovi, forumi ili oglasne ploče. Ovo mogu biti sjajni načini za razvoj puno sadržaja uz vrlo nisku cijenu. Problem je u tome što korisnik može objaviti isti sadržaj na vašoj i više drugih stranica u isto vrijeme, što rezultira duplim sadržajem. Teško je ovo kontrolisati, ali se može razmotriti sljedeće kako bi se problem smanjio:

morate imati jasnu politiku koja obavještava korisnike da sadržaj koji šalju na vašu web lokaciju mora biti jedinstven i ne može biti hostovan na drugim stranicama. Naravno, ovo je teško postići, ali će pomoći da se razumiju vaša očekivanja;
implementirajte svoj forum na jedinstven način koji zahtijeva drugačiji sadržaj. Pored standardnih polja za unos podataka, dodajte neka jedinstvena polja (različita od drugih stranica) koja će posjetiteljima vaše stranice biti korisna da vide.

Sadržaj (engleski sadržaj - sadržaj) - informacije, naime, tekst, slike, video zapisi, datoteke koje se nalaze na stranici.

To bi trebao biti:

Davanje najpotpunijeg i najrazumljivijeg odgovora, rješavanje čovjekovog problema: bilo da se oraspoloži, stane na kraj teškoj dilemi ili kupi kvalitetan proizvod.
Bez korištenja skrivenih fragmenata kao što su:

tekst iste boje sa pozadinom,
tekst je skriven slikom koja se nalazi iza nje,
veličina fonta je postavljena na 0.

Strukturirano i raznoliko dizajnirano, naime, lako vizualno uočljivo:

glavne ideje su istaknute bojom ili podebljane tako da se korisnik fokusira na njih. Ne zaboravite da se web stranice ne čitaju, već pregledavaju.
kroz strukturu članka,
rečenice su grupisane u pasuse sa praznim redom između njih,
korištene liste, citati, tabele,
korištene slike, infografike, video zapisi, audio zapisi. Slike igraju veliku ulogu. Dakle, jedan čitalac ovog bloga je zamolio da prevede likove na snimku ekrana koji prikazuje Blogger editor.

Jedinstven i originalan (ne može se vratiti sa mrtvih lokacija ili uzeti iz resursa pod filterima). Pretraživači to pomno prate, krajnje su nepoželjni u pogledu duplikata i primjenjuju sankcije za korištenje sličnih materijala. Zamislite situaciju: postavljate zahtjev i vidite isti odgovor u izlaznim rezultatima. Proučavanje nekoliko izvora koji su ovu temu otkrili na različite načine omogućit će nam da formiramo preciznije i šire razumijevanje problematike. Jedinstvenost teksta moguće je provjeriti umetanjem njegovog fragmenta pod navodnicima () u obrazac za pretragu.

Dupliciranje sadržaja može se uočiti ne samo pri postavljanju podataka na različite stranice, već i kada se informacije ponavljaju na dva ili više od jednog web projekta. Evo eksperimenta na devvver.ru o negativnosti internih duplikata i o tome kako konkurenti to mogu iskoristiti.

Razmislite koje alate imamo u borbi protiv ove bolesti.

Linkovi stranica

Jedini stopostotni način da spriječite indeksiranje stranice je da ne postavljate linkove na nju i ne dodajete je u Yandex addurilki, Google itd.

Robots.txt fajl

Tekstualni fajl robots.txt (na primjer, ) je odličan alat za upravljanje indeksiranjem. Pomozite Yandexu, Googleu. Ali ako Google pronađe link do URL-a zatvorenog u robots.txt, onda će ga dodati u rezultate pretrage.

Zbog toga je potrebno ući ovdje samo one web dokumente do kojih se ne može doći na drugi način, na primjer, . I naravno, sitemap za bolje i brže indeksiranje popularnih stranica.

HTTP zaglavlje

URL neće biti indeksiran ako pokazuje 404 ili 301. A za Google, također kada je niz prisutan

X-Robots-Tag: noindex

robots meta tagovi

Ovo glavni instrument, jer radi i za Yandex i za Google na isti način. Na stranici, čiji pristup sadržaju treba biti zabranjen, naznačeno je:

rel="kanonski" atribut

Obavezno atribut rel="canonical" sugerira preferirani među nekoliko web dokumenata sa vrlo sličnim sadržajem, kao što je http://site/2010/07/kontent..html?showComment. Drugi pretraživač će ga ignorirati jer će poslušati niz:

Yandex.Webmaster

media="print"

Nema potrebe da kreirate posebnu verziju za štampanje. Stilovi se mogu podesiti pomoću .

Uklanjanje duplikata koji se nalaze u indeksu greškom

Uprkos poduzetim mjerama, roboti za pretraživanje mogu indeksirati neželjenu stranicu. Postavljanjem zahtjeva

Pogledajte cijeli SERP, posebno one sa izostavljenim Google rezultatima. U idealnom slučaju, ovaj natpis ne bi trebao biti:

Izostavljeni rezultati moraju se ručno ukloniti. Za Yandex ćemo koristiti obrazac za brisanje stranice, a za Google trebate otići na "Webmaster Tools" - "Optimizacija" - "Izbriši URL-ove" - "Kreiraj novi zahtjev za brisanje".

Pretraživači kao što je Google imaju problem - a naziv mu je "duplicirani sadržaj". Sadržaj se naziva duplikat ako se pojavljuje u sličnom obliku na različitim mjestima na globalnom internetu (na različitim URL-ovima), zbog čega pretraživači ne znaju koji URL da prikažu u rezultatima pretraživanja. To može negativno utjecati na rangiranje web stranice, a kada ljudi počnu povezivati različite verzije istog sadržaja, problem se samo pogoršava.

Ovaj članak će vam pomoći da shvatite uzroke dupliranja sadržaja i da vam daju razumijevanje o tome što treba učiniti u svakom konkretnom slučaju.

Šta je duplirani sadržaj?

Duplikat sadržaja može se uporediti sa raskršću na kojoj putokazi upućuju u različitim pravcima za isti lokalitet: kojim putem da krenete? Da stvar bude gora, krajnja destinacija je također drugačija, samo malo. Kao čitaocu, nije vas briga, glavno je da dobijete ono po šta ste došli, ali pretraživač mora izabrati koju stranicu da prikaže u rezultatima pretrage, jer, naravno, ne želi da ponovo prikazuje isti sadržaj.

Recimo da se vaš članak o "ključnoj riječi x" pojavljuje nepromijenjen na adresama I http://www.example.com/article-category/keyword-x/. Situacija nije daleko: to se dešava u mnogim modernim sistemima za upravljanje sadržajem. Zatim, recimo da je vaš članak preuzelo nekoliko blogera, neki se povezuju na prvi URL, a drugi na drugi. Evo ga, baš trenutak kada problem pretraživača pokazuje svoju pravu prirodu - tiče se i vas. dupli sadržaj je vaš problem jer te veze promovišu različite URL-ove. Da se povezuju na isti URL, šanse za rangiranje za "ključnu riječ x" bile bi veće.

1 Uzroci dupliranja sadržaja

Postoji na desetine razloga zašto se pojavljuje duplirani sadržaj. Većina njih je tehničke prirode: nije često da se osoba odluči objaviti isti sadržaj na dva različita mjesta, a da nije jasno koje je originalno – većini nas to izgleda neprirodno. Međutim, postoji mnogo tehničkih razloga, a oni nastaju uglavnom zato što programeri razmišljaju na svoj način - ne kao pretraživači, pa čak ni kao korisnici, a da ne spominjemo paukove pretrage - oni razmišljaju kao programeri. Uzmite, na primjer, članak koji je ranije spomenut na http://www.example.com/keyword-x/ i http://www.example.com/article-category/keyword-x/. Ako pitate programere za njihovo mišljenje, oni će vas uvjeriti da ovdje postoji samo jedan članak.

1.1 Nerazumijevanje koncepta URL-a

Ne, programeri nisu ludi, oni samo govore drugačiji jezik. Stranica će najvjerovatnije biti podržana CMS-om i sadržavati samo jedan članak u svojoj bazi podataka, ali softver web stranice će omogućiti pristup ovom članku putem više URL-ova. Do nesporazuma dolazi jer, sa stanovišta programera, jedinstveni identifikator za članak je ID koji mu je dodeljen u bazi podataka, a ne neka vrsta URL adrese. Ali za tražilicu, URL je jedinstveni identifikator sadržaja. Ako programerima objasnite situaciju, oni će početi shvaćati suštinu problema, a nakon čitanja članka možete im čak pružiti i gotovo rješenje.

1.2 Identifikatori sesije

Često želite da pratite aktivnosti posetilaca i dozvolite im, na primer, da sačuvaju željene artikle u korpi za kupovinu. Da biste to postigli, morate im obezbijediti "sesiju". Sesija je kratka historija aktivnosti posjetitelja na vašoj web stranici, koja može uključivati prethodno navedene artikle u korpi i slično. Da biste sačuvali sesiju aktivnosti korisnika (dok on nastavlja da skroluje po stranicama sajta), morate negde da sačuvate jedinstveni identifikator sesije, takođe se zove ID sesije. Najčešće rješenje je korištenje kolačića, ali istina je da ih pretraživači obično ne spremaju.

U tom slučaju, neki sistemi prestaju da koriste identifikatore sesije u URL-u. To znači da se URL-u svake interne veze na web stranicu dodjeljuje ID sesije, a pošto je ovaj ID jedinstven za sesiju, to dovodi do kreiranja novih URL-ova i, shodno tome, dupliciranog sadržaja.

1.3 URL parametri koji se koriste za praćenje i sortiranje

Drugi razlog za pojavu dupliciranog sadržaja je korištenje parametara URL-a koji ne mijenjaju sadržaj same stranice, kao što je kod praćenja veza. Vidite, za URL-ove pretraživača http://www.example.com/keyword-x/ I http://www.example.com/keyword-x/? source=rss su različiti. Ovo vam može omogućiti da pratite koji je resurs doveo posjetitelje, ali vam u isto vrijeme otežava rangiranje - vrlo nepoželjna posljedica!

Ovo se, naravno, ne odnosi samo na parametre praćenja, već na sve parametre koji se mogu dodati URL-u i koji ne mijenjaju suštinski važan dio sadržaja. I nije važno čemu služi ovaj parametar, bilo da je riječ o "promjeni u sortiranju kategorije proizvoda" ili "prikaži sljedeću bočnu traku" - bilo koji od njih uzrokuje dupliranje sadržaja.

1.4 Scrapers i sindikacija sadržaja

Uglavnom, vaša web lokacija ili vi sami ste krivi za pojavu dupliranih sadržaja. Međutim, ponekad druge web stranice koriste vaš sadržaj, sa ili bez vašeg pristanka. One ne povezuju uvijek izvorni izvor, ostavljajući pretraživaču da se bavi još jednom verzijom istog članka. Što vaša stranica postaje popularnija, to više privlači skrepere, pogoršavajući problem sve više i više.

1.5 Redoslijed parametara

Drugi uobičajeni razlog je taj što CMS ne koristi prilično čiste URL-ove, već URL-ove poput / ?id=1&cat=2 gdje se "ID" odnosi na artikal, a "mačka" na kategoriju. URL /?cat=2&id=1 predstavljaće isti rezultat za većinu sistema web stranica, ali za tražilicu rezultati će biti potpuno drugačiji.

1.6 Paginacija komentara

U mom omiljenom WordPress-u, kao i u nekim drugim sistemima za upravljanje sadržajem, postoji mogućnost paginacije komentara. Ovo rezultira duplim sadržajem koji se pojavljuje na URL-u članka, jer se /komentar-stranica-1/, /komentar-stranica-2/ itd. dodaju URL-u članka.

1.7 Verzija stranica za štampanje

Ako sistem za upravljanje sadržajem kreira verziju stranica za štampanje i na njih se povežete iz svog članka, veća je vjerovatnoća da će ih Google pronaći (osim ako, naravno, nisu bile namjerno blokirane). Sada budite iskreni prema sebi: koju verziju biste radije vidjeli u rezultatima Google pretraživanja? Verzija sa vašim oglasima i pratećim sadržajem ili ona sa samo člankom?

1.8 sa WWW i bez WWW

Ovaj razlog je star koliko i svijet, ali u slučaju dostupnosti obje verzije WWW-a i bez WWW-a, tražilice s vremena na vrijeme (iako ne često) nastavljaju percipirati relevantni sadržaj kao duplikat. Drugi razlog (ne toliko popularan, ali s kojim sam se također morao suočiti) je HTTP i duplirani sadržaj.

2 Konceptualno rješenje: "Kanonski" URL

Kao što smo već vidjeli, kada više URL-ova vodi do istog sadržaja, postoji problem, ali se, međutim, može riješiti. Jednoj osobi koja radi na publikaciji trebalo bi biti lako da objasni koji bi trebao biti “ispravan” URL za određeni članak, ali ako pitate tri osobe iz iste kompanije, odgovori mogu biti potpuno različiti...

Ovaj problem se može riješiti samo uz pomoć adresiranja, jer, kako god bilo, može postojati samo jedan URL. Takav "ispravan" URL za određeni sadržaj pretraživači smatraju kanonskim.

ironična primedba
"Kanonski" je pojam koji potiče iz rimokatoličke tradicije, prema kojoj je kreiran spisak svetih knjiga i prihvaćen kao autentičan. Postali su poznati kao kanonsko jevanđelje Novog zaveta. Ironično, Rimokatoličkoj crkvi je trebalo više od 300 godina i mnogo bitaka da uspostavi ovu kanonsku listu. Na kraju su se složili oko četiri verzije iste priče...

3 Identificiranje problema s duplim sadržajem

Možda ne znate šta je kod vas izazvalo pojavu dupliranog sadržaja, da li je za to kriv sajt ili sam sadržaj? Postoji nekoliko načina da saznate.

3.1 Google Search Console

Google Search Console je odličan alat za uočavanje dupliciranog sadržaja. Idite na Search Console za svoju web lokaciju, zatim na karticu Search Appearance -> HTML Improvements i vidjet ćete sljedeće:

Stranice sa naslovima ili oznakama koji se ponavljaju gotovo su uvijek loša stvar. Jednom kliknuće se URL-ovi s dupliranim naslovima ili oznakama koji će vam pomoći da identificirate problem. U slučaju da imate članak poput onog koji smo ranije spomenuli (ključna riječ X) i pojavljuje se u dvije kategorije, možda ima različite naslove. Na primjer, "Ključna riječ X - Kategorija X - Primjer web mjesta" i "Ključna riječ X - Kategorija Y - Primjer web mjesta". Google neće smatrati ove naslove duplikatima, ali ih možete pronaći pretraživanjem.

3.2 Traži naslove ili isječke

Postoji nekoliko operatora pretraživanja koji su vrlo korisni u slučajevima poput ovog iznad. Ako želite pronaći sve URL-ove vaše stranice koji sadrže članak "ključna riječ X" potrebno je da u Google pretragu unesete sljedeću frazu:

site:example.com intitle:"Ključna riječ X"

Google će vam tada pokazati sve stranice pronađene na example.com koje sadrže navedenu ključnu riječ. Što je naslov konkretniji, lakše će se ukloniti duplirani sadržaj. Ovu metodu možete koristiti za identifikaciju dupliciranog sadržaja na Internetu. Ako je, na primjer, puni naslov vašeg članka "Ključna riječ X - Zašto je to cool", upotrijebili biste frazu:

intitle: "Ključna riječ X - Zašto je cool"

I Google će vam dati sve stranice koje spadaju pod ovaj naslov. Ponekad ima smisla pretražiti čak i jednu ili dvije kompletne rečenice iz vašeg članka, jer neke strugače mogu promijeniti naslov. U nekim slučajevima, takvo pretraživanje može rezultirati sljedećim obavještenjem koje se prikazuje na posljednjim stranicama Google pretraživanja:

Ovo je znak da je Google već zauzet uklanjanjem dupliciranog sadržaja. Ali to još uvijek nije dovoljno, pa vrijedi pratiti link i pogledati sve ostale rezultate kako biste vidjeli da li se barem neki od njih mogu popraviti.

4 Praktična rješenja za duplirani sadržaj

Nakon što odlučite koji je URL kanonska adresa za određeni dio vašeg sadržaja, vrijeme je da pređete na proces kanokalizacije („da, znam“ pokušajte to izgovoriti naglas tri puta brzo). To znači da moramo obavijestiti tražilice o kanonskoj verziji stranice i pustiti ih da je pronađu što je prije moguće. Postoje četiri moguća rješenja, prema željenom redoslijedu:

Nemojte kreirati duple sadržaje
Preusmjerite duplirani sadržaj na kanonski URL
Dodajte atribut rel=canonical na stranicu sa dupliranim sadržajem
Dodajte HTML vezu sa stranice sa dupliranim sadržajem kanonskoj verziji stranice

4.1 Kako izbjeći dupliranje sadržaja

Neki od gore navedenih uzroka duplog sadržaja lako se eliminišu:

Da li vaši URL-ovi imaju ID-ove sesije u sebi?Često ih možete jednostavno uzeti i onemogućiti u postavkama sistema.
Da li imate verzije stranica za štampanje? Nema potrebe za njima: samo trebate koristiti CSS stilove za ispis.
Koristite li paginaciju komentara u WordPressu? Potrebno je samo da onemogućite ovu funkciju (u odjeljku postavki za 99% stranica).
Da li redoslijed parametara ostaje isti? Recite svom programeru da napiše skriptu koja će uvijek uređivati parametre (često se naziva "fabrika URL-ova").
Ima li problema sa praćenjem veza? U većini slučajeva možete implementirati kampanju praćenja hashtagova umjesto da koristite parametre za to.
Imate li problema sa "WWW i non-WWW"? Odaberite jednu i zatim preusmjerite na drugu adresu. Također možete postaviti postavke koristeći Google Webmaster Tools, ali obje verzije imena domene moraju biti vaše.

Čak i ako rješavanje vašeg problema nije lako, trud može biti opravdan. Cilj bi trebao biti izbjegavanje dupliranja sadržaja, jer je to daleko najbolje rješenje.

4.2 Preusmjeravanje 301 duplikata sadržaja

Postoje slučajevi kada jednostavno nije moguće u potpunosti izbjeći da sistem koristi loše URL-ove (za sadržaj), ali to mogu biti slučajevi u kojima možete koristiti preusmjeravanja. Ako mislite da u tome nema logike (ja vas razumijem), samo zapamtite ovo kada razgovarate sa programerima. Kada radite na rješavanju problema s dupliranim sadržajem, pobrinite se da sav duplirani sadržaj preusmjerite sa starih URL-ova na kanonske.

4.3 Upotreba veza

Ponekad, iako znate da je URL pogrešan, ne želite ili ne možete da se riješite duple verzije članka. Da bi riješili ovaj problem, pretraživači su uveli kanonski element linka, koji se nalazi u zaglavlju vaše stranice i izgleda ovako:

link rel="canonical" href="http://example.com/wordpress/seo-plugin/

Postavljate href atribut kanonske veze na ispravan kanonski URL vašeg članka. Kada pretraživač koji podržava kanonske veze naiđe na takav element, on vrši 301 preusmjeravanje, odajući tako gotovo svu vrijednost koju je zaradila stranica svoje kanonske verzije.

Istina, bit će brže direktno koristiti 301 preusmjeravanje i stoga, ako imate izbora, morate mu dati prednost.

Ponavljajući sadržaj se obično naziva velikim blokovima informacija unutar jedne ili više domena, čiji je sadržaj ili potpuno identičan ili gotovo isti. U pravilu se u ovom slučaju ne teži svrsi obmanjivanja korisnika. Duplikat sadržaja može se koristiti bez zlonamjerne namjere, kao što su:

Forumske stranice u redovnim verzijama web stranica i verzijama za mobilne uređaje;
roba u online prodavnici, prikazana kada se klikne na različite URL adrese;
verzije stranica za štampu.

Ako vaša web lokacija ima više stranica sa gotovo istim sadržajem, možete postaviti željeni URL za Google. To se može učiniti na mnogo načina. Ovaj postupak se naziva "normalizacija".

Međutim, u nekim slučajevima, sadržaj se namjerno umnožava na različitim domenima kako bi se manipulirao rangiranjem na pretraživačima ili povećao promet. Korištenje ovakvih trikova može ostaviti negativan dojam kod korisnika, jer će u rezultatima pretraživanja vidjeti gotovo isti sadržaj koji se ponavlja.

Google daje sve od sebe da indeksira i prikaže stranice sa jedinstvenim informacijama. Na primjer, ako vaša web stranica ima i "standardnu" i "štampanu" verziju svakog članka koji nisu označeni meta tagom noindex, samo jedan od njih će se pojaviti u rezultatima pretraživanja. U rijetkim slučajevima kada Google vjeruje da se duplirani sadržaj prikazuje da manipulira rangiranjem ili obmanjuje korisnike, izvršit ćemo promjene u indeksu i rangiranju dotičnih stranica. S tim u vezi, rang stranice se može smanjiti ili stranica može biti potpuno uklonjena iz Google indeksa i postati nedostupna za pretragu.

Ispod su upute o tome kako izbjeći probleme s duplim sadržajem i osigurati da korisnici vide sadržaj koji želite.

Koristite 301. Ako ste promijenili strukturu svoje stranice, koristite 301 preusmjeravanje („trajno preusmjeravanje“) u svom .htaccess datoteci da brzo preusmjerite korisnike, Googlebot i razne paukove. (Za Apache, ovo se može uraditi pomoću datoteke .htaccess. Za IIS, preko administratorske konzole.)

Budite dosljedni. Pokušajte dosljedno koristiti interne veze. Na primjer, nemojte povezivati na http://www.example.com/page/, http://www.example.com/page i http://www.example.com/page/index.htm.

Koristite domene najvišeg nivoa. Da biste nam pomogli da odaberemo najprikladniju verziju dokumenta, koristite domene najvišeg nivoa kad god je to moguće za prikaz sadržaja specifičnog za državu. Na primjer, sadržaj koji se odnosi na Rusiju trebao bi biti objavljen na http://www.example.ru, a ne na http://www.example.com/ru ili http://ru.example.com.

Budite oprezni sa sindikacijom. Ako svoj sadržaj dostavite drugim stranicama, tada će Google za svaki upit pretraživanja uvijek prikazati verziju koju smatra najprihvatljivijom za korisnike. Ova verzija nije nužno ona koju biste odabrali. Međutim, trebali biste se pobrinuti da sve stranice koje hostuju vaš sadržaj imaju vezu do originalnog članka. Također možete zamoliti vlasnike stranica koji koriste vaš sindicirani sadržaj da ga blokiraju pomoću meta oznake noindex kako bi spriječili pretraživače da indeksiraju njihovu verziju.

Koristite Search Console da obavijestite Google o željenoj metodi indeksiranja. Možete, posebno, navesti glavnu domenu (na primjer, http://www.example.com ili http://example.com).

Izbjegavajte formulačko ponavljanje. Na primjer, umjesto da stavljate sav tekst o autorskim pravima na dno svake stranice, uključite samo najosnovnije informacije sa vezom do stranice koja sadrži detaljnu verziju. Također možete koristiti alat za parametre URL-a da odaberete kako Google rukuje parametrima URL-a.

Nemojte koristiti softverske "stubove". Korisnici ne zanimaju prazne stranice. Na primjer, nemojte objavljivati stranice čiji sadržaj još nije spreman. Ako su stranice za čuvanje mjesta neophodne, blokirajte ih meta tagom noindex kako biste spriječili njihovo indeksiranje.

Naučite svoj sistem upravljanja sadržajem. Upoznajte se sa načinom na koji se sadržaj prikazuje na vašem sajtu. Blogovi, forumi i slični sistemi često prikazuju isti sadržaj u više formata. Na primjer, blog post se može pojaviti na glavnoj stranici bloga, na stranici arhive i na stranici sa drugim objavama - i uvijek pod istim naslovom.

Smanjite količinu povezanog sadržaja. Ako vaša stranica ima mnogo sličnih stranica, dodajte jedinstven sadržaj svakoj od njih ili ih spojite u jednu. Recimo da imate web stranicu za putovanja s odvojenim stranicama za dva grada koje prikazuju iste informacije. Umjesto toga možete postaviti stranicu koja opisuje oba grada ili svakom dodati jedinstvene materijale.

Google ne preporučuje blokiranje robota za pretraživanje da pristupe dupliranim sadržajima pomoću datoteke robots.txt ili na neki drugi način. Ako pretraživači nemaju mogućnost indeksiranja stranica s takvim sadržajem, tada neće moći automatski otkriti da različiti URL-ovi imaju isti sadržaj i tretirat će ih kao jedinstvene stranice. Najbolje je da dozvolite indeksiranje ovih URL-ova, ali ih i dalje označite kao tačne kopije rel="canonical" vezom, alatom za rukovanje parametrom URL-a ili preusmjeravanjem 301. Ako više kopija značajno usporava indeksiranje stranica, prilagodite stopa indeksiranja u Search Consoleu.

Prisustvo ponovljenih sadržaja na stranici nije osnova za poduzimanje bilo kakvih radnji u vezi s tim. Takve mjere se primjenjuju samo ako se rade s namjerom da se korisnici obmanu ili manipulišu rezultatima pretraživanja. Ako imate problema s dupliranim sadržajem i niste slijedili gore navedene savjete, mi ćemo odabrati koju verziju sadržaja ćemo prikazati u rezultatima pretraživanja prema vlastitom nahođenju.

Međutim, ako naš pregled pokaže da ste koristili obmanjujuće postupke i da je vaša stranica uklonjena iz naših rezultata pretraživanja, bolje pogledajte svoju web lokaciju. Pogledajte naš vodič za webmastere i napravite potrebne izmjene. Nakon što se uvjerite da stranica ispunjava zahtjeve, pošaljite nam zahtjev.

U nekim slučajevima, Google algoritmi mogu odabrati URL stranice treće strane koja hostuje kopije vašeg sadržaja bez dozvole. Ako je vaš sadržaj objavljen na drugoj web lokaciji koja krši autorska prava, zamolite vlasnika da ukloni sadržaj. Također možete podnijeti zahtjev Googleu za uklanjanje stranice koja krši autorska prava iz rezultata pretraživanja. Da biste to učinili, morate poslati obavijest o kršenju Zakona o zaštiti autorskih prava u digitalnom tisućljeću SAD-a.

Je li ovaj članak bio od pomoći?

Kako se ovaj članak može poboljšati?