Faqe të ngjashme (të dyfishuara). Si të identifikoni përmbajtjen e kopjuar

05.07.2019 Në kontakt me

Përmbajtja e kopjuar është pjesërisht ose plotësisht i njëjti tekst, imazhe dhe elementë të tjerë të përmbajtjes së faqes, të disponueshme në adresa të ndryshme faqesh (URL). Prania e kopjimeve mund të komplikojë ndjeshëm optimizimin e faqes në motorin e kërkimit.

Sipas ekspertëve, përmbajtja e kopjuar është gabimi më i zakonshëm i optimizimit të brendshëm që ndodh në çdo burim të dytë të internetit.

Si të kontrolloni nëse ka dublikatë në faqen tuaj dhe si të shpëtoni prej tyre? Ne do t'ju tregojmë për këtë në numrin e ri të buletinit tonë.

Cilat janë dublikatat

Dublikatat janë të qarta dhe të paqarta (ose të plota dhe jo të plota).

Marrje të qarta - kopjoni faqet me saktësisht të njëjtën përmbajtje, përmbajtjen e meta-etiketës së Përshkrimi dhe titullin Titulli, të disponueshme në adresa të ndryshme. Për shembull, faqja origjinale mund të ketë dublikatat e mëposhtme:

pasqyrë me ose pa WWW;
faqe me shtesa të ndryshme (.html, .htm, index.php, parametri GET "? a = b", etj.);
versioni i printuar;
version për RSS;
forma e mëparshme e URL-së pas ndryshimit të motorit;
etj.

Merr fuzzy - përmbajtje pjesërisht identike në URL të ndryshme.

Shembuj të kopjimeve të tilla përfshijnë opsionet e mëposhtme:

kartat e të njëjtit lloj mallrash me një përshkrim të kopjuar ose që mungon;
njoftime të artikujve, lajmeve, mallrave në tituj të ndryshëm, në faqet e etiketave dhe faqeve;
arkivat e datave në blog;
faqet ku blloqet nga fundi në fund tejkalojnë përmbajtjen kryesore në vëllim;
faqe me tekste të ndryshme, por Titulli dhe Përshkrimi i njëjtë.

Pse dublikatat janë të rrezikshme për promovim

1. Është e vështirë të indeksosh sitin (dhe përkufizimin e faqes kryesore)

Për shkak të dublikatave, numri i faqeve në bazën e motorit të kërkimit mund të rritet disa herë, disa faqe mund të mos indeksohen, pasi robotit të kërkimit i është caktuar një kuotë fikse për numrin e faqeve për të anashkaluar sitin.

Përkufizimi i faqes kryesore, e cila do të përfshihet në rezultatet e kërkimit, bëhet më e ndërlikuar: zgjedhja e një roboti mund të mos përkojë me zgjedhjen e një webmaster.

2. Faqja kryesore në rezultatet e kërkimit mund të zëvendësohet me një dublikatë

Nëse kopjimi merr metrika të mira të trafikut dhe sjelljes, atëherë me përditësimin tjetër mund të zëvendësojë faqen kryesore (të promovuar) në rezultatet e kërkimit. Në të njëjtën kohë, pozicionet në kërkim do të "varen", sepse kopjimi nuk do të ketë popullaritet të lidhjes.

3. Humbja e lidhjeve të jashtme në faqen kryesore

4. Rrezik për të rënë nën filtrin PS

Të dy Yandex dhe Google janë duke luftuar me përmbajtje jo unike, dhe për këtë arsye mund të aplikojnë filtrat AGS dhe Panda në sitin "të bllokuar".

5. Humbje e faqeve të rëndësishme në indeks

Dublikatat e pakompletuara (faqet e kategorive, lajmet, kartat e produkteve, etj.) për shkak të unikitetit të tyre të ulët kanë një shans të mos futen fare në indeksin e motorit të kërkimit. Për shembull, kjo mund të ndodhë me një pjesë të kartave të produktit që algoritmi i kërkimit i konsideron si dublikatë.

Si të gjeni dhe eliminoni dublikatat në faqe

Si pronar i faqes, edhe pa njohuri dhe aftësi të veçanta, ju mund të gjeni në mënyrë të pavarur kopje në burimin tuaj. Më poshtë janë udhëzimet për gjetjen dhe heqjen e përmbajtjes së kopjuar.

Kërkoni për marrjen e plotë

Mënyra më e shpejtë për të gjetur kopje të plota në një sajt është gjurmimi i rastësisë së etiketave Titulli dhe Përshkrimi. Për ta bërë këtë, mund të përdorni panelin e webmasterit të Google ose shërbimin Xenu, i cili është i njohur me optimizuesit. Kërkimi kryhet midis faqeve të indeksuara.

Kundër: jo të gjitha dublikatat mund (dhe duhet) të fshihen (për shembull, versionet e faqeve me etiketa reklamuese); punë e mundimshme që kërkon shumë kohë me një numër të madh faqesh. Nuk përjashton shfaqjen e marrjeve të reja. Pesha me dublikatë nuk transferohet në faqen kryesore.

Pro: nuk kërkon ndonjë aftësi të veçantë programimi.

6. Zgjidhje të gatshme për CMS të njohura

Zhvilluesit e CMS-ve të njohura kanë ofruar një sërë zgjidhjesh për të parandaluar dublikatat. Në të njëjtën kohë, kur punoni me motorin, webmasterët duhet të vendosin me kujdes cilësimet. Nëse keni humbur diçka dhe përsëri shfaqen dublikatë, nuk është kurrë vonë për të rregulluar gjithçka dhe për të eliminuar kopjet. Udhëzime të qarta se si të konfiguroni motorin dhe të përdorni shtojcat SEO mund të gjenden në bloge dhe forume të specializuara për WordPress, Joomla, Drupal, Bitrix, si dhe CMS të tjera të paraqitura gjerësisht.

Shtojca të dobishme SEO për trajtimin e dublikatave:

WordPress: Të gjitha në një paketë SEO, Clearfy;
Drupal: Ridrejtimi global, Titulli i faqes;
Joomla: Lidhje kanonike të gjitha në një, JL Pa duble.

7. Lufta në nivelin e motorit

Një zgjidhje universale për një shumëllojshmëri të gjerë CMS është parandalimi i shfaqjes së dublikatave të reja në nivelin e motorit. Është e nevojshme të vendosni një kusht nën të cilin, gjatë përpunimit të lidhjeve të adresave, CMS do të dallojë "të mirën" nga "e keqja" dhe të shfaqë vetëm ato të lejuara nga rregulli në linjën e shfletuesit. Kjo do të shmangë formimin e faqeve sinonime (me dhe pa shenjën "/", me mbarim të panevojshëm.html, parametra GET, etj.), megjithatë, nuk do të mbrojë kundër dublikatave nëse Titulli dhe Përshkrimi nuk janë unik për faqet .

Për të zbatuar këtë metodë në skedarin .htaccess, duhet të përfshini rregullin e mëposhtëm:

RewriteEngine në RewriteCond% (REQUEST_FILENAME)! -D RewriteCond% (REQUEST_FILENAME)! -F RewriteRule ^ (. *) $ Index.php

Përveç kësaj, duhet të kryeni kontrollet e nevojshme në vetë motorin.

Metoda është shumë komplekse dhe kërkon kontaktimin e specialistëve të zhvillimit.

Kundër: shkalla jashtëzakonisht e lartë e vështirësisë.
Pro: Parandalon shfaqjen e faqeve sinonimike.

Gjetja e nevojave jo të plota

1. Ne kërkojmë duke përdorur webmasterin e Google ose shërbimin Xenu

Algoritmi i veprimeve në këto shërbime është absolutisht i njëjtë me kërkimin e kopjimeve të plota. I vetmi ndryshim është se midis dublikatave të gjetura është e nevojshme të zgjidhni ato faqe që kanë Titull dhe / ose Përshkrimi identik, por përmbajtje krejtësisht të ndryshme.

Si rezultat i një kërkimi në Google, gjetëm një grup dublikatash jo të plota (Fig. 2).

Oriz. 2. Lajme krejtësisht të ndryshme me meta të dhëna të kopjuara

2. Ne kërkojmë në shiritin e kërkimit të Yandex ose Google

Faqet me përmbajtje pjesërisht të ngjashme, por meta të dhëna të ndryshme nuk mund të zbulohen duke përdorur metodën e mësipërme. Në këtë rast, do t'ju duhet të punoni me dorë.

Së pari, nënvizoni me kusht zonat e rrezikut:

përmbajtje e dobët (blloqet nga fundi në fund tejkalojnë tekstin kryesor të faqes për sa i përket vëllimit);
përmbajtje e kopjuar (përshkrime të produkteve të ngjashme);
kryqëzimi i përmbajtjes (njoftimet, titujt / nëndrejtoritë, filtrat, renditja).

Zgjidhni shumë faqe nga secili grup.

Për një ilustrim të qartë të një shembulli, ne përdorëm një nga kartat e produktit në faqen e internetit të një dyqani mobiljesh, e cila u auditua në seksionin tonë "Ekspertiza". Mundësia e shfaqjes së kopjimeve këtu është mjaft e lartë, pasi fotografitë dhe blloqet nga fundi në fund mbizotërojnë në karta dhe përmbajtja unike minimizohet.

Ne tregojmë në shiritin e kërkimit të Google një pjesë teksti nga përshkrimi i produktit, të mbyllur në thonjëza dhe domenin e faqes me operatorin e faqes: (Fig. 3).

Përmbajtja e kopjuar mund të ndahet në tre kategori të mëdha: një dublikatë e saktë, ku dy url kanë përmbajtje krejtësisht identike, përmbajtje me dallime të vogla(rendi i propozimeve, imazhe paksa të ndryshme, etj.) dhe dublikatë ndër-domainësh ku ekziston një kopje e saktë ose pak e modifikuar në shumë domene.

Ka dy koncepte të lidhura që Google nuk i konsideron të njëjta si përmbajtje të kopjuar, por që shpesh ngatërrojnë botuesit dhe SEO-të e papërvojë:

përmbajtje e hollë - siç u përmend më herët, këto janë faqe me shumë pak përmbajtje. Një shembull është një grup faqesh bazuar në listën e adresave të një organizate, e cila ka 5000 adresa, por secila faqe përmban vetëm një adresë - vetëm disa rreshta;
prerja e përmbajtjes kjo kategori përfshin faqe që ndryshojnë pak nga njëra-tjetra. Imagjinoni një faqe që shet këpucë Nike Air Max që vijnë në madhësitë 37, 37.5, 38, 38.5, 39, ... 46. Nëse faqja ka një faqe të veçantë për çdo madhësi këpucësh, atëherë ndryshimi midis të gjitha atyre faqeve do të jetë i papërfillshëm. Google e quan një efekt të ngjashëm prerje e hollë.

Google nuk i pëlqen përmbajtja e hollë apo prerja e hollë. Secili prej këtyre efekteve mund të zbulohet nga algoritmi "Panda". . Nuk është e qartë saktësisht se si Bing bën dallimin midis përmbajtjes së kopjuar, përmbajtjes së hollë dhe ndarjes së përmbajtjes, por është e qartë se botuesit duhet të shmangin krijimin e këtyre llojeve të faqeve.

Përmbajtja e kopjuar mund të merret për shumë arsye, duke përfshirë licencimin e përmbajtjes së faqes suaj, defekte në arkitekturën e sajtit për shkak të një sistemi të menaxhimit të përmbajtjes që nuk është i optimizuar për motorët e kërkimit ose për shkak të plagjiaturës. Në pesë vitet e fundit, postuesit kritikë për përmbajtjen kanë filluar të grumbullojnë përmbajtje nga burime legjitime, duke riorganizuar fjalët përmes një mori procesesh komplekse dhe duke vendosur tekstin që rezulton në faqet e tyre për të tërhequr kërkime të gjata dhe për të shfaqur reklama kontekstuale, si dhe për të tjera qëllime të pandershme.

Kështu, sot ne jetojmë në një botë të "problemeve të përmbajtjes së kopjuar" dhe "dënimeve të përmbajtjes së kopjuar". Këtu janë disa përkufizime që do të jenë të dobishme për diskutimin tonë.

Përmbajtje unike shkruar nga një njeri, krejtësisht i ndryshëm nga çdo kombinim tjetër i shkronjave, simboleve dhe fjalëve në World Wide Web, i pa ndikuar nga algoritmet e përpunimit të tekstit kompjuterik (të tilla si mjetet e spammerit që përdorin zinxhirët Markov).
Fragmente - këto janë pjesë të vogla të përmbajtjes (të tilla si thonjëza) që kopjohen dhe ripërdoren. Ata nuk janë pothuajse kurrë një problem për motorët e kërkimit, veçanërisht kur përfshihen në një dokument më të madh me shumë përmbajtje unike.
Herpes - motorët e kërkimit kërkojnë segmente relativisht të vogla frazash (pesë deri në gjashtë fjalë) në faqe të tjera në World Wide Web. Nëse dy dokumente ndajnë shumë herpes, atëherë motorët e kërkimit mund t'i interpretojnë këto dokumente si përmbajtje të kopjuar.
Probleme me përmbajtjen e kopjuar - kjo frazë zakonisht përdoret për të treguar përmbajtjen e kopjuar për të cilën faqja mund të penalizohet. Një përmbajtje e tillë është thjesht një kopje e një faqeje ekzistuese, duke e detyruar motorin e kërkimit të zgjedhë cilin version në indeks të shfaqë (ky është i ashtuquajturi filtri i përmbajtjes së kopjuar).
Filtri i përmbajtjes së kopjuar - një situatë ku një motor kërkimi heq përmbajtje të ngjashme nga rezultatet e kërkimit në mënyrë që të sigurojë rezultate më të mira për përdoruesit.
Dënim për përmbajtjen e kopjuar - ndëshkimet (penalitetet) aplikohen rrallë dhe vetëm në situata të dukshme. Motorët e kërkimit mund të ulin renditjen ose të ndalojnë pjesën tjetër të faqeve të faqes, madje mund të ndalojnë të gjithë faqen e internetit.

Pasojat e përmbajtjes së dyfishtë

Duke supozuar se përmbajtja juaj e kopjuar është rezultat i një mbikëqyrjeje të padëmshme nga ana e zhvilluesve tuaj, motori i kërkimit ka të ngjarë të filtrojë të gjitha, përveç një faqeje të kopjuar, pasi dëshiron të shfaqë vetëm një version të asaj përmbajtjeje në faqet e rezultateve të kërkimit. Në disa raste, motori i kërkimit mund të filtrojë rezultatet përpara se t'i përfshijë ato në indeks, dhe në raste të tjera, ai mund ta pranojë faqen në indeks dhe ta filtrojë atë tashmë kur përgatit rezultatet e kërkimit në përgjigje të një pyetjeje specifike. Në këtë rast të fundit, faqja mund të filtrohet në përgjigje të disa pyetjeve specifike dhe të mos filtrohet për të tjera.

Përdoruesit duan të shohin shumëllojshmëri në rezultate (jo të njëjtat rezultate pa pushim). Prandaj, motorët e kërkimit përpiqen të filtrojnë përmbajtjen e kopjuar dhe kjo ka pasojat e mëposhtme:

roboti i motorit të kërkimit vjen në sit me një vlerësim të caktuar të pamjes, të shprehur në numrin e faqeve që planifikon të shikojë në çdo seancë të veçantë. Sa herë që zbret në një faqe dublikatë që thjesht duhet të filtrohet nga rezultatet e kërkimit, ju po e lini robotin të harxhojë një pjesë të shfletimit të buxhetit të tij. Kjo do të thotë që më pak nga faqet tuaja "të mira" do të shihen dhe do të rezultojë që më pak nga faqet tuaja të përfshihen në indeksin e motorit të kërkimit;
Edhe pse motorët e kërkimit përpiqen të filtrojnë përmbajtjen e kopjuar, lidhjet në faqet me përmbajtje të kopjuar ende përcjellin lëng lidhjeje tek ata. Prandaj, faqet e kopjuara mund të marrin PageRank ose lëng lidhjeje, dhe meqenëse kjo nuk i ndihmon ata të renditen, ky burim është i humbur;
asnjë nga motorët e kërkimit nuk dha një shpjegim të qartë se si algoritmi i tyre zgjedh se cilin version të faqes do të shfaqë. Me fjalë të tjera, nëse gjen tre kopje të së njëjtës përmbajtje, cilat dy prej tyre do t'i filtrojë? Cili do të tregojë? A varet nga pyetja e kërkimit? Si rezultat, motori i kërkimit mund të tregojë versionin e gabuar që dëshironi.

Ndërsa disa optimizues mund të argumentojnë me disa nga pikat e përshkruara këtu, struktura e përgjithshme është kryesisht e pakontestueshme. Megjithatë, ka disa probleme përgjatë kufijve të këtij modeli.

Për shembull, faqja juaj ka një grup faqesh produktesh, si dhe versione të printueshme të atyre faqeve. Motori i kërkimit mund të zgjedhë të shfaqë në rezultatet e tij saktësisht versionin e printuar. Kjo ndodh ndonjëherë, dhe mund të ndodhë edhe kur faqja e printimit ka më pak lëng lidhjesh dhe një renditje më të ulët se faqja kryesore e produktit.

Për të korrigjuar këtë situatë, duhet të aplikoni atributin e lidhjes rel = "kanonike" në të gjitha versionet dublikatë të faqes për të treguar versionin kryesor.

Opsioni i dytë mund të shfaqet kur e shpërndani përmbajtjen tuaj (lejoni që përmbajtja juaj të ribotohet) palëve të treta. Problemi është se motori i kërkimit mund të heqë origjinalin tuaj nga rezultatet e kërkimit dhe të preferojë versionin që përdor personi që ka ribotuar artikullin tuaj. Ekzistojnë tre zgjidhje të mundshme për këtë problem:

lëreni ribotuesin e artikullit tuaj të vendosë një lidhje prapa në artikullin origjinal në faqen tuaj me një atribut rel = "kanonik". Kjo do t'u tregojë motorëve të kërkimit se kopja juaj e faqes është origjinale dhe çdo lidhje që tregon në faqen e përbashkët do të kreditohet në faqen tuaj origjinale;
bëni që partneri juaj i sindikatës të mbulojë kopjen e tij me atributin noindex. Në këtë rast, përmbajtja e kopjuar thjesht nuk do të indeksohet nga motori i kërkimit. Përveç kësaj, çdo lidhje në këtë përmbajtje në faqen tuaj do të vazhdojë t'ju delegojë autoritetin;
bëni që partneri juaj të lidhet përsëri në faqen origjinale në faqen tuaj. Motorët e kërkimit zakonisht e interpretojnë këtë saktë dhe theksojnë versionin tuaj të përmbajtjes. Sidoqoftë, duhet të theksohet se ka pasur raste kur Google ia ka atribuar gabimisht përmbajtjen faqes që e ka ripublikuar atë, veçanërisht nëse ajo faqe ka shumë më tepër autoritet dhe besueshmëri se krijuesi i vërtetë i përmbajtjes.

Si e njohin motorët e kërkimit përmbajtjen e kopjuar?

Ne do të ilustrojmë procesin e gjetjes së përmbajtjes së dyfishtë në World Wide Web për motorin Google me shembuj. Në shembujt e paraqitur në Fig. 1-4, bëhen tre supozime:

një faqe me tekst është një faqe që përmban përmbajtje të kopjuar (dhe jo vetëm një fragment të saj, siç tregohet në figura);
të gjitha faqet me përmbajtje të kopjuar janë në domene të ndryshme;
hapat e paraqitur më poshtë janë thjeshtuar për ta bërë procesin sa më të lehtë dhe të drejtpërdrejtë që të jetë e mundur. Ky sigurisht nuk është një përshkrim i saktë i mënyrës se si funksionon Google, por ai përcjell kuptim.

Oriz. një

Oriz. 2

Oriz. 3

Oriz. 4

Ka disa fakte rreth përmbajtjes së kopjuar që meritojnë përmendje të veçantë pasi ato mund të ngatërrojnë një webmaster i cili është i ri në çështjet e kopjimit të përmbajtjes. Le të shqyrtojmë këta faktorë.

Vendndodhja e përmbajtjes së kopjuar - nëse e gjithë kjo përmbajtje është në faqen time, a është dublikatë? Po, sepse përmbajtja e kopjuar mund të shfaqet brenda të njëjtit sajt dhe në sajte të ndryshme.
Përqindja e përmbajtjes së kopjuar - sa përqind e një faqeje duhet të kopjohet për t'u kualifikuar për filtrim të përmbajtjes së kopjuar? Fatkeqësisht, motorët e kërkimit nuk e zbulojnë kurrë këtë informacion pasi do të dëmtonte aftësinë e tyre për të parandaluar vetë problemin.
Mund të pohohet pothuajse me besim se kjo përqindje po ndryshon vazhdimisht për të gjithë motorët, dhe kur identifikon përmbajtjen e kopjuar, nuk bëhet vetëm një krahasim i drejtpërdrejtë. Në fund të fundit është se faqet nuk duhet të jenë identike për t'u konsideruar si dublikatë.
Raporti kod me tekst - Po sikur kodi ynë të jetë shumë i madh, por ka pak elementë unikë HTML në faqe? A do të mendonte Google se të gjitha faqet janë dublikatë të njëra-tjetrës? Nr. Motorët e kërkimit nuk kujdesen për kodin tuaj, ata kujdesen për përmbajtjen e faqeve tuaja. Madhësia e kodit bëhet problem vetëm kur bëhet e tepruar.
Raporti i elementeve të lundrimit dhe përmbajtjes unike - të gjitha faqet në faqen time kanë një shirit të madh navigimi, shumë koka dhe funde, por shumë pak përmbajtje. A do t'i konsideronte Google të gjitha këto faqe si dublikatë? Nr. Google (si edhe Yahoo! dhe Bing) numëron artikujt e navigimit edhe përpara se të vlerësojë faqet për dyfishim. Ata janë shumë të njohur me paraqitjen e faqeve të internetit dhe e kuptojnë se është krejtësisht normale që të ketë struktura të qëndrueshme në të gjitha faqet (ose shumë). Ata i kushtojnë vëmendje pjesëve unike të faqeve dhe pothuajse tërësisht injorojnë pjesën tjetër.
Përmbajtja e licencuar - Po nëse dua të shmang çështjet e përmbajtjes së kopjuar, por kam përmbajtje nga burime të tjera ueb që i kam licencuar për t'u shërbyer vizitorëve të mi? Përdorni kodin meta name = "robots" content = "noindex, follow". Vendoseni në kokën e faqes tuaj dhe motorët e kërkimit do të kuptojnë se kjo përmbajtje nuk është për ta. Kjo është praktika më e mirë pasi njerëzit do të jenë ende në gjendje të vizitoni këtë faqe dhe lidheni me të, dhe lidhjet në atë faqe do të ruajnë vlerën e tyre.

Një tjetër mundësi është marrja e të drejtave ekskluzive për të zotëruar dhe publikuar këtë përmbajtje.

Identifikimi dhe eliminimi i shkeljeve të së drejtës së autorit

Një nga mënyrat më të mira për të gjurmuar faqen tuaj të kopjuar është përdorimi i CopyScape (copyscape.com), i cili ju lejon të shihni menjëherë faqet në World Wide Web që përdorin përmbajtjen tuaj. Mos u shqetësoni nëse faqet e atyre faqeve janë në një nën-indeks ose kanë renditje dukshëm më të ulëta se tuajat - nëse një domen i madh, autoritar dhe i pasur me përmbajtje do të përpiqej të luftonte të gjitha kopjet e materialit të tij në World Wide Web, ai do të nevojiten të paktën dy punonjës me kohë të plotë. Për fat të mirë, motorët e kërkimit u besojnë faqeve të tilla dhe për këtë arsye i njohin ato si burime origjinale.

Nga ana tjetër, nëse keni një sajt ose sajt relativisht të ri me pak lidhje hyrëse, dhe plagjiaturët renditen vazhdimisht më lart se ju (ose ndonjë sajt i fuqishëm po ju vjedh punën), ka disa gjëra që mund të bëni. Një opsion është t'i dërgoni një kërkesë botuesit duke i kërkuar që të heqë përmbajtjen e shkeljes. Në disa raste, botuesi thjesht nuk ishte në dijeni të shkeljes së të drejtës së autorit. Një tjetër mundësi është t'i shkruani ofruesit të pritjes. Kompanitë pritëse mund të jenë potencialisht përgjegjëse për organizimin e përmbajtjes së kopjuar, kështu që ato shpesh përgjigjen shpejt ndaj kërkesave të tilla. Vetëm sigurohuni që jeni të përgatitur për të ofruar sa më shumë dokumentacion që të jetë e mundur për të vërtetuar se përmbajtja i atribuohet.

Opsioni tjetër është të paraqisni një kërkesë për shkelje të së drejtës së autorit (DMCA) në Google, Yahoo! dhe Bing. Të njëjtën kërkesë duhet t'ia dërgoni edhe kompanisë që pret faqen e internetit të shkelësit.

Opsioni i dytë është ngritja e një çështjeje në gjykatë kundër faqes ofenduese ose kërcënimi për ta bërë këtë. Nëse faqja e internetit që publikon punën tuaj ka një pronar në vendin tuaj, atëherë ky është ndoshta hapi i parë më i zgjuar. Mund të filloni me një bisedë më informale dhe të kërkoni që përmbajtja të hiqet edhe përpara se të dërgoni një letër zyrtare nga një avokat, pasi mund të duhen muaj që DMCA të hyjë në fuqi. Por nëse nuk ju përgjigjet, atëherë nuk keni arsye për të shtyrë veprime më serioze.

DCMA.com është një opsion shumë efektiv dhe i lirë për këtë proces.

Situatë reale e mirë

Shembujt e mëparshëm tregojnë se si funksionojnë filtrat e përmbajtjes së kopjuar, por këto nuk janë penalitete, megjithëse në një kuptim praktik, efekti është i njëjtë me penalitetet - renditja e faqes tuaj bie. Sidoqoftë, ka situata ku mund të shfaqet një gjobë e vërtetë. Për shembull, faqet që grumbullojnë përmbajtje rrezikojnë këtë, veçanërisht nëse vetë faqja shton pak përmbajtje unike. Në një skenar të tillë, faqja mund të gjobitet.

Kjo mund të rregullohet vetëm duke zvogëluar numrin e faqeve të kopjuara të disponueshme për merimangën e motorit të kërkimit. Kjo arrihet duke i hequr ato, duke shtuar një atribut kanonik në dublikatë, një atribut noindex në vetë faqet ose duke shtuar një sasi të konsiderueshme të përmbajtjes unike.

Një shembull i përmbajtjes që mund të filtrohet shpesh është Sajti partner "i hollë". Kjo shpesh përmendet si një faqe që promovon shitjet e produkteve të njerëzve të tjerë për të fituar komisione, por nuk ofron informacione të reja. Një faqe e tillë mund të marrë përshkrime nga një prodhues mallrash dhe thjesht t'i riprodhojë ato përshkrime, së bashku me një lidhje me një partner, në mënyrë që të fitojë para nga "klikimet" ose blerjet.

Problemi lind kur një shitës ka mijëra partnerë që përdorin të njëjtën përmbajtje - dhe inxhinierët e motorëve të kërkimit kanë marrë të dhëna nga përdoruesit që (nga këndvështrimi i tyre) faqe të tilla nuk i shtojnë asgjë me vlerë indekseve të tyre. Prandaj, motorët e kërkimit përpiqen të filtrojnë faqe të tilla ose madje t'i përjashtojnë ato nga indekset e tyre. Modelet e filialeve përdoren nga shumë sajte, por ato ofrojnë gjithashtu përmbajtje të re të pasur, kështu që zakonisht nuk kanë asnjë problem. Motorët e kërkimit ndërmarrin veprime vetëm kur ka përmbajtje të kopjuar dhe mungesë të materialit unik të vlefshëm.

Si të shmangni përmbajtjen e kopjuar në faqen tuaj?

Siç kemi theksuar më herët, përmbajtja e kopjuar mund të krijohet në shumë mënyra. Dyfishimi i brendshëm i materialit kërkon taktika specifike për të marrë rezultatet më të mira të optimizimit. Në shumë raste, faqet e kopjuara janë faqe që nuk kanë asnjë vlerë as për përdoruesit, as për motorët e kërkimit. Nëse po, përpiquni ta rregulloni plotësisht problemin. Ndryshoni zbatimin tuaj në mënyrë që vetëm një URL t'i referohet çdo faqeje. Gjithashtu bëni një ridrejtim të 301-të për URL-të e vjetra në URL-të e mbetura , për të ndihmuar motorët e kërkimit të shohin ndryshimet tuaja sa më shpejt që të jetë e mundur dhe të mbajnë lëngun e lidhjes që kishin faqet e fshira.

Nëse kjo nuk është e mundur, atëherë ka shumë opsione të tjera. . Më poshtë është një përmbledhje e zgjidhjeve më të thjeshta për një shumëllojshmëri të gjerë skenarësh:

përdorni një skedar robots.txt për të bllokuar merimangat e motorëve të kërkimit që të zvarriten në versionet e kopjuara të faqeve tuaja të internetit;
përdorni elementin rel = "kanonik" - kjo është zgjidhja e dytë (nga më e mira) për të eliminuar faqet e kopjuara;
përdorni KODI për të dhënë një tregues KËRKONI motorët nuk indeksojnë faqe të kopjuara.

Megjithatë, vini re se nëse jeni duke përdorur një skedar robots.txt për të parandaluar shikimet e faqeve, atëherë atributi noindex ose nofollow në vetë faqen nuk ka kuptim. Meqenëse merimanga nuk mund ta lexojë këtë faqe, ajo kurrë nuk do të shohë atributet noindex ose nofollow. Me këto mjete në mendje, le të shohim disa situata specifike të përmbajtjes së kopjuar.

faqe HTTPS - nëse jeni duke përdorur SSL (një shkëmbim i koduar midis një shfletuesi dhe një serveri në internet, i cili përdoret shpesh për tregti elektronike), atëherë faqja juaj ka faqe që fillojnë me HTTPS: (në vend të HTTP :). Problemi ndodh kur lidhjet në faqet tuaja HTTPS drejtojnë faqet e tjera në sajt duke përdorur lidhje relative dhe jo absolute (kështu që, për shembull, lidhja në faqen tuaj kryesore bëhet https: //www.yourdomain.com në vend të http: / / www.yourdomain.com).

Nëse faqja juaj ka një problem të tillë, atëherë mund të përdorni elementin rel = "kanonik" ose ridrejtimet 3001 për ta zgjidhur atë. Një zgjidhje alternative është ndryshimi i lidhjeve në ato absolute: http: //www.yourdomain.com/content.html në vend të / contenthtml), që në të njëjtën kohë do t'ua vështirësojë disi jetën atyre që vjedhin përmbajtjen tuaj.

Sistemet e menaxhimit të përmbajtjes që krijojnë përmbajtje të kopjuar - ndonjëherë ka shumë versione të faqeve identike në një faqe. Kjo është për shkak të kufizimeve në disa sisteme të menaxhimit të përmbajtjes që adresojnë të njëjtën përmbajtje me më shumë se një URL. Ky është zakonisht dublikim krejtësisht i panevojshëm që nuk ka vlerë për përdoruesit, dhe zgjidhja më e mirë është të hiqni faqet e dubluara dhe të bëni një ridrejtim 301 për faqet e fshira në faqet e mbetura. Nëse dështoni, provoni metoda të tjera (të dhëna në fillim të këtij artikulli).
Faqet për të printuar ose shumë opsione renditjeje - shumë sajte ofrojnë faqe të printueshme që paraqesin të njëjtën përmbajtje tek përdoruesi në një format të përshtatshëm për printer. Disa faqe të tregtisë elektronike ofrojnë lista të produkteve të tyre me shumë klasifikime të mundshme (madhësia, ngjyra, marka dhe çmimi). Këto faqe kanë vlerë për përdoruesit, por nuk kanë vlerë për motorët e kërkimit, dhe për këtë arsye do t'u shfaqen atyre si përmbajtje dublikate. Në një situatë të tillë, ose duhet të përdorni një nga opsionet e paraqitura më parë në këtë blog, ose të konfiguroni një fletë CSS për printim (siç përshkruhet në postimin yoast.com/added-print-css-style-sheet/ në Yoast faqe).
Përmbajtja e kopjuar në blogje dhe sisteme arkivimi- bloget janë një variant interesant për problemin e përmbajtjes së kopjuar. Një postim në blog mund të shfaqet në disa faqe të ndryshme: në faqen kryesore të blogut, në faqen e lidhjeve të përhershme për atë postim, në faqet e arkivit dhe në faqet e kategorive. Çdo kopje postimi është një dublikatë e pjesës tjetër. Është shumë e rrallë që botuesit të përballen me çështjen e të pasurit një postim si në faqen kryesore të blogut ashtu edhe në faqen e lidhjes së përhershme. Dhe motorët e kërkimit duket se po bëjnë një punë mjaft të mirë për të trajtuar këtë problem. Megjithatë, mund të ketë kuptim që të shfaqen vetëm fragmente të postimit në faqet e kategorive dhe arkivave.
Përmbajtja e kopjuar e krijuar nga përdoruesi (postimet e përsëritura, etj.) - shumë sajte zbatojnë struktura për marrjen e përmbajtjes së krijuar nga përdoruesit, të tilla si blogje, forume ose tabela mesazhesh. Këto mund të jenë mënyra të shkëlqyera për të zhvilluar shumë përmbajtje me një kosto shumë të ulët. Problemi është se një përdorues mund të publikojë njëkohësisht të njëjtën përmbajtje në faqen tuaj dhe në disa sajte të tjera, gjë që çon në shfaqjen e përmbajtjes së kopjuar. Kjo është e vështirë të kontrollohet, por sa më poshtë mund të merren parasysh për të zbutur problemin:

ju duhet të keni një politikë të qartë që njofton përdoruesit se përmbajtja që ata dërgojnë në faqen tuaj duhet të jetë unike dhe nuk mund të strehohet në sajte të tjera. Sigurisht, kjo është e vështirë për t'u arritur, por do t'ju ndihmojë të kuptoni pritshmëritë tuaja;
zbatoni forumin tuaj në një mënyrë unike që do të kërkojë përmbajtje të ndryshme. Përveç fushave standarde të futjes së të dhënave, shtoni disa fusha unike (të ndryshme nga faqet e tjera) që do të jenë të dobishme për vizitorët e faqes tuaj për t'i parë.

Përmbajtja (përmbajtja në anglisht - përmbajtja) - informacione, përkatësisht tekst, imazhe, video, skedarë që ndodhen në sit.

Ajo duhet të jetë:

Sigurimi i përgjigjes më të plotë dhe më të kuptueshme, zgjidhja e problemit të një personi: qoftë për të gëzuar, për t'i dhënë fund një dileme të vështirë ose për të blerë një produkt cilësor.
Pa përdorur fragmente të fshehura si:

tekst me të njëjtën ngjyrë me sfond,
teksti është i fshehur pas imazhit,
madhësia e shkronjave është 0.

Të strukturuara dhe të dizajnuara në mënyrë të larmishme, domethënë lehtësisht të perceptuara vizualisht:

mendimet kryesore theksohen me ngjyra ose të theksuara që përdoruesi të fokusohet në to. Mos harroni se faqet e internetit nuk lexohen, por shikohen.
përmes strukturës së artikullit,
fjalitë kombinohen në paragrafë midis të cilëve ka një rresht bosh,
lista të përdorura, citate, tabela,
foto të aplikuara, infografikë, video, regjistrime audio. Imazhet luajnë një rol të madh. Pra, një lexues i këtij blogu kërkoi të përkthente simbolet në pamjen e ekranit, e cila tregonte redaktorin e Blogger.

Unik dhe origjinal (nuk mund të restaurohet nga faqet e vdekura ose të merret nga burimet nën filtra). Motorët e kërkimit po e monitorojnë nga afër këtë, është shumë e padëshirueshme të trajtohen dublikatat dhe të aplikohen sanksione për përdorimin e materialeve të ngjashme. Imagjinoni një situatë: ju bëni një kërkesë dhe shihni të njëjtën përgjigje në rezultatet e kërkimit. Studimi i disa burimeve që kanë zbuluar ndryshe temën do t'ju lejojë të krijoni një kuptim më të saktë dhe më të gjerë të çështjes. Është e mundur të kontrolloni veçantinë e tekstit duke futur një fragment të tij në thonjëza () në formularin e kërkimit.

Dyfishimi i përmbajtjes mund të vërehet jo vetëm kur vendosen të dhëna në sajte të ndryshme, por edhe kur përsëriten informacione në dy ose më shumë nga një projekt ueb. Këtu është një eksperiment në devvver.ru në lidhje me negativin e dublikatave të brendshme dhe se si konkurrentët mund të përfitojnë prej tij.

Konsideroni se çfarë mjetesh kemi në luftën kundër kësaj sëmundjeje.

Lidhjet e faqeve

I vetmi një mënyrë qind për qind për të parandaluar indeksimin e një faqeje është të mos postoni lidhje me të dhe të mos e shtoni në shtesat Yandex, Google etj.

Skedari Robots.txt

Një skedar teksti robots.txt (për shembull) është një mjet i shkëlqyeshëm për menaxhimin e indeksimit. Ndihmoni Yandex, Google. Por nëse Google gjen një lidhje me një URL që është e mbyllur në robots.txt, do ta shtojë atë në rezultatet e kërkimit.

Për shkak të kësaj, ju duhet të hyni këtu vetëm ato dokumente web që nuk mund të arrihen në asnjë mënyrë tjetër, Për shembull, . Sigurisht, harta e faqes për indeksim më të mirë dhe më të shpejtë të faqeve të njohura.

Titulli HTTP

URL-ja nuk do të indeksohet nëse tregon 404 ose 301. Dhe për Google, gjithashtu kur linja është e pranishme

X-Robots-Tag: noindex

Etiketat e meta robotëve

Kjo mjeti kryesor sepse funksionon për Yandex dhe Google në të njëjtën mënyrë. Në faqen, qasja në përmbajtjen e së cilës duhet të mohohet, tregohet:

Rel = atribut "kanonik".

E detyrueshme atributi rel = "kanonik" sugjeron atë të preferuar nga disa dokumente ueb me përmbajtje shumë të ngjashme, për shembull, http: //site/2010/07/kontent..html? showComment. Motori i dytë i kërkimit do ta injorojë atë sepse do t'i nënshtrohet linjës:

Yandex.Webmaster

media = "print"

Nuk ka nevojë të krijoni një version të veçantë të printimit. Stilet mund të rregullohen me.

Heqja e dublikatave në indeks gabimisht

Pavarësisht masave të marra, robotët e kërkimit mund të indeksojnë faqet e padëshiruara. Duke kërkuar një kërkesë

Shikoni të gjitha SERP-të, veçanërisht ato me rezultate të hequra të Google. Në mënyrë ideale, ky mbishkrim nuk duhet të jetë:

Rezultatet e hequra duhet të hiqen manualisht. Për Yandex ne do të përdorim formularin e fshirjes së faqes, dhe për Google duhet të shkojmë te "Webmaster Tools" - "Optimization" - "Hiq URL-të" - "Krijo një kërkesë të re fshirjeje".

Motorët e kërkimit si Google janë përballur me një problem - dhe emri është "përmbajtje dublikatë". Përmbajtja quhet e kopjuar nëse shfaqet në një formë të ngjashme në vende të ndryshme në internetin global (në URL të ndryshme), si rezultat i së cilës motorët e kërkimit nuk e dinë se cilën URL të shfaqin në rezultatet e kërkimit. Kjo mund të ndikojë negativisht në renditjen e një faqe interneti dhe kur njerëzit fillojnë të lidhen me versione të ndryshme të së njëjtës përmbajtje, problemi vetëm përkeqësohet.

Ky artikull do t'ju ndihmojë të kuptoni arsyet e shfaqjes së përmbajtjes së kopjuar dhe do t'ju japë një kuptim të asaj që duhet bërë në secilin rast.

Çfarë është përmbajtja e kopjuar?

Përmbajtja e dyfishtë mund të krahasohet me një kryqëzim ku shenjat rrugore tregojnë drejtime të ndryshme për të njëjtin lokalitet: cilën rrugë duhet të ndiqni? Për t'i bërë gjërat edhe më keq, destinacioni përfundimtar është gjithashtu i ndryshëm, vetëm pak. Si lexues, nuk ju intereson, gjëja kryesore është të merrni atë për të cilën keni ardhur, por motori i kërkimit duhet të zgjedhë se cilën faqe të shfaqë në rezultatet e kërkimit, pasi, natyrisht, nuk dëshiron të shfaqë të njëjtën përmbajtje. përsëri.

Le të themi se artikulli juaj rreth "fjalë kyçe x" shfaqet i pandryshuar në adresat dhe http://www.example.com/article-category/keyword-x/... Situata nuk është e largët: kjo ndodh në shumë sisteme moderne të menaxhimit të përmbajtjes. Më pas, le të themi se artikulli juaj u kap nga disa blogerë, disa duke u lidhur me URL-në e parë dhe të tjerë duke u lidhur me të dytën. Këtu është, pikërisht momenti kur problemi i motorëve të kërkimit tregon natyrën e tij të vërtetë - ju shqetëson gjithashtu. Përmbajtja e kopjuar është problemi juaj pasi ato lidhje po promovojnë URL të ndryshme. Nëse do të lidheshin me të njëjtën URL, shanset për t'u renditur për "fjalë kyçe x" do të ishin më të larta.

1 Arsyet për përmbajtje të kopjuar

Ka dhjetëra arsye pse shfaqet një përmbajtje e kopjuar. Shumica e tyre janë të natyrës teknike: nuk ndodh aq shpesh që një person vendos të postojë të njëjtën përmbajtje në dy vende të ndryshme, pa e bërë të qartë se cila është origjinale - për shumicën prej nesh kjo duket e panatyrshme. Megjithatë, ka shumë arsye teknike, dhe ato lindin kryesisht sepse zhvilluesit mendojnë në mënyrën e tyre - jo si shfletuesit, dhe as si përdoruesit, e lëre më të kërkojnë merimangat - ata mendojnë si programues. Merrni, për shembull, artikullin e përmendur më parë që gjendet në http://www.example.com/keyword-x/ dhe http://www.example.com/article-category/keyword-x/. Nëse jeni të interesuar për mendimin e zhvilluesve, ata do t'ju sigurojnë se ka vetëm një artikull këtu.

1.1 Keqkuptimi i konceptit të URL-së

Jo, zhvilluesit nuk janë të çmendur, ata thjesht flasin një gjuhë tjetër. Sajti ka shumë të ngjarë të mbështetet nga një CMS me vetëm një artikull në bazën e të dhënave të tij, por softueri i faqes në internet do të lejojë që ai artikull të aksesohet përmes URL-ve të shumta. Keqkuptimi ndodh sepse nga këndvështrimi i zhvilluesve, identifikuesi unik për artikullin është ID-ja që i është caktuar në bazën e të dhënave, dhe jo ndonjë URL atje. Por për një motor kërkimi, URL-ja është një identifikues unik për përmbajtjen. Nëse ua shpjegoni situatën zhvilluesve, ata do të fillojnë të kuptojnë thelbin e problemit, dhe pasi të keni lexuar artikullin, madje mund t'u ofroni atyre një zgjidhje të gatshme.

1.2 ID-të e sesioneve

Shpesh herë, ju dëshironi të gjurmoni veprimet e vizitorëve tuaj dhe t'i lejoni ata, për shembull, të ruajnë artikujt e dëshiruar në karrocën e blerjeve. Për ta bërë këtë, ju duhet t'u siguroni atyre një "sesion". Një seancë është një histori e shkurtër e aktivitetit të një vizitori në faqen tuaj, e cila mund të përfshijë artikujt e përmendur më parë në shportën e blerjeve dhe të ngjashme. Për të ruajtur sesionin e aktivitetit të përdoruesit (ndërsa ai vazhdon të lëviz nëpër faqet e faqes), duhet të ruani diku një identifikues unik të sesionit, ai quhet gjithashtu ID sesioni. Zgjidhja më e zakonshme është përdorimi i cookies, por e vërteta është se motorët e kërkimit zakonisht nuk i ruajnë ato.

Në këtë rast, disa sisteme ndalojnë së përdoruri ID-të e sesioneve në URL. Kjo do të thotë që një ID e sesionit i caktohet URL-së së çdo lidhjeje të brendshme të uebsajtit dhe meqenëse kjo ID është unike për sesionin, kjo krijon URL të reja dhe kështu përmbajtje të kopjuar.

1.3 Parametrat e URL-së që përdoren për gjurmimin dhe renditjen

Një arsye tjetër për përmbajtjen e kopjuar është përdorimi i parametrave të URL-së që nuk ndryshojnë përmbajtjen e vetë faqes, si për shembull në lidhjet e gjurmimit. Ju shikoni, për një url të motorit të kërkimit http://www.example.com/keyword–x/ dhe http://www.example.com/keyword-x/? burimi = rss janë të ndryshme. Kjo mund t'ju lejojë të gjurmoni se cili burim ka sjellë vizitorë, por në të njëjtën kohë, mund të komplikojë renditjen për ju - një pasojë shumë e padëshirueshme!

Kjo, natyrisht, nuk vlen vetëm për parametrat e gjurmimit, por për të gjithë parametrat që mund të shtohen në një URL që nuk ndryshojnë një pjesë kritike të përmbajtjes. Dhe nuk ka rëndësi se për çfarë shërben ky parametër, nëse është "ndryshime në renditjen e një kategorie produkti" ose "shfaqje e shiritit anësor tjetër" - secila prej tyre shkakton përmbajtje të kopjuar.

1.4 Scrapers dhe sindikata e përmbajtjes

Në pjesën më të madhe, faqja juaj ose ju jeni fajtorë për shfaqjen e përmbajtjes së kopjuar. Megjithatë, ndonjëherë faqet e tjera të internetit përdorin përmbajtjen tuaj, me ose pa pëlqimin tuaj. Ata nuk lidhen gjithmonë me burimin origjinal dhe si rezultat, motori i kërkimit duhet të merret me një version tjetër të të njëjtit artikull. Sa më popullor të bëhet faqja juaj, aq më shumë tërheq gërvishtësit, duke e përkeqësuar problemin gjithnjë e më shumë.

1.5 Renditja e parametrave

Një arsye tjetër e zakonshme është se CMS nuk po përdor URL mjaft të pastra, por më tepër URL si / ? id = 1 dhe mace = 2 ku "ID" i referohet artikullit dhe "mace" i referohet kategorisë. Url /? mace = 2 & id = 1 do të përfaqësojë të njëjtin rezultat për shumicën e sistemeve të faqeve të internetit, por për një motor kërkimi, rezultatet do të jenë krejtësisht të ndryshme.

1.6 Faqerojtja e komenteve

WordPress-i im i preferuar, si dhe disa sisteme të tjera të menaxhimit të përmbajtjes, ka aftësinë për të faqezuar komentet. Kjo rezulton në përmbajtje të kopjuar në URL-në e artikullit, pasi / koment-faqe-1 /, / koment-faqe-2 /, etj. i shtohen URL-së së artikullit.

1.7 Versioni i faqeve për printim

Nëse sistemi i menaxhimit të përmbajtjes krijon një version të printueshëm të faqeve dhe ju lidheni me to nga artikulli juaj, Google ka shumë të ngjarë t'i gjejë ato (nëse nuk janë bllokuar qëllimisht). Tani përgjigjuni vetes sinqerisht: Cilin version do të dëshironit të shihnit më mirë në rezultatet e kërkimit të Google? Versioni me reklamat tuaja dhe përmbajtjen mbështetëse, apo ai me vetëm artikullin?

1.8 me WWW dhe pa WWW

Kjo arsye është po aq e vjetër sa bota, por në rastin e disponueshmërisë së të dy versioneve të WWW dhe pa WWW, motorët e kërkimit herë pas here (megjithëse jo shpesh) vazhdojnë ta perceptojnë përmbajtjen përkatëse si dublikatë. Një arsye tjetër (jo aq e njohur, por me të cilën më është dashur të përballem) është HTTP dhe përmbajtja e kopjuar.

2 Zgjidhja konceptuale: URL "kanonike".

Siç e kemi parë tashmë, kur URL të shumta çojnë në të njëjtën përmbajtje, ka një problem, por, megjithatë, ai mund të zgjidhet. Një person që punon në një botim nuk duhet të ketë ndonjë vështirësi në shpjegimin se cila duhet të jetë URL-ja "e saktë" për një artikull të caktuar, por nëse pyet tre persona nga e njëjta kompani, mund të marrësh përgjigje krejtësisht të ndryshme ...

Ky problem mund të zgjidhet vetëm me ndihmën e adresimit, pasi, sido që të jetë, mund të ketë vetëm një URL. Një URL e tillë "e saktë" për përmbajtje të caktuar konsiderohet kanonike nga motorët e kërkimit.

Një vërejtje ironike
Kanonik ”është një term që rrjedh nga tradita katolike romake, sipas së cilës u krijua një listë e librave të shenjtë dhe u pranua si autentike. Ata u bënë të njohur si ungjilli kanonik i Dhiatës së Re. Për ironi, Kishës Katolike Romake iu deshën rreth 300 vjet për të vërtetuar këtë listë kanonike dhe ajo mori pjesë në shumë beteja. Në fund të fundit, ata ranë dakord për katër versione të së njëjtës histori ...

3 Identifikimi i çështjeve të përmbajtjes së kopjuar

Ju mund të mos e dini se çfarë ka çuar në shfaqjen e përmbajtjes së kopjuar tek ju, a është fajtor faqja apo vetë përmbajtja? Ka disa mënyra për të zbuluar.

3.1 Google Search Console

Google Search Console është një mjet i shkëlqyeshëm për identifikimin e përmbajtjes së kopjuar. Shkoni te Paneli i Kërkimit për faqen tuaj, më pas te Pamja e Kërkimit -> Përmirësimet HTML dhe do të shihni sa vijon:

Të kesh faqe me tituj ose përshkrues të kopjuar është pothuajse gjithmonë një gjë e keqe. Pasi të klikohet, URL-të me tituj ose përshkrues dublikatë do të gjenden për t'ju ndihmuar të identifikoni problemin. Në rast se keni një artikull si ai që përmendëm më parë (fjala kyçe X) dhe shfaqet në dy kategori, mund të ketë tituj të ndryshëm. Për shembull, "Fjala kyçe X - Kategoria X - Shembulli i faqes" dhe "Fjala kyçe X - Kategoria Y - Shembull sajt". Google nuk do t'i konsiderojë këto tituj si dublikatë, por ato mund të gjenden duke kërkuar.

3.2 Gjetja e titujve ose fragmenteve

Ka disa operatorë kërkimi që janë shumë të dobishëm në raste si ai i përshkruar më sipër. Nëse dëshironi të gjeni të gjitha URL-të e faqes tuaj që përmbajnë artikullin "fjala kyçe X", duhet të shkruani frazën e mëposhtme në kërkimin e Google:

siti: shembull.com titulli: "Fjala kyçe X"

Më pas Google do t'ju tregojë të gjitha faqet e identifikuara në sitin shembull.com dhe që përmbajnë fjalën kyçe të specifikuar. Sa më specifik të jetë titulli, aq më e lehtë do të jetë të eliminoni përmbajtjen e kopjuar. Ju mund ta përdorni këtë metodë për të identifikuar përmbajtjen e kopjuar në internet. Nëse, për shembull, titulli i plotë i artikullit tuaj është "Fjala kyçe X - pse është e bukur", duhet të përdorni frazën:

titulli: "Fjala kyçe X - pse është e bukur"

Dhe Google do t'ju japë të gjitha sajtet që përputhen me atë titull. Ndonjëherë ka kuptim të kërkoni qoftë edhe një ose dy fjali të plota nga artikulli juaj, pasi disa kruajtëse mund të ndryshojnë titullin. Në disa raste, një kërkim i tillë mund të rezultojë në shfaqjen e njoftimit të mëposhtëm në faqet e fundit të kërkimeve në Google:

Kjo është një shenjë se Google tashmë është i zënë me heqjen e përmbajtjeve të kopjuara. Por kjo ende nuk mjafton, ndaj ia vlen të ndiqni lidhjen dhe të shikoni të gjitha rezultatet e tjera për të parë nëse të paktën disa prej tyre mund të rregullohen.

4 Zgjidhje praktike për përmbajtje të kopjuar

Pasi të keni vendosur se cila URL është kanonike për një pjesë të caktuar të përmbajtjes suaj, duhet të kaloni te procesi i kanonizimit ("po, e di" provoni ta thoni këtë shpejt dhe me zë të lartë tri herë). Kjo do të thotë që ne duhet të informojmë motorët e kërkimit për versionin kanonik të faqes dhe t'i lëmë ta gjejnë atë sa më shpejt të jetë e mundur. Ekzistojnë katër zgjidhje të mundshme, sipas radhës së preferencës, ato janë renditur si më poshtë:

Mos krijoni përmbajtje të kopjuar
Ridrejto përmbajtjen e kopjuar në URL-në kanonike
Shtoni rel = atribut kanonik në faqen me përmbajtje të kopjuar
Shtoni lidhjen HTML nga faqja me përmbajtje të kopjuar në versionin kanonik të faqes

4.1 Si të shmangni përmbajtjen e kopjuar

Disa nga arsyet e mësipërme për përmbajtjen e kopjuar mund të eliminohen lehtësisht:

A ka ID të sesioneve në URL-të tuaja? Shpesh, thjesht mund të shkoni dhe t'i çaktivizoni në cilësimet e sistemit.
A keni versione të printueshme të faqeve? Nuk ka nevojë për to: thjesht duhet të përdorni CSS për ta stiluar atë për printim.
A po përdorni faqet e komenteve në WordPress? Thjesht duhet ta çaktivizoni këtë veçori (në seksionin e cilësimeve të 99% të faqeve).
A mbetet rendi i parametrave i njëjtë? Tregojini programuesit tuaj të shkruajë një skrip që gjithmonë do të rendit parametrat (shpesh i referuar si "fabrika URL").
A ka ndonjë problem me ndjekjen e lidhjeve? Në shumicën e rasteve, ju mund të vendosni një fushatë gjurmimi hashtag në vend të përdorimit të parametrave.
A keni ndonjë problem me "WWW dhe jo-WWW"? Zgjidh një ose më shumë dhe më pas ridrejto te pjesa tjetër e adresës. Ju gjithashtu mund të personalizoni preferencat duke përdorur Google Webmaster Tools, por të dy versionet e emrit të domenit duhet të jenë tuajat.

Edhe nëse zgjidhja e problemit tuaj nuk është e lehtë, përpjekja mund t'ia vlejë. Qëllimi duhet të jetë parandalimi i shfaqjes së përmbajtjes së kopjuar pasi kjo është zgjidhja më e mirë.

4.2 301 ridrejtime të kopjuara të përmbajtjes

Ka raste kur thjesht nuk është e mundur të shmangni plotësisht sistemin duke përdorur URL të pasakta (për përmbajtjen), por mund të ketë raste kur mund të përfitoni nga ridrejtimet. Nëse mendoni se nuk ka logjikë në këtë (mund t'ju kuptoj), thjesht mos harroni ta mbani mend këtë kur flisni me zhvilluesit. Kur punoni për çështjet e përmbajtjes suaj të kopjuar, sigurohuni që të ridrejtoni të gjithë përmbajtjen e kopjuar nga URL-të e vjetra në ato kanonike.

4.3 Përdorimi i lidhjeve

Ndonjëherë, edhe pse e dini që URL-ja është e gabuar, ju nuk dëshironi ose nuk mund të hiqni qafe versionin e kopjuar të artikullit. Për të zgjidhur këtë problem, motorët e kërkimit paraqesin një element lidhje kanonike të vendosur në kokën e faqes tuaj dhe që ka formën e mëposhtme:

lidhje rel = "kanonike" href = "http://example.com/wordpress/seo-plugin/

Ju po caktoni url-në e saktë kanonike për artikullin tuaj në atributin href të lidhjes kanonike. Kur një motor kërkimi që mbështet lidhje kanonike has në një element të tillë, ai kryen 301 ridrejtime, duke i dhënë kështu pothuajse të gjithë vlerën e fituar nga faqja në versionin e saj kanonik.

Vërtetë, do të jetë më e shpejtë të përdorni drejtpërdrejt ridrejtimet 301 dhe për këtë arsye, nëse keni një zgjedhje, duhet t'i jepni përparësi asaj.

Përmbajtja e kopjuar zakonisht i referohet blloqeve të mëdha të informacionit brenda një ose më shumë domeneve, përmbajtja e të cilave është ose plotësisht e njëjtë ose shumë e ngjashme. Si rregull, në këtë rast, qëllimi nuk është të mashtroni përdoruesin. Përmbajtja e kopjuar mund të përdoret pa qëllime keqdashëse, për shembull:

faqet e forumit në versionet e rregullta të faqeve dhe versionet për pajisjet mobile;
produktet në dyqanin online shfaqen kur klikoni në URL të ndryshme;
versionet e faqeve për printim.

Nëse faqja juaj përmban shumë faqe me pothuajse të njëjtën përmbajtje, mund të specifikoni URL-në tuaj të preferuar për Google. Kjo mund të bëhet në një sërë mënyrash. Kjo procedurë quhet "normalizim".

Megjithatë, në disa raste, përmbajtja dyfishohet qëllimisht nëpër fusha të ndryshme për të manipuluar renditjen e motorëve të kërkimit ose për të rritur trafikun. Përdorimi i teknikave mashtruese si kjo mund të lërë një përshtypje negative te përdoruesit, pasi ata do të shohin një pjesë të madhe të përmbajtjes së njëjtë, të përsëritur në rezultatet e kërkimit.

Google bën çmos për të indeksuar dhe shfaqur faqet me informacione unike. Për shembull, nëse faqja juaj ka një version "standard" dhe "print" të çdo artikulli që nuk është shënuar me meta-etiketën noindex, vetëm njëri prej tyre do të shfaqet në rezultatet e kërkimit. Në rastet e rralla që Google beson se përmbajtjet e kopjuara po shfaqen për të manipuluar renditjen ose për të mashtruar përdoruesit, ne do të përditësojmë indeksin dhe renditjen e sajteve në fjalë. Si rezultat, renditja e sajtit mund të ulet ose faqja mund të hiqet plotësisht nga indeksi i Google dhe do të jetë i padisponueshëm për kërkim.

Më poshtë janë udhëzimet se si të shmangni problemet e përmbajtjes së kopjuar dhe t'i bëni përdoruesit të shohin përmbajtjen që dëshironi.

Përdorni 301. Nëse keni ndryshuar strukturën e faqes tuaj, përdorni një ridrejtim 301 ("ridrejtim i përhershëm") në skedarin tuaj .htaccess për të ridrejtuar shpejt përdoruesit, zvarritësin e Google dhe merimangat e ndryshme. (Për Apache, kjo mund të bëhet përmes skedarit .htaccess. Për IIS, përmes konsolës së administratorit.)

Jini të qëndrueshëm... Mundohuni të përdorni lidhjet e brendshme vazhdimisht. Për shembull, mos u lidhni me http://www.example.com/page/, http://www.example.com/page dhe http://www.example.com/page/index.htm.

Përdorni domenet e nivelit të lartë... Për të na ndihmuar të zgjedhim versionin më të përshtatshëm të një dokumenti, përdorni domenet e nivelit të lartë sa herë që është e mundur për të shfaqur përmbajtje specifike për shtetin. Për shembull, përmbajtja në lidhje me Rusinë rekomandohet të vendoset në faqen http://www.example.ru, dhe jo në faqen http://www.example.com/ru ose http://en.example. com.

Kini kujdes kur bëni sindikata... Nëse e ofroni përmbajtjen tuaj në sajte të tjera, atëherë me çdo pyetje kërkimi, Google do të tregojë gjithmonë versionin që e konsideron më të përshtatshëm për përdoruesit. Ky version nuk është domosdoshmërisht i njëjti version që do të zgjidhnit. Sidoqoftë, ia vlen të siguroheni që të gjitha faqet që presin përmbajtjen tuaj të kenë një lidhje me artikullin origjinal. Ju gjithashtu mund t'u kërkoni pronarëve të sajteve që përdorin materialin tuaj të përbashkët që ta bllokojnë atë duke përdorur meta-etiketën noindex, në mënyrë që motorët e kërkimit të mos përfshijnë versionet e tyre në indeks.

Përdorni Search Console për të njoftuar Google për metodën tuaj të preferuar të indeksimit. Në veçanti, mund të specifikoni domenin kryesor (për shembull, http://www.example.com ose http://example.com).

Shmangni përsëritjet... Për shembull, në vend që të vendosni të gjithë tekstin e të drejtës së autorit në fund të çdo faqeje, përfshini vetëm informacionin më bazë me një lidhje në faqen që ofron versionin e detajuar. Ju gjithashtu mund të përdorni veglën Parametrat e URL-së për të zgjedhur mënyrën e preferuar të Google për të trajtuar parametrat e URL-së.

Mos përdorni cung softuerësh. Përdoruesit nuk janë të interesuar për faqet bosh. Për shembull, mos publikoni faqe, përmbajtja e të cilave nuk është ende gati. Nëse nuk mund të bëni pa faqe mbajtëse të vendeve, bllokojini ato me meta-etiketën noindex në mënyrë që të mos indeksohen.

Eksploroni sistemin tuaj të menaxhimit të përmbajtjes... Njihuni me mënyrën se si shfaqet përmbajtja në faqen tuaj. Blogjet, forumet dhe sistemet e tjera të ngjashme shpesh shfaqin të njëjtën përmbajtje në formate të shumta. Për shembull, një postim në blog mund të shfaqet në faqen kryesore të blogut, në një faqe me arkiva ose në një faqe me postime të tjera - dhe gjithmonë nën të njëjtin titull.

Zvogëloni sasinë e përmbajtjes së lidhur... Nëse faqja juaj ka shumë faqe të ngjashme, shtoni përmbajtje unike në secilën prej tyre ose kombinoni ato në një. Supozoni se keni një faqe udhëtimi me faqe të veçanta për dy qytete që paraqesin të njëjtin informacion. Në vend të kësaj, mund të vendosni një faqe me një përshkrim të të dy qyteteve ose të shtoni materiale unike për secilin.

Google nuk rekomandon bllokimin e zvarritësve të motorëve të kërkimit nga aksesi në përmbajtje të kopjuar duke përdorur një skedar robots.txt ose mjete të tjera. Nëse motorët e kërkimit nuk janë në gjendje të zvarritin faqet me përmbajtje të tillë, atëherë ata nuk do të jenë në gjendje të zbulojnë automatikisht që URL të ndryshme kanë të njëjtën përmbajtje dhe do t'i trajtojnë ato si faqe unike. Mundësia juaj më e mirë është të lejoni zvarritjen e këtyre URL-ve, por t'i shënoni si kopje të sakta duke përdorur një lidhje rel = "kanonike", mjet përpunimi të parametrave të URL-së ose ridrejtime 301. Nëse të kesh kopje të shumta ngadalëson ndjeshëm zvarritjen e faqes, rregullo shkallën e zvarritjes në Search Console.

Prania e përmbajtjes së kopjuar në faqe nuk përbën bazë për të ndërmarrë ndonjë veprim në lidhje me të. Masa të tilla zbatohen vetëm nëse bëhen me qëllim të mashtrimit të përdoruesve ose manipulimit të rezultateve të kërkimit. Nëse keni probleme me përmbajtjen e kopjuar, por nuk keni ndjekur këshillat e mësipërme, atëherë ne do të zgjedhim versionin e përmbajtjes për t'u shfaqur në rezultatet e kërkimit sipas gjykimit tonë.

Megjithatë, nëse rezultatet tona të verifikimit tregojnë se ju keni përdorur mashtrim dhe faqja juaj është hequr nga rezultatet e kërkimit tonë, ju lutemi rishikoni faqen tuaj me kujdes. Shikoni Udhëzuesin tonë të Uebmasterit dhe bëni ndryshimet e nevojshme. Pasi të siguroheni që faqja i plotëson kërkesat, na dërgoni një kërkesë.

Në disa raste, algoritmet e Google mund të zgjedhin URL-në e një sajti të palës së tretë që ka postuar kopje të përmbajtjes suaj pa leje. Nëse përmbajtja juaj është postuar në një faqe tjetër në kundërshtim me të drejtën e autorit, kërkoni nga pronari që ta heqë atë përmbajtje. Ju gjithashtu mund t'i kërkoni Google që të heqë faqen e shkeljes nga rezultatet e kërkimit. Për ta bërë këtë, duhet të paraqisni një njoftim për shkeljen e Aktit të të Drejtave të Autorit të Mijëvjeçarit Dixhital të SHBA.

A të ndihmoj kjo?

Si mund ta përmirësoni këtë artikull?