Contenuto duplicato: cause e soluzioni. Contenuto duplicato

27.04.2019 Sistema operativo

Il contenuto duplicato è uno dei principali problemi di basso posizionamento di un sito nei motori di ricerca. Questo problema è causato dalla presenza di pagine del sito completamente o parzialmente identiche tra loro. Naturalmente, per i motori di ricerca, la presenza di pagine spazzatura sul sito è un problema serio, dal momento che devi spendere la potenza del server per elaborarle. Non ha senso che i motori di ricerca sprechino risorse fisiche indicizzando contenuti così inutili. Pertanto, combattono tali siti applicando loro un filtro o sottovalutandoli nella classifica, il che porta a posizioni basse per le query promosse.

Duplicato e SEO

La presenza di pagine duplicate sul sito porta al fatto che:

Il succo di link utili viene sperperato su queste pagine inutili.
Pagina duplicata dopo lo spostamento del prossimo aggiornamento pagina di destinazione e lei sta perdendo terreno.
Il contenuto duplicato riduce l'unicità di tutte le pagine su cui è posizionato.
Poiché il motore di ricerca lotta con tali pagine, rimuovendole dalla ricerca, potrebbe escludere anche la pagina promossa.

Classificazione dei duplicati e soluzioni per eliminarli

I duplicati possono essere completi o parziali. I duplicati completi si verificano quando le pagine sono completamente identiche. Di conseguenza, i duplicati parziali si verificano quando le pagine non corrispondono completamente. I duplicati completi vengono eliminati tramite robots.txt e l'impostazione di reindirizzamento 301. I duplicati parziali vengono eliminati apportando le modifiche necessarie sul sito.

Ecco un elenco di liste di controllo che è necessario esaminare per identificare e risolvere il problema dei duplicati:

Cerca duplicati pagina iniziale luogo. Ad esempio, potrebbero esserci le seguenti varianti della pagina principale: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http https://domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Come puoi vedere, ci sono molte opzioni, ma l'opzione migliore è http://www.domen.com/. Per eliminare le restanti copie della pagina principale si utilizza un reindirizzamento 301 e chiusura in robots.txt (nel caso di strutture come https://www.domen.com/.
Controllo del fondamentale (oro Regole SEO) - ogni pagina dovrebbe essere disponibile solo a un indirizzo. Non è consentito che gli indirizzi varino come segue: http://www.domen.com/stranica1/stranica2/ e http://www.domen.com/stranica2/stranica1/.
Controllo della presenza di variabili nell'url. Loro, nell'indirizzo della pagina, non dovrebbero esserlo. Ad esempio, la generazione di URL come: http://www.domen.ru/index.php?dir=4567&id=515 è un errore. L'URL corretto sarebbe: http://www.domen.ru/dir/4567/id/515.
Verifica della presenza di identificatori di sessione negli URL. Ad esempio, URL come http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 non sono consentiti. Tali URL contengono un numero infinito di copie di ciascuna pagina. Pertanto, è necessario chiudere tutti gli identificatori di sessione in robots.txt.

Il contenuto duplicato è parzialmente o completamente lo stesso testo, immagini e altri elementi del contenuto del sito, disponibile a diversi indirizzi di pagina (URL). La presenza di duplicati può renderlo difficile promozione della ricerca luogo.

Secondo gli esperti, il contenuto duplicato è l'errore più comune ottimizzazione interna, che è presente su ogni seconda risorsa web.

Come verificare se ci sono duplicati sul tuo sito e come eliminarli? Ve ne parleremo nel nuovo numero della nostra mailing list.

Cosa sono i duplicati

I doppi sono chiari e sfocati (o completi e incompleti).

Cancella doppi - copiare pagine con esattamente lo stesso contenuto, contenuto Descrizione meta tag e Titolo disponibili a diversi indirizzi. Ad esempio, a pagina originale possono apparire i seguenti duplicati:

specchio con o senza WWW;
pagine con diverse estensioni (.html, .htm, index.php, parametro GET "?a=b", ecc.);
versione stampata;
versione per RSS;
la precedente forma dell'URL dopo aver cambiato il motore;
eccetera.

Doppio fuzzy - contenuti parzialmente identici su URL diversi.

Esempi di tali duplicati includono quanto segue:

schede della stessa tipologia merceologica con descrizione ripetuta o mancante;
annunci di articoli, novità, prodotti di diverse categorie, su tag page e impaginazione;
archivi di dati nei blog;
pagine in cui i blocchi end-to-end superano in volume il contenuto principale;
pagine da testi diversi, ma identico a Titolo e Descrizione.

Perché i duplicati sono pericolosi per la promozione

1. Difficoltà nell'indicizzare il sito (e determinare la pagina principale)

A causa dei duplicati, il numero di pagine nel database dei motori di ricerca potrebbe aumentare più volte, alcune pagine potrebbero non essere indicizzate, poiché una quota fissa del numero di pagine viene assegnata al robot di ricerca per aggirare il sito.

Diventa più difficile determinare la pagina principale che entrerà nei risultati di ricerca: la scelta del robot potrebbe non coincidere con la scelta del webmaster.

2. La pagina principale del numero può essere sostituita da un duplicato

Se il doppio riceverà buon traffico e metriche comportamentali, poi con il prossimo aggiornamento può sostituire la pagina principale (promossa) nei risultati di ricerca. Allo stesso tempo, le posizioni nella ricerca "affonderanno", perché il duplicato non avrà popolarità di collegamento.

3. Perdita di collegamenti esterni alla pagina principale

4. Il rischio di cadere sotto il filtro PS

Sia Yandex che Google stanno lottando con contenuti non univoci e quindi possono essere applicati a un sito "intasato". Filtri AGS e panda.

5. Perdita di pagine significative nell'indice

I duplicati incompleti (pagine di categoria, notizie, schede prodotto, ecc.) a causa della scarsa unicità hanno la possibilità di non entrare affatto nell'indice del motore di ricerca. Ad esempio, questo può accadere con una parte delle schede prodotto che algoritmo di ricerca considerati duplicati.

Come trovare ed eliminare i duplicati sul sito

Essendo il proprietario del sito, anche senza conoscenze e abilità speciali, puoi trovare autonomamente duplicati sulla tua risorsa. Di seguito sono riportate le istruzioni per trovare ed eliminare i contenuti duplicati.

Cerca duplicati completi

Più modo veloce trova duplicati completi sul sito - traccia una corrispondenza Tag del titolo e Descrizione. Per fare ciò, puoi utilizzare il pannello webmaster di Google o il servizio Xenu, popolare tra i SEO. La ricerca viene condotta tra le pagine indicizzate.

Contro: non tutti i duplicati possono (e devono) essere eliminati (ad esempio, versioni di pagine con tag pubblicitari); duro lavoro che richiede in gran numero pagine per molto tempo. Non esclude la comparsa di nuovi duplicati. Il peso dei duplicati non viene trasferito alla pagina principale.

Pro: non richiede particolari capacità di programmazione.

6. Soluzioni già pronte per CMS popolari

Gli sviluppatori del popolare CMS hanno fornito una serie di soluzioni per prevenire i duplicati. Allo stesso tempo, quando lavorano con il motore, i webmaster devono configurare attentamente le impostazioni. Se hai trascurato qualcosa e continuano a comparire dei duplicati, non è mai troppo tardi per sistemare tutto ed eliminare le copie. Istruzioni chiare per la configurazione del motore e l'utilizzo dei plug-in SEO possono essere trovate su blog specializzati e sui forum di WordPress, Joomla, Drupal, Bitrix e altri CMS ampiamente rappresentati.

Plugin SEO utili per combattere i duplicati:

WordPress: pacchetto SEO tutto in uno, Clearfy;
Drupal: reindirizzamento globale, titolo della pagina;
Joomla: collegamenti canonici tutto in uno, JL No Dubles.

7. Combatti a livello di motore

Una soluzione universale per una varietà di CMS è prevenire la comparsa di nuovi duplicati a livello di motore. È necessario impostare una condizione in base alla quale, nel processo di elaborazione dell'indirizzo Collegamenti CMS distinguerà "buono" da "cattivo" e visualizzerà nella barra del browser solo quelli consentiti dalla regola. Ciò eviterà la formazione di pagine sinonime (con e senza il segno "/", con una desinenza .html non necessaria, parametri GET, ecc.), ma non proteggerà dai duplicati se le pagine non hanno un Titolo e una Descrizione univoci.

Per l'implementazione questo metodo la seguente regola deve essere inclusa nel file .htaccess:

RewriteEngine su RewriteCond %(REQUEST_FILENAME) !-d RewriteCond %(REQUEST_FILENAME) !-f RewriteRule ^(.*)$ index.php

Inoltre, si dovrebbe implementare controlli necessari nel motore stesso.

Il metodo è diverso elevata complessità e richiede il contatto con specialisti dello sviluppo.

Contro: grado di complessità estremamente elevato.
Pro: impedisce la comparsa di pagine sinonime.

Cerca duplicati incompleti

1. Cerca utilizzando il webmaster di Google o il servizio Xenu

L'algoritmo delle azioni in questi servizi è assolutamente lo stesso della ricerca di duplicati completi. L'unica differenza è che tra i duplicati trovati, è necessario selezionare quelle pagine che hanno Titolo e/o Descrizione identici, ma contenuto completamente diverso.

Come risultato di una ricerca su Google, abbiamo trovato un gruppo di duplicati incompleti (Fig. 2).

Riso. 2. Notizie completamente diverse con metadati duplicati

2. Stiamo cercando nella barra di ricerca Yandex o Google

Le pagine con contenuti parzialmente simili, ma con metadati diversi nel modo sopra indicato non saranno in grado di identificare. In questo caso, dovrai lavorare manualmente.

Innanzitutto, evidenzia in modo condizionale le aree a rischio:

contenuto scadente (i blocchi trasversali superano in volume il testo principale della pagina);
contenuto copiato (descrizione di prodotti simili);
intersezione dei contenuti (annunci, intestazioni/sottodirectory, filtri, ordinamento).

Seleziona più pagine da ciascun gruppo.

Per un'illustrazione visiva dell'esempio, abbiamo utilizzato una delle schede prodotto sul sito Web di un negozio di mobili che è stato verificato nella nostra sezione "Competenze". La probabilità che appaiano duplicati qui è piuttosto alta, poiché le carte sono dominate da immagini e blocchi trasversali e contenuto unico minimizzato.

Specificare in linea ricerca Google un frammento di testo dalla descrizione del prodotto, racchiuso tra virgolette, e il dominio del sito con l'operatore site: (Fig. 3).

Molti proprietari di siti si concentrano principalmente sulla creazione di contenuti unici rispetto ad altri siti. Tuttavia, non perdere di vista la presenza di contenuti duplicati all'interno dello stesso sito. Questo ha anche un forte impatto sulla classifica.

Cosa sono i contenuti duplicati

I contenuti ripetitivi o duplicati sono blocchi volumetrici di testo che corrispondono all'interno del sito su pagine diverse. Questo non è necessariamente fatto con intenti dannosi - più spesso si verifica per motivi tecnici, che sono discussi in dettaglio di seguito.

Il pericolo sta nel fatto che spesso i contenuti duplicati non sono visibili ad occhio nudo, ma il motore di ricerca li vede perfettamente e reagisce di conseguenza.

Da dove viene il contenuto duplicato e dove è più comune?

Le ragioni principali di questo fenomeno:

Modificare la struttura del sito;
Uso intenzionale in scopi specifici(diciamo, versioni stampabili);
Azioni errate di programmatori e webmaster;
Problemi con CMS.

Ad esempio, una situazione comune è: replytocom (risposta a un commento) in WordPress genera automaticamente nuove pagine con URL diversi, ma senza contenuto.

Di solito, si notano contenuti duplicati quando si creano annunci di articoli su altre pagine del sito, si pubblicano recensioni, nonché con le stesse descrizioni di prodotti, categorie, intestazioni.

Perché i contenuti duplicati sono dannosi

Il contenuto ripetitivo ha una controparte nel campo dell'economia: uno scoperto in banca. Solo qui viene speso il cosiddetto crawling budget. Questo è il numero di pagine di risorse che possono essere scansionate in un determinato periodo di tempo. motore di ricerca. La risorsa è molto preziosa ed è meglio spenderla in pagine davvero importanti e pertinenti che in dozzine di duplicati di testo identico.

Pertanto, il contenuto duplicato peggiora la promozione della ricerca. Inoltre, sono persi legami naturali e il peso del collegamento distribuito in modo errato all'interno del sito. Sostituisce anche le pagine veramente rilevanti.

Come trovare contenuti duplicati sul sito (manualmente, programmi e servizi)

Esiste programmi speciali per l'analisi delle risorse Di questi, gli utenti evidenziano in particolare Netpeak Spider. Lei sta cercando copie complete pagine, corrispondenze per titolo o descrizione, intestazioni. Un'altra opzione è Screaming Frog, che ha funzionalità simili e differisce essenzialmente solo nell'interfaccia. C'è anche l'applicazione Link Sleuth di Xenu, che funziona in modo simile a un motore di ricerca ed è in grado di setacciare abbastanza bene il sito alla ricerca di duplicati.

Sfortunatamente, non esistono strumenti in grado di tracciare completamente tutti i duplicati del testo. Pertanto, molto probabilmente, dovrai eseguire un controllo manuale. Ecco un elenco di possibili fattori che causano il problema:

Capito come trovare contenuti duplicati. E i migliori aiutanti nella lotta contro di esso ci sono reindirizzamenti 301, tag URL canonici, istruzioni in robots.txt e parametri Nofollow e Noindex come parte del meta tag "robots".

Uno dei modi per frettolosamente controlla se il sito ha contenuti duplicati, è una ricerca avanzata in Yandex o Google. Devi inserire l'indirizzo del sito e una parte di testo della pagina che decidi di controllare. Puoi anche utilizzare numerosi programmi per verificare l'unicità del testo:

Testo.Ru;
eTXT Antiplagio;
Advego Plagiato;
guardare i contenuti.

Come gestire e ripulire i contenuti duplicati

Lo stesso sistema di riferimento Google fornisce una serie di suggerimenti per evitare che questo problema si verifichi.

301. Quando si apportano modifiche strutturali a una risorsa, è necessario specificare un reindirizzamento 301 nel file htaccess.
Uso singola norma link.
Il contenuto per una regione specifica è meglio posizionato sui domini livello superiore che su sottodomini o sottodirectory.
Imposta il tuo metodo di indicizzazione preferito utilizzando Search Console.
Non utilizzare modelli. Invece di inserire il testo del copyright su ogni pagina, è meglio creare un collegamento che conduca a una pagina separata con questo testo.
Quando sviluppi nuove pagine, assicurati che siano chiuse dall'indicizzazione finché non sono pronte.
Comprendi esattamente come vengono visualizzati i tuoi contenuti: potrebbero esserci differenze nella visualizzazione nei blog e nei forum.
Se ci sono molti articoli simili sul sito, è meglio combinare i loro contenuti in un insieme o unici ciascuno.

I motori di ricerca non prevedono alcuna sanzione contro i siti che hanno contenuti duplicati per motivi tecnici (al contrario di quelli che lo fanno intenzionalmente per manipolare i risultati di ricerca o fuorviare i visitatori).

Dopo che i duplicati sono stati rimossi, resta da rimuoverli da risultati di ricerca. Yandex lo fa da solo, a condizione che il file robots.txt sia impostato correttamente. Per quanto riguarda Google: lì dovrai scrivere manualmente le regole in Webmaster, nella scheda "Parametri URL".

Conclusione

La lotta contro i contenuti duplicati sul sito è un aspetto importante dell'attività del proprietario di qualsiasi sito. Ci sono parecchie ragioni per il suo verificarsi e altrettanti modi per eliminarlo.

Tuttavia, la regola principale rimane: pubblicare solo contenuti originali, indipendentemente dal tipo di sito. Anche se è un grande negozio online con migliaia di pagine.

RICEVI ANNUNCI DI POST SIMILI NELLA TUA POSTA

Iscriviti e ricevi non più di una volta alla settimana qualcosa di interessante dal mondo del marketing su Internet, SEO, promozione di siti Web, negozi online, guadagni sui siti Web.

Il contenuto duplicato peggiora l'indicizzazione del sito

“Diverse strade portano a luoghi diversi, e solo una di esse è quella giusta”

Ciao amici! Ho in programma da tempo di rivelare questo argomento sulle pagine del mio sito, quindi, dopo aver studiato molto materiale sulla duplicazione dei contenuti e le sue cause, conseguenze e modi per eliminare questo fenomeno negativo, ho deciso di esprimere il mio pensiero su questo problema sulla mia modesta risorsa.

Sii paziente e studia attentamente tutte le raccomandazioni dell'articolo, quindi controlla lo stato delle tue risorse. Se vuoi vedere un ottimo posizionamento delle pagine dei tuoi siti nei motori di ricerca, seguili rigorosamente.

Non rivendicare tutto modi possibili eliminando le cause dei contenuti duplicati, suggerirò comunque di esplorare di più punti importanti questa domanda.

Se utente abituale(e talvolta lo stesso webmaster) potrebbe non notare il contenuto duplicato sul sito, quindi i motori di ricerca lo determineranno immediatamente. La loro reazione sarà inequivocabile: contenuti da queste pagine non più unico. E questo è già un male, poiché influenzerà negativamente la loro classifica.

Inoltre, duplicazione offusca il peso di riferimento, a un post specifico che, ottimizzando, stavi cercando di promuovere al TOP come landing page. I duplicati rovineranno semplicemente tutti i tentativi di ottimizzarlo e l'effetto del ricollegamento sarà minimo.

Che cos'è il contenuto duplicato?

1. Contenuto copiato da qualcuno o da te personalmente e pubblicato su risorse di terze parti.

Puoi leggere molti articoli su Internet su come gestire i contenuti rubati, poiché una delle opzioni è il mio articolo. È possibile sterminare - una domanda retorica, e oggi, secondo me, decisioni cardinali Questo problema non è su Internet. Esistono solo alcuni metodi più o meno efficaci.

2. Il contenuto è un duplicato che il webmaster crea con le proprie mani.

Un duplicato completo (o incompleto) durante la distribuzione di informazioni (o, come vengono anche chiamate, annunci) su siti e forum speciali. Se vuoi ottenere un duplicato della tua voce su Internet - duplicalo su qualche risorsa decente - il risultato sarà quasi sempre immediato. La duplicazione è possibile direttamente sulle pagine del sito. Hai mai visto due pagine identiche sulla tua risorsa quando ne hai creata solo una? Perché sta succedendo? I motivi sono la modifica delle voci o il salvataggio di voci non finite nelle bozze e quindi, inavvertitamente, la creazione di un duplicato. Il webmaster, senza accorgersene lui stesso e in futuro senza esaminare tutti i suoi record per non trovare un duplicato, vive felice e contento, senza sospettare di avere "gemelli", "terzine", ecc.

3. Duplicazione per motivi tecnici: il verificarsi di duplicati di cui è responsabile il CMS.

Questi errori derivano dal fatto che gli sviluppatori di CMS non pensano come i browser o gli spider di ricerca, ma pensano come dovrebbero fare gli sviluppatori di motori di siti web; molti lo peccano - Joomla, per esempio.

Spiegherò un po '. Supponiamo di avere un articolo con frase chiave "contenuto duplicato". Dovrebbe trovarsi in una pagina con il seguente indirizzo:, http://domain.ru/duplicazione dei contenuti/, ma lo stesso contenuto può essere visualizzato in questo modo: http://domain.ru/article-category/duplicazione dei contenuti/. E se prendi in considerazione altre duplicazioni, pagine, ad esempio: http://domain.ru/duplicazione dei contenuti/?source=rss. Tutti questi URL sono indirizzi diversi per qualsiasi , ma uguali per l'utente (lettore). Queste differenze consentono al webmaster di risalire alla provenienza dell'utente, ma possono essere dannose se non vengono eseguite. impostazioni desiderate indicizzazione.

I siti sono noti per funzionare grazie a sistema esistente Banca dati. C'è solo una versione di un determinato articolo (ID) nel database, ma gli script del sito lo consentono visualizzare questo articolo dal database su pagine diverse (URL). Ma i motori di ricerca hanno bisogno di un documento (URL): solo che è un identificatore univoco e nient'altro!

4. Riprese sfocate.

Un tipo speciale di duplicazione, che si trova principalmente nei negozi online, dove le pagine con le schede dei prodotti differiscono solo per poche frasi con una descrizione, e tutti gli altri contenuti, costituiti da blocchi trasversali e altri elementi, sono gli stessi. È difficile incolpare il webmaster, anche se ci sono alcune opzioni per risolverli.

Quindi, abbiamo capito le cause e le conseguenze della duplicazione dei contenuti. Ora passiamo alla risoluzione dei problemi. Prima di tutto, scopriamolo

Come rilevare le pagine di copia?

1. Modo manuale.

1) Se il contenuto non è troppo grande, basta scorrere la pagina nel pannello di amministrazione "Tutti i record” e, se vengono trovati duplicati, eliminare quelli in più.

2) Per scoprire la presenza di duplicati, puoi utilizzare i servizi dei motori di ricerca Yandex Webmaster o Google Webmaster Tools.

Ad esempio, in Strumenti per i Webmaster, apri la pagina "Strumenti per i Webmaster" - "Ottimizzazione" - "Ottimizzazione HTML": se ci sono errori e duplicati, la procedura guidata ti mostrerà tutto. Comprendi con i clic, elimina errori e duplicati, allo stesso tempo.

3) Utilizzare direttamente le finestre di ricerca del sistema (metodo approssimativo). Immettere per ciascuno di essi una voce del modulo sito: domain.ru e confrontare i loro risultati. Se non sono molto diversi, la tua duplicazione non è poi così male.

4) C'è un modo efficace per trovare i duplicati: cercare nei frammenti di testo. Questo è fatto semplicemente: nella casella di ricerca di qualsiasi sistema, inserisci frammento di testo la tua voce (articolo) nella quantità di 10-20 parole (meglio dal centro) e analizza il risultato. La presenza di due o più pagine nei risultati di ricerca significa che ci sono duplicati per questa opera. In caso contrario, puoi rallegrarti un po ':).

È difficile se il sito ha accumulato molte pagine. Il controllo di cui sopra può diventare insopportabile Normale amministrazione. Se vuoi ridurre al minimo i costi di tempo, usa il programma L'investigatore Link di Xenu.

Per controllare il sito, è necessario aprire nuovo progetto, selezionando "File" "Controlla URL" dal menu, inserire l'indirizzo e fare clic su "OK". Successivamente, il programma inizierà a elaborare tutti gli URL del sito. Al termine del controllo, è necessario esportare i dati ricevuti in qualsiasi editor conveniente e inizia a cercare duplicati.

Chi ha bisogno di un link per scaricare il file di questo programma, annulla l'iscrizione nei commenti, invialo alla tua e-mail.

Quindi, abbiamo scoperto quali (principali) ragioni portano al verificarsi di contenuti duplicati. Ora troviamo modi per risolverlo.

Modi per eliminare i contenuti duplicati

URL canonici: una soluzione concettuale al problema

Se non hai la possibilità di () rimuovere i duplicati, il problema può essere risolto utilizzando il tag canonica l (usato per le copie fuzzy). Il tag canonical è adatto anche per le versioni pagine da stampare e in altri casi simili. Viene applicato in modo molto semplice: per tutte le copie viene specificato l'attributo rel="canonical", ma non per la pagina principale, che è la più rilevante. Il codice dovrebbe assomigliare a questo: link rel="canonical" href="http://domain.ru/page-copy"/ e trovarsi all'interno del tag head.

Per gli utenti con Motore WordPress c'è una grande opportunità per fare tutto questo automaticamente installando il plug-in seo pack tutto in uno o simili. Nelle impostazioni, questa operazione è impostata con etichette:

Impostazione delle funzioni di non autorizzazione nel file robots.txt del tuo sito

Sebbene la configurazione delle pagine di blocco per l'indicizzazione non sia sempre modo effettivo dai duplicati, poiché i motori di ricerca a volte riescono a bypassarli, ma un robot.txt correttamente configurato faciliterà notevolmente il compito di prevenirli.

Conwwwo senzawww

Come appariranno le pagine del tuo sito - solo con usando http o http.www? L'incertezza genererà la duplicazione. Immediatamente, dopo aver creato il sito, determina quale protocollo di trasporto ipertestuale utilizzerai. Per fare ciò, inserisci la tua scelta nei pannelli webmaster di Yandex e Google (in Google, questo può essere fatto per entrambe le versioni, ma dovrai confermare i diritti su entrambi gli indirizzi). È possibile lasciarlo per impostazione predefinita o "scegliere un robot di ricerca", ma è meglio essere chiaramente definiti.

Configurazione del reindirizzamento

Il reindirizzamento 301 è ottimo per incollare pagine di copia i cui URL differiscono in presenza e assenza di www. Come hai già capito (vedi lo screenshot sopra), anche l'impostazione di un reindirizzamento su WordPress è semplificata utilizzando un plug-in. In sostanza, se tu e il robot di ricerca avete "deciso" la vostra scelta - con www o senza di esso ci sarà un dominio principale, non è necessario impostare un reindirizzamento per tutte le pagine. Tuttavia, l'argomento dell'impostazione di un reindirizzamento e della sua convenienza è l'argomento di un articolo separato.

Risultati e conclusioni

non consentire la duplicazione di pagine (contenuti) sulle tue risorse, poiché i duplicati portano a una grave diminuzione della rilevanza delle pagine, il che rende difficile portarle in primo piano nei risultati di ricerca (TOP);
i problemi con la duplicazione dei contenuti per la maggior parte hanno una soluzione: per questo, utilizzare tutti i mezzi possibili;
monitorare costantemente il processo di indicizzazione dei tuoi contenuti e non creare duplicati su di essi

Questo è tutto, caro lettore. Se hai qualcosa da aggiungere o correggermi, fai una domanda: cogli l'occasione!

Non esattamente sull'argomento, ma sui gemelli.

(Visitato 28 volte, 1 visite oggi)

Sicuramente avrai sentito la frase "contenuto duplicato" più di una volta e, in quanto proprietario di un sito esperto, non pubblicheresti mai lo stesso contenuto due volte, giusto?

Il contenuto duplicato può essere paragonato a uno scoperto bancario. Solo in questo caso spendi il tuo prezioso budget di scansione.

Il crawl budget è il numero di pagine su un sito web che robot di ricerca può eseguire la scansione per un certo periodo di tempo. Pertanto, è così importante spenderlo nelle pagine di cui abbiamo bisogno.

Manifestandosi in varie forme, i contenuti duplicati possono diventare uno dei problemi più sfuggenti e invisibili che possono influenzare negativamente il posizionamento e la promozione di un sito. Il suo aspetto è spesso associato alle peculiarità dell'architettura del sito o ai limiti del CMS.

Sfortunatamente, non esiste un controllore di questo tipo Webmaster di Google e, che potrebbe facilmente rilevare contenuti duplicati. Anche il più avanzato strumenti di terze parti non sempre sono bravi in questo compito, specialmente quando la fonte del problema è dentro. Controllo manuale non può essere evitato.

Ecco un elenco con 8 potenziali motivi per la comparsa di pagine duplicate sul sito:

Pagine HTTP e HTTPS

Uno dei più controlli rapidi il fatto di avere due versioni del sito disponibili per l'indicizzazione è provare ad accedervi utilizzando entrambi i protocolli HTTP e HTTPS. Se entrambe le versioni si aprono, è ovvio che il tuo sviluppatore ha spostato il sito su HTTPS e non ha impostato un reindirizzamento 301 dalla versione HTTP.

Prima che Google iniziasse a incoraggiare attivamente i webmaster a migrare completamente i loro siti su HTTPS, molti abilitavano HTTPS solo su singole pagine chi aveva bisogno ulteriore sicurezza, come le pagine di accesso o le pagine delle transazioni. Se lo sviluppatore ha utilizzato collegamenti relativi, quindi ogni volta che un crawler visita pagine sicure, è costretto ad aggiungere HTTPS a tutti gli URL, il che alla fine porta a pagine duplicate.

Allo stesso modo bisogna verificare se il sito ha due versioni di pagine sia con WWW che senza WWW. Puoi risolvere questo problema impostando un reindirizzamento 301 e specificando il tuo dominio preferito (mirror principale) in Google Webmaster.

Siti che rubano i tuoi contenuti

Sebbene non esista una legislazione in vigore per restituirti i contenuti rubati, ci sono solo modi in cui puoi utilizzare il codice per rendere più difficile per i ladri spacciare i tuoi contenuti come propri. Per fare questo, usa sempre i link assoluti sul sito invece di quelli relativi:

Link assoluti: http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (inizia con il protocollo e contiene il nome del sito).
Link relativi:/wiki/dublirovannyi-kontent.html (origina dalla radice del sito o dal documento corrente).

Perché è importante? Quando si utilizzano URL relativi, il browser presuppone che il collegamento punti a una pagina in cui ci si trova già. Alcuni sviluppatori preferiscono gli URL relativi perché semplificano la scrittura del codice.

Se lo sviluppatore non desidera riscrivere l'intero sito, è possibile utilizzare tag canonici autoreferenziali. Quando i tuoi contenuti sono ospitati su un altro sito, i tag canonici potrebbero rimanere, aiutando Google a stabilire che il tuo sito è la fonte originale dei contenuti.

Per scoprire se il tuo contenuto è stato rubato, puoi utilizzare uno qualsiasi dei servizi gratuiti(ad es. Siteliner, Copyscape. Etxt, AdvegoPlagiatus, ecc.)

Sottodomini abbandonati

Supponiamo che tu abbia rinunciato a un sottodominio e abbia deciso di utilizzare invece una sottodirectory. Oppure, ad esempio, hai creato un sito Web completamente nuovo. In ogni caso, i tuoi vecchi contenuti potrebbero essere ancora accessibili e, inoltre, potrebbero avere un effetto negativo sul posizionamento delle nuove pagine. Il modo migliore per risolvere il problema è utilizzare un reindirizzamento 301 da questo sottodominio al nuovo sito/directory. Questo è particolarmente importante se la tua vecchia risorsa ha una grande massa di link.

Pagine nascoste in fase di sviluppo

Hai deciso di aggiornare il design? Stai preparando il tuo sito web per un grande cambiamento? Se prima non hai chiuso le tue pagine di prova (e ancor di più le versioni dev del sito) dall'indicizzazione, allora non sei immune dal fatto che il robot non le rileverà.

C'è un malinteso comune secondo cui nessuno immaginerà mai di inserire un URL fittizio nella riga del browser sul tuo sito http://razrabotka.sait.ru/, se non c'è alcun collegamento ad esso da nessuna parte nel codice, sembra che questo è semplicemente irrealistico. Ma non lo è! Google è costantemente alla ricerca e all'indicizzazione di nuove pagine Web, comprese quelle in fase di sviluppo. Tutto ciò può influenzare i risultati della classifica, oltre a fuorviare gli utenti.

Questo non solo ha un impatto enorme sul sito in termini di privacy e sicurezza, ma può anche incidere pesantemente sul crawl budget. Evitare ciò è semplice: usa il meta tag robots c noindex su tutte le pagine di test o bloccale nel file robots.txt.

Entrambe le opzioni indicano il divieto di indicizzare il testo e seguire i collegamenti nella pagina.

Ricorda che quando sposti le pagine dalla modalità dev alla live, devi rimuovere queste direttive di blocco dal codice.

Parametri generati dinamicamente nell'URL

Molto spesso, gli URL dinamici vengono generati in base ai filtri utilizzati sul sito. Che aspetto hanno esattamente questi URL?

URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble

Questo è un semplice esempio, tuttavia il tuo CMS potrebbe aggiungere varie opzioni filtra e genera stringhe di URL inutilmente lunghe che possono essere scansionate da un crawler.

Pertanto, Google può creare e indicizzare infinite combinazioni di URL che l'utente non richiede nemmeno.

IN questo caso, applica un tag canonico con il tuo URL preferito e configura le opzioni di scansione degli URL in Google Webmaster.

Puoi saltare questo passaggio e bloccare determinati URL nel file robots.txt utilizzando il simbolo (*) per impedire l'indicizzazione di qualsiasi elemento nel file robots.txt. directory specificata. Ad esempio: Non consentire:/cioccolato/torta/*

Sottodirectory speculari

La tua azienda opera in più regioni? Alcune aziende preferiscono creare una pagina di destinazione principale che consenta agli utenti di selezionare la regione più adatta a loro e quindi reindirizzarli alla sottodirectory appropriata. Per esempio:

URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de

Sebbene possa sembrare logico, considera se questa impostazione è davvero necessaria. Dopotutto, mentre ti rivolgi a un pubblico diverso, c'è la possibilità che entrambe le sottodirectory si duplichino completamente a vicenda nel contenuto. Per risolvere questo problema, utilizza Google Webmaster per impostare il targeting geografico.

Diffusione dei contenuti

Diffusione di contenuti - riutilizzare lo stesso contenuto su risorse diverse al fine di promuovere il tuo sito Web/brand/contenuto e attirare traffico aggiuntivo.

La sindacazione è ottimo modo conoscere nuovo pubblico con il tuo sito, tuttavia, vale la pena definire regole per chi ripubblicherà i tuoi contenuti.

Idealmente, agli editori dovrebbe essere chiesto di utilizzare l'attributo "rel=canonical" nella pagina del contenuto per indicare motori di ricerca che il tuo sito web è la fonte originale del contenuto. Inoltre, possono anche impedire l'indicizzazione dei contenuti, il che risolverà potenziali problemi di duplicazione nei risultati di ricerca.

Dopotutto, gli editori possono ricollegarsi all'articolo originale, accreditandoti come fonte originale.

Contenuto relativo

Contenuti simili possono causare tanto danno quanto contenuti duplicati. IN definizione di Google la frase "sostanzialmente simile" compare anche sui contenuti duplicati. E anche se parti del materiale possono essere diverse nella sintassi, regola generaleè che se puoi ottenere le stesse informazioni da loro, allora non c'è motivo per cui entrambi esistano sul sito web. In questo caso, un'ottima soluzione al problema è utilizzare il tag canonical o prendere in considerazione la combinazione di questi contenuti in uno solo.

riscontri

È molto importante tenere traccia della comparsa di contenuti duplicati sul sito per evitare di spendere il budget di scansione, poiché ciò impedisce al robot di trovare e indicizzare pagine nuove e necessarie per te. In questo caso, i migliori strumenti tag canonical, reindirizzamenti 301, attributi nofollow/noindex nel meta tag "robots" e direttive nel file robots.txt possono fungere da arsenale. Lavora sull'identificazione e la rimozione di contenuti duplicati aggiungendo questi punti di controllo al tuo audit SEO.