Come configurare smartphone e PC. Portale informativo

Contenuto duplicato. Contenuto duplicato

Il contenuto duplicato è uno dei principali problemi di posizionamento basso di un sito nei motori di ricerca. Questo problema è causato dalla presenza nel sito di pagine completamente o parzialmente identiche tra loro. Naturalmente, per i motori di ricerca, la presenza di pagine spazzatura sul sito è un problema serio, poiché per elaborarle è necessario spendere potenza del server. Non ha senso che i motori di ricerca sprechino risorse fisiche per indicizzare tali contenuti inutili. Pertanto, combattono tali siti applicando loro un filtro o sottovalutandoli nel ranking, il che porta a posizioni basse per le query promosse.

Duplicato e SEO

La presenza di pagine duplicate nel sito porta al fatto che:

  • Il succo di link utili viene sperperato su queste pagine inutili.
  • La pagina duplicata dopo l'aggiornamento successivo sposta la pagina di destinazione e perde la sua posizione.
  • Il contenuto duplicato riduce l'unicità di tutte le pagine su cui è posizionato.
  • Poiché il motore di ricerca ha difficoltà con tali pagine, rimuovendole dalla ricerca, potrebbe escludere anche la pagina promossa.

Classificazione dei duplicati e soluzioni per eliminarli

I duplicati possono essere completi o parziali. I duplicati completi sono quando le pagine sono completamente identiche. Di conseguenza, i duplicati parziali si verificano quando le pagine non corrispondono completamente. I duplicati completi vengono eliminati tramite robots.txt e l'impostazione di reindirizzamento 301. I duplicati parziali vengono eliminati apportando le modifiche necessarie sul sito.

Di seguito è riportato un elenco di liste di controllo che è necessario esaminare per identificare e risolvere il problema dei duplicati:

  • Cerca i duplicati della pagina principale del sito. Ad esempio, potrebbero esserci le seguenti varianti della pagina principale: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http ://domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Come puoi vedere, ci sono molte opzioni, ma l'opzione migliore è http://www.domen.com/. Per eliminare le copie rimanenti della pagina principale, viene utilizzato un reindirizzamento 301 e la chiusura in robots.txt (nel caso di strutture come https://www.domen.com/.
  • Verifica della fondamentale (regola d'oro della SEO): ogni pagina dovrebbe essere disponibile solo a un indirizzo. Non è consentito che gli indirizzi varino come segue: http://www.domen.com/stranica1/stranica2/ e http://www.domen.com/stranica2/stranica1/.
  • Verifica della presenza di variabili nell'URL. Loro, nell'indirizzo della pagina, non dovrebbero esserlo. Ad esempio, la generazione di URL come: http://www.domen.ru/index.php?dir=4567&id=515 è un errore. L'URL corretto sarebbe: http://www.domen.ru/dir/4567/id/515.
  • Verifica della presenza di identificatori di sessione negli URL. Ad esempio, non sono consentiti URL come http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451. Tali URL contengono un numero infinito di copie di ciascuna pagina. Pertanto, è necessario chiudere tutti gli identificatori di sessione in robots.txt.

Ciao amici! Il contenuto duplicato su un sito Web è cronico nell'e-commerce. Sembra che ogni piattaforma, non importa quanto sia ottimizzata per , crei una qualche forma di contenuto ripetitivo, impedendo al sito di raggiungere le massime prestazioni.

Come i contenuti duplicati sul tuo sito web uccidono la SEO

Innanzitutto, capiamo cos'è il contenuto duplicato. Forse non è proprio quello che pensi.

Contrariamente alla credenza popolare, non ci sono sanzioni per contenuti duplicati. Già nel 2008, Google scriveva sul proprio blog: “Mettiamo ogni cosa al suo posto una volta per tutte, ragazzi. Semplicemente non esiste una sanzione per contenuti duplicati".

Eppure c'è un problema molto reale ma meno visibile con questo tipo di contenuto. L'allentamento algoritmico o il degrado delle prestazioni si verifica con tutti i tipi di pagine che contengono contenuto ripetitivo.

Il contenuto duplicato su un sito compete con se stesso per le stesse parole chiave dell'argomento e condivide il peso dei collegamenti su due o più pagine.

Due cose puntano direttamente all'importanza nei motori di ricerca:

  1. pertinenza
  2. autorità

Avere più di una pagina presa di mira dalla stessa pagina le rende sempre meno rilevanti per i motori di ricerca perché è difficile per loro capire per quale pagina classificarsi. E poiché più pagine sono collegate dalle stesse chiavi, i collegamenti che avrebbero potuto eseguire il backup di una pagina supportano invece debolmente ciascuna di quelle pagine senza trarne beneficio.

L'indebolimento in questo caso significa segnali più deboli inviati dal sito ai motori di ricerca, il che influisce sulla sua capacità di posizionamento.

Perché non c'è nessuna punizione per questo?

Nel mondo di Google, la punizione viene amministrata manualmente da una persona reale del dipartimento di qualità web del sistema quando una particolare pagina o sito rientra nella definizione stabilita di spam. Qualcuno deve sanzionare fisicamente la risorsa se è davvero una punizione. L'indebolimento è di natura algoritmica e più difficile da individuare perché Google non ti avviserà, come fa con una multa impostata manualmente tramite Google Search Console.

Effetti indesiderati

Il problema con l'eliminazione dei contenuti duplicati è che la semplice eliminazione delle pagine può avere un paio di effetti indesiderati.

In alcuni casi, i tuoi clienti devono vedere queste pagine. Le griglie di visualizzazione ordinate, le pagine della wishlist, le pagine stampabili, ecc. possono tecnicamente essere contenuti duplicati. La rimozione di queste pagine potrebbe danneggiare il tuo cliente e forse il tuo reddito.

Autorità di collegamento

Ogni URL indicizzato ha un po' di peso. La semplice distruzione delle pagine alla fine si traduce in una perdita di autorità di collegamento e, ironia della sorte, cercando di aiutare il tuo SEO, lo danneggerai.

L'obiettivo è definire esattamente ciò che è necessario ottenere:

  1. Vuoi rimuovere la pagina per i motori di ricerca, ma tenerla per gli acquirenti?
  2. Hai bisogno di eliminare una pagina sia per gli acquirenti che per i motori di ricerca?
  3. È più importante sbarazzarsi della pagina immediatamente (per motivi legali o di altro tipo), indipendentemente dal suo impatto SEO, o stai cercando di migliorare la SEO con azioni pianificate?

La tabella seguente ti aiuterà nel tuo processo decisionale.

7 modi per sbarazzarsi di contenuti duplicati

Il primo della lista è 301 reindirizzamenti, la star della SEO. Usa questo metodo per rimuovere i contenuti duplicati quando possibile, poiché è l'unico modo per ottenere una combinazione di reindirizzamento bot e client passando un collegamento al nuovo URL e rimuovendo quello vecchio. A differenza di alcune delle altre opzioni, un reindirizzamento 301 è un comando ai motori di ricerca e non solo una richiesta che può essere ignorata.

Se il tuo team di sviluppo evita questo metodo, o se gli acquirenti devono continuare a vedere una pagina che i motori di ricerca considerano un contenuto duplicato, considera i tag canonici come sostituti. Hanno ancora bisogno del supporto degli sviluppatori, ma richiederanno meno test durante la distribuzione e un minore utilizzo delle risorse del server per mantenerli in vita. Tuttavia, tieni presente che Google potrebbe ignorare i tag canonici se pensa che tu abbia commesso un errore o se semplicemente non ha bisogno di obbedire a loro per qualche motivo algoritmico.

Il terzo nell'elenco è il reindirizzamento 302, sebbene sia solo nell'elenco perché è correlato all'onnipotente reindirizzamento 301. Secondo l'ingegnere di Google John Mueller, i reindirizzamenti 302 reindirizzano l'autorità del collegamento, ma il 99% delle volte non c'è motivo di testarlo teoria perché i reindirizzamenti 301 danno di più per lo stesso sforzo. Il motivo per l'utilizzo di un reindirizzamento 302 potrebbe essere quando è necessario un reindirizzamento temporaneo e Google non dovrebbe deindicizzare la pagina poiché tornerà presto.

Il contenuto rimosso è dannoso

I restanti quattro metodi de-indicizzano solo il contenuto. Non reindirizzano o acquistano e non delegano l'autorità di collegamento a un'altra pagina. Quindi usali se sono l'unica opzione praticabile, poiché uccidere le pagine senza reindirizzarle spreca risorse di collegamento.

Autorità di collegamento- il prodotto più prezioso e difficile da trovare nella ricerca naturale. Puoi creare ottimi contenuti e puoi ottimizzare i tuoi sul tuo sito canalizzando l'autorità dove è necessaria. Ma aumentare eticamente il peso dei tuoi link, con una raccolta davvero diversificata e autorevole di siti esterni, richiede una rara combinazione di fortuna, portata digitale, relazioni con la stampa, marketing offline, ecc. I siti che sono riusciti a scoprirlo sono pochi e rari.

Se devi distruggere una pagina, decidi se deve essere distrutta esclusivamente per motivi SEO (ad es. contenuto duplicato) o per motivi legali (ad es. nessun altro dovrebbe mai vederla). Se desideri escluderlo temporaneamente da Google, puoi farlo in modo rapido e semplice in Google Search Console utilizzando lo strumento Rimuovi URL (Indice Google > Rimuovi URL). Per i clienti, la pagina verrà comunque visualizzata quando viene visualizzata, ma Google la rimuoverà immediatamente dall'indicizzazione.

Fai attenzione con questo strumento. Se utilizzato in modo errato, è in grado di deindicizzare l'intero sito.
L'unico modo per escludere una pagina dall'accesso sia umano che bot è rimuoverla dai server, facendo in modo che l'URL restituisca un errore 404 File non trovato o, utilizzando un reindirizzamento 301, reindirizza a un nuovo URL.

Meta tags noindex per robot e team robots.txt disallow sono gli ultimi in questo elenco per una serie di motivi:

Per oggi è tutto, buona fortuna a tutti ea presto!

I motori di ricerca come Google hanno un problema e il nome è "contenuto duplicato". Il contenuto è chiamato duplicato se appare in una forma simile in luoghi diversi su Internet globale (a URL diversi), per cui i motori di ricerca non sanno quale URL visualizzare nei risultati di ricerca. Ciò può avere un effetto negativo sul posizionamento di una pagina web e quando le persone iniziano a collegarsi a versioni diverse dello stesso contenuto, il problema peggiora.

Questo articolo ti aiuterà a comprendere le cause dei contenuti duplicati e ti darà un'idea di cosa è necessario fare in ogni caso specifico.

Che cos'è il contenuto duplicato?

Il contenuto duplicato può essere paragonato a un crocevia in cui i segnali stradali puntano in direzioni diverse per la stessa località: quale strada dovresti prendere? A peggiorare le cose, anche la destinazione finale è diversa, solo un pochino. Come lettore, non ti interessa, l'importante è ottenere ciò per cui sei venuto, ma il motore di ricerca deve scegliere quale pagina visualizzare nei risultati della ricerca, perché, ovviamente, non vogliono visualizzare nuovamente il stesso contenuto.

Supponiamo che il tuo articolo sulla "parola chiave x" appaia invariato agli indirizzi e http://www.example.com/article-category/keyword-x/. La situazione non è inverosimile: questo accade in molti moderni sistemi di gestione dei contenuti. Quindi, supponiamo che il tuo articolo sia stato ripreso da diversi blogger, alcuni che si collegavano al primo URL e altri al secondo. Eccolo, il momento stesso in cui il problema dei motori di ricerca mostra la sua vera natura: riguarda anche te. il contenuto duplicato è il tuo problema perché quei link promuovono URL diversi. Se si collegassero allo stesso URL, le possibilità di classificarsi per "parola chiave x" sarebbero maggiori.

1 Cause di contenuto duplicato

Ci sono dozzine di motivi per cui viene visualizzato contenuto duplicato. La maggior parte di essi sono di natura tecnica: non capita spesso che una persona decida di pubblicare lo stesso contenuto in due luoghi diversi senza chiarire quale sia l'originale - per la maggior parte di noi questo sembra innaturale. Tuttavia, ci sono molte ragioni tecniche e sorgono principalmente perché gli sviluppatori pensano a modo loro - non come i browser e nemmeno come gli utenti, per non parlare dei ragni di ricerca - pensano come i programmatori. Prendi, ad esempio, l'articolo menzionato in precedenza su http://www.example.com/keyword-x/ e http://www.example.com/article-category/keyword-x/. Se chiedi agli sviluppatori la loro opinione, ti assicureranno che c'è solo un articolo qui.

1.1 Fraintendere il concetto di URL

No, gli sviluppatori non sono pazzi, parlano solo una lingua diversa. Molto probabilmente il sito sarà supportato da un CMS e conterrà solo un singolo articolo nel suo database, ma il software del sito Web consentirà l'accesso a questo articolo tramite più URL. L'equivoco si verifica perché, dal punto di vista degli sviluppatori, l'identificatore univoco dell'articolo è l'ID assegnatogli nel database e non una sorta di URL. Ma per un motore di ricerca, un URL è un identificatore di contenuto univoco. Se spieghi la situazione agli sviluppatori, inizieranno a capire l'essenza del problema e, dopo aver letto l'articolo, potrai persino fornire loro una soluzione già pronta.

1.2 Identificatori di sessione

Spesso si desidera monitorare le attività dei visitatori e consentire loro, ad esempio, di salvare gli articoli desiderati in un carrello. Per raggiungere questo obiettivo, è necessario fornire loro una "sessione". Una sessione è una breve cronologia dell'attività di un visitatore sul tuo sito, che può includere gli articoli menzionati in precedenza nel carrello e simili. Per salvare la sessione dell'attività dell'utente (mentre questi continua a scorrere le pagine del sito), è necessario salvare da qualche parte un identificatore di sessione univoco, chiamato anche ID di sessione. La soluzione più comune è utilizzare i cookie, ma la verità è che i motori di ricerca di solito non li salvano.

In tal caso, alcuni sistemi smettono di utilizzare gli identificatori di sessione nell'URL. Ciò significa che all'URL di ciascun collegamento interno al sito Web viene assegnato un ID di sessione e, poiché questo ID è unico per la sessione, ciò porta alla creazione di nuovi URL e, di conseguenza, a contenuti duplicati.

1.3 Parametri URL utilizzati per il monitoraggio e l'ordinamento

Un altro motivo per il verificarsi di contenuti duplicati è l'uso di parametri URL che non modificano il contenuto della pagina stessa, ad esempio nei link di tracciamento. Vedete, per gli URL di un motore di ricerca http://www.example.com/keyword-x/ e http://www.example.com/keyword-x/? source=rss sono diversi. Ciò potrebbe consentirti di tenere traccia di quale risorsa ha portato i visitatori, ma allo stesso tempo rendere difficile la tua classifica - una conseguenza molto indesiderabile!

Questo, ovviamente, non si applica ai soli parametri di monitoraggio, ma a tutti i parametri che possono essere aggiunti a un URL e che non modificano una parte di fondamentale importanza del contenuto. E non importa a cosa serva questo parametro, che si tratti di "modifiche nell'ordinamento della categoria di prodotti" o "visualizzazione della barra laterale successiva": ognuno di essi causa contenuti duplicati.

1.4 Scraper e diffusione dei contenuti

Per la maggior parte, il tuo sito o te stesso è responsabile del verificarsi di contenuti duplicati. Tuttavia, a volte altri siti Web utilizzano i tuoi contenuti, con o senza il tuo consenso. Non sempre si collegano alla fonte originale, lasciando che il motore di ricerca si occupi dell'ennesima versione dello stesso articolo. Più il tuo sito diventa popolare, più attira gli scraper, aggravando sempre di più il problema.

1.5 Ordine dei parametri

Un altro motivo comune è che il CMS non utilizza URL abbastanza puliti, ma piuttosto URL come / ?id=1&cat=2 dove "ID" si riferisce all'articolo e "cat" alla categoria. URL /?cat=2&id=1 rappresenterà lo stesso risultato per la maggior parte dei sistemi di siti Web, ma per un motore di ricerca i risultati saranno completamente diversi.

1.6 Impaginazione dei commenti

Nel mio WordPress preferito, così come in alcuni altri sistemi di gestione dei contenuti, c'è la possibilità di impaginazione dei commenti. Ciò comporta la visualizzazione di contenuti duplicati nell'URL dell'articolo, poiché /comment-page-1/, /comment-page-2/ ecc. vengono aggiunti all'URL dell'articolo.

1.7 Versione stampabile delle pagine

Se il sistema di gestione dei contenuti crea una versione stampabile delle pagine e ti colleghi ad esse dal tuo articolo, è più probabile che Google le trovi (a meno che, ovviamente, non siano state bloccate intenzionalmente). Ora sii onesto con te stesso: quale versione preferiresti vedere nei risultati di ricerca di Google? La versione con i tuoi annunci e i contenuti di supporto o quella con solo l'articolo?

1.8 con WWW e senza WWW

Questo motivo è vecchio quanto il mondo, ma nel caso della disponibilità di entrambe le versioni del WWW e senza il WWW, i motori di ricerca ogni tanto (anche se non spesso) continuano a percepire i contenuti rilevanti come duplicati. Un altro motivo (non così popolare, ma con cui ho anche avuto a che fare) è HTTP e contenuto duplicato.

2 Soluzione concettuale: URL "canonico".

Come abbiamo già visto, quando più URL portano allo stesso contenuto, c'è un problema, ma può essere risolto. Dovrebbe essere facile per una persona che lavora a una pubblicazione spiegare quale dovrebbe essere l'URL "corretto" per un particolare articolo, ma se chiedi a tre persone della stessa azienda, le risposte possono essere completamente diverse...

Questo problema può essere risolto solo con l'aiuto dell'indirizzamento, perché, comunque sia, può esserci solo un URL. Tale URL "corretto" per un determinato contenuto è considerato canonico dai motori di ricerca.

osservazione ironica

"Canonico" è un termine che deriva dalla tradizione cattolica romana, secondo la quale un elenco di libri sacri è stato creato e accettato come autentico. Divennero noti come il vangelo canonico del Nuovo Testamento. Ironia della sorte, la Chiesa cattolica romana ha impiegato oltre 300 anni e molte battaglie per stabilire questo elenco canonico. Alla fine, hanno concordato quattro versioni della stessa storia ...

3 Identificazione dei problemi di contenuto duplicato

Potresti non sapere cosa ha causato la comparsa di contenuti duplicati per te, è il sito o il contenuto stesso la colpa? Ci sono diversi modi per scoprirlo.

3.1 Console di ricerca di Google

Google Search Console è un ottimo strumento per individuare contenuti duplicati. Vai alla Search Console del tuo sito, quindi alla scheda Aspetto della ricerca -> Miglioramenti HTML e vedrai quanto segue:

Le pagine con titoli o tag ripetitivi sono quasi sempre una cosa negativa. Una volta cliccato, verranno trovati URL con titoli o tag duplicati per aiutarti a identificare il problema. Nel caso in cui tu abbia un articolo come quello che abbiamo menzionato prima (parola chiave X) e appaia in due categorie, potrebbe avere titoli diversi. Ad esempio, "Parola chiave X - Categoria X - Sito di esempio" e "Parola chiave X - Categoria Y - Sito di esempio". Google non considererà questi titoli come duplicati, ma possono essere trovati facendo una ricerca.

3.2 Cerca titoli o frammenti

Esistono diversi operatori di ricerca molto utili in casi come quello sopra. Se vuoi trovare tutti gli URL del tuo sito che contengono l'articolo "parola chiave X" devi digitare la seguente frase nella ricerca di Google:

site:example.com intitle:"Parola chiave X"

Google ti mostrerà quindi tutte le pagine trovate su esempio.com che contengono la parola chiave specificata. Più specifico è il titolo, più facile sarà eliminare i contenuti duplicati. È possibile utilizzare questo metodo per identificare i contenuti duplicati su Internet. Se, ad esempio, il titolo completo del tuo articolo è "Keyword X - Why It's Cool", dovresti usare la frase:

intitle:"Parola chiave X - Perché è fantastico"

E Google ti darà tutti i siti che rientrano in questa voce. A volte ha senso cercare anche una o due frasi complete dal tuo articolo, poiché alcuni scraper potrebbero cambiare il titolo. In alcuni casi, una tale ricerca può comportare la visualizzazione del seguente avviso nelle ultime pagine di una ricerca su Google:

Questo è un segno che Google è già impegnato a rimuovere i contenuti duplicati. Ma questo non è ancora abbastanza, quindi vale la pena seguire il collegamento e guardare tutti gli altri risultati per vedere se almeno alcuni di essi possono essere corretti.

4 Soluzioni pratiche per contenuti duplicati

Dopo aver deciso quale URL è l'indirizzo canonico per un particolare pezzo dei tuoi contenuti, è il momento di passare al processo di canonizzazione ("sì, lo so", prova a dirlo ad alta voce tre volte velocemente). Ciò significa che dobbiamo informare i motori di ricerca della versione canonica della pagina e fargliela trovare il prima possibile. Le soluzioni possibili sono quattro, in ordine di preferenza sono le seguenti:

  1. Non creare contenuti duplicati
  2. Reindirizza il contenuto duplicato all'URL canonico
  3. Aggiungi l'attributo rel=canonical a una pagina con contenuto duplicato
  4. Aggiungi un collegamento HTML da una pagina con contenuto duplicato alla versione canonica della pagina

4.1 Come evitare contenuti duplicati

Alcune delle suddette cause di contenuto duplicato possono essere facilmente eliminate:

  • I tuoi URL contengono ID di sessione? Spesso puoi semplicemente prenderli e disabilitarli nelle impostazioni di sistema.
  • Avete versioni stampabili delle pagine? Non ce n'è bisogno: devi solo usare gli stili CSS per la stampa.
  • Usi l'impaginazione dei commenti in WordPress? Devi solo disabilitare questa funzione (nella sezione delle impostazioni per il 99% dei siti).
  • L'ordine dei parametri rimane lo stesso? Dì al tuo programmatore di scrivere uno script che ordini sempre i parametri (spesso indicato come "fabbrica di URL").
  • Ci sono problemi con i link di tracciamento? Nella maggior parte dei casi, puoi implementare una campagna di monitoraggio degli hashtag invece di utilizzare i parametri per farlo.
  • Hai problemi con "WWW e non WWW"? Scegline uno e poi reindirizza all'altro indirizzo. Puoi anche impostare le preferenze utilizzando Strumenti per i Webmaster di Google, ma entrambe le versioni del nome di dominio devono essere tue.

Anche se risolvere il tuo problema non è facile, lo sforzo potrebbe essere giustificato. L'obiettivo dovrebbe essere quello di evitare contenuti duplicati, poiché questa è di gran lunga la soluzione migliore.

4.2 Reindirizzamento di contenuti duplicati 301

Ci sono momenti in cui semplicemente non è possibile evitare completamente che il sistema utilizzi URL non validi (per i contenuti), ma questi possono essere casi in cui è possibile utilizzare i reindirizzamenti. Se pensi che non ci sia logica in questo (posso capirti), ricordati di ricordarlo quando parli con gli sviluppatori. Quando lavori per risolvere i problemi relativi ai contenuti duplicati, assicurati di reindirizzare tutti i contenuti duplicati dai vecchi URL a quelli canonici.

4.3 Utilizzo dei link

A volte, anche se sai che l'URL è sbagliato, non vuoi o non puoi eliminare la versione duplicata di un articolo. Per risolvere questo problema, i motori di ricerca hanno introdotto l'elemento link canonico, che si trova nell'intestazione del tuo sito e si presenta così:

link rel="canonical" href="http://example.com/wordpress/seo-plugin/

Hai impostato l'attributo href del link canonico sull'URL canonico corretto del tuo articolo. Quando un motore di ricerca che supporta i link canonici incontra un tale elemento, esegue un reindirizzamento 301, regalando così quasi tutto il valore guadagnato dalla pagina della sua versione canonica.

Vero, sarà più veloce utilizzare direttamente il reindirizzamento 301 e quindi, se hai una scelta, devi dargli la preferenza.

Sicuramente, hai sentito la frase "contenuto duplicato" più di una volta e, come proprietario di un sito esperto, non pubblicheresti mai lo stesso contenuto due volte, giusto?

Il contenuto duplicato può essere paragonato a uno scoperto bancario. Solo in questo caso spendi il tuo prezioso budget di scansione.

Il budget di scansione è il numero di pagine del sito di cui un robot di ricerca può eseguire la scansione in un determinato periodo di tempo. Pertanto, è così importante spenderlo nelle pagine di cui abbiamo bisogno.

Manifestandosi in varie forme, i contenuti duplicati possono diventare uno dei problemi più elusivi e invisibili che possono influire negativamente sul posizionamento e sulla promozione di un sito. Il suo aspetto è spesso associato alle peculiarità dell'architettura del sito o ai limiti del CMS.

Sfortunatamente, non esiste un tale controllo in Google Webmaster in grado di rilevare facilmente contenuti duplicati. Anche gli strumenti di terze parti più avanzati non sono sempre bravi in ​​questo compito, soprattutto quando la fonte del problema è all'interno. La verifica manuale è inevitabile.

Ecco un elenco con 8 potenziali motivi per la comparsa di pagine duplicate sul sito:

Pagine HTTP e HTTPS

Uno dei modi più rapidi per verificare di avere due versioni di un sito disponibili per l'indicizzazione è provare ad accedervi utilizzando i protocolli HTTP e HTTPS. Se si aprono entrambe le versioni, è ovvio che lo sviluppatore ha spostato il sito su HTTPS e non ha impostato un reindirizzamento 301 dalla versione HTTP.

Prima che Google incoraggiasse attivamente i webmaster a migrare interamente i loro siti su HTTPS, molti abilitavano HTTPS solo su determinate pagine che necessitavano di ulteriore sicurezza, come le pagine di accesso o le pagine delle transazioni. Se lo sviluppatore ha utilizzato collegamenti relativi, ogni volta che il crawler visita le pagine protette, è costretto ad aggiungere HTTPS a tutti gli URL, il che alla fine porta a pagine duplicate.

Allo stesso modo, devi controllare se il sito ha due versioni di pagine sia con WWW che senza WWW. Puoi risolvere questo problema impostando un reindirizzamento 301 e specificando il tuo dominio preferito (mirror principale) in Google Webmaster.

Siti che rubano i tuoi contenuti

Sebbene non vi sia alcuna legislazione in atto per restituirti i contenuti rubati, ci sono solo modi in cui puoi utilizzare il codice per rendere più difficile per i ladri spacciare i tuoi contenuti come propri. Per fare ciò, utilizza sempre i link assoluti sul sito anziché quelli relativi:

Link assoluti: http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (inizia con il protocollo e contiene il nome del sito).
Link relativi:/wiki/dublirovannyi-kontent.html (proviene dalla radice del sito o dal documento corrente).

Perché è importante? Quando si utilizzano URL relativi, il browser presume che il collegamento punti a una pagina in cui ci si trova già. Alcuni sviluppatori preferiscono gli URL relativi perché semplificano la scrittura del codice.

Se lo sviluppatore non vuole riscrivere l'intero sito, è possibile utilizzare tag canonici autoreferenziali. Quando i tuoi contenuti sono ospitati su un altro sito, i tag canonici possono rimanere, aiutando Google a determinare che il tuo sito è l'origine originale dei contenuti.

Per scoprire che i tuoi contenuti sono stati rubati, puoi utilizzare uno qualsiasi dei servizi gratuiti (ad esempio Siteliner, Copyscape. Etxt, AdvegoPlagiatus, ecc.)

Sottodomini abbandonati

Supponiamo che tu abbia rinunciato a un sottodominio e abbia deciso di utilizzare invece una sottodirectory. Oppure, ad esempio, hai creato un sito web completamente nuovo. In ogni caso, i tuoi vecchi contenuti potrebbero essere ancora accessibili e, per di più, potrebbero incidere negativamente sul ranking delle nuove pagine. Il modo migliore per risolvere il problema è utilizzare un reindirizzamento 301 da questo sottodominio al nuovo sito/directory. Questo è particolarmente importante se la tua vecchia risorsa ha una grande massa di link.

Pagine nascoste in fase di sviluppo

Hai deciso di aggiornare il design? Stai preparando il tuo sito web per un grande cambiamento? Se prima non chiudevi le tue pagine di test (e ancor di più le versioni dev del sito) dall'indicizzazione, allora non sei immune dal fatto che il robot non le rileverà.

C'è un malinteso comune che nessuno indovinerà mai di inserire un URL fittizio nella riga del browser sul tuo sito http://razrabotka.sait.ru/, se non c'è alcun collegamento ad esso da nessuna parte nel codice, sembra che questo è semplicemente irrealistico. Ma non lo è! Google è costantemente alla ricerca e all'indicizzazione di nuove pagine Web, comprese quelle in fase di sviluppo. Tutto ciò può influenzare i risultati del ranking, oltre che fuorviare gli utenti.

Non solo questo comporta un enorme tributo sul sito in termini di privacy e sicurezza, ma può anche richiedere un pesante tributo al crawl budget. Evitarlo è semplice: usa il meta tag robots c noindex su tutte le pagine di test o bloccale nel file robots.txt.


o

Entrambe le opzioni indicano il divieto di indicizzare il testo e di seguire i collegamenti nella pagina.

Ricorda che quando sposti le pagine dalla modalità dev alla live, devi rimuovere queste direttive di blocco dal codice.

Parametri generati dinamicamente nell'URL

Molto spesso, gli URL dinamici vengono generati in base ai filtri utilizzati sul sito. Che aspetto hanno esattamente questi URL?

URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble

Questo è un semplice esempio, tuttavia, il tuo CMS potrebbe aggiungere varie opzioni di filtro e generare stringhe di URL inutilmente lunghe che potrebbero essere scansionate dal crawler.

Pertanto, Google può creare e indicizzare infinite combinazioni di URL che l'utente non richiede nemmeno.

In questo caso, applica il tag canonico con il tuo URL preferito e configura le opzioni di scansione degli URL in Google Webmaster.

Puoi saltare questo passaggio e bloccare URL specifici nel file robots.txt utilizzando il carattere (*) per impedire che tutto nella directory specificata venga indicizzato. Ad esempio: Disallow:/cioccolato/torta/*

Sottodirectory speculari

La tua azienda opera in più regioni? Alcune aziende preferiscono creare una pagina di destinazione principale che consenta agli utenti di selezionare la regione più adatta a loro e quindi reindirizzarli alla sottodirectory appropriata. Per esempio:

URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de

Anche se può sembrare logico, valuta se questa impostazione è davvero necessaria. Dopotutto, mentre ti rivolgi a un pubblico diverso, c'è la possibilità che entrambe le sottodirectory si duplichino completamente a vicenda nei contenuti. Per risolvere questo problema, utilizza Google Webmaster per impostare il targeting geografico.

Sindacato dei contenuti

La distribuzione dei contenuti è il riutilizzo dello stesso contenuto su risorse diverse al fine di promuovere il tuo sito Web/marchio/contenuto e attirare traffico aggiuntivo.

La syndication è un ottimo modo per far conoscere il tuo sito a nuovi segmenti di pubblico, tuttavia, vale la pena impostare regole per chi ripubblicherà i tuoi contenuti.

Idealmente, dovresti chiedere agli editori di utilizzare l'attributo "rel=canonical" nella pagina dei contenuti per indicare ai motori di ricerca che il tuo sito web è la fonte originale dei contenuti. Inoltre, possono anche impedire l'indicizzazione dei contenuti, il che risolverà potenziali problemi di duplicazione nei risultati di ricerca.

Dopotutto, gli editori possono ricollegarsi all'articolo originale, accreditandoti come fonte originale.

Contenuto relativo

Contenuti simili possono causare tanto danno quanto contenuti duplicati. La definizione di Google di contenuto duplicato include anche la frase "sostanzialmente simile". Sebbene parti del materiale possano differire nella sintassi, la regola generale è che se puoi ottenere le stesse informazioni da esse, non c'è motivo per cui entrambe esistano su un sito web. Qui, un'ottima soluzione al problema è usare il tag canonico o considerare di combinare questi contenuti in uno solo.

conclusioni

È molto importante tenere traccia della comparsa di contenuti duplicati sul sito per evitare di spendere il budget per la scansione, poiché ciò impedisce al robot di trovare e indicizzare le nuove pagine di cui hai bisogno. In questo caso, i migliori strumenti nel tuo arsenale sono i tag canonici, i reindirizzamenti 301, gli attributi nofollow/noindex nel meta tag "robots" e le direttive nel file robots.txt. Lavora per identificare e rimuovere i contenuti duplicati aggiungendo questi checkpoint al tuo audit SEO.

Il contenuto duplicato peggiora l'indicizzazione del sito

"Strade diverse portano a luoghi diversi e solo una di esse ha ragione"

Ciao amici! Da tempo rivelerò questo argomento sulle pagine del mio sito, quindi, dopo aver studiato molto materiale sulla duplicazione dei contenuti e sulle sue cause, conseguenze e modi per eliminare questo fenomeno negativo, ho deciso di esprimere i miei pensieri su questo problema sulla mia modesta risorsa.

Sii paziente e studia attentamente tutti i consigli dell'articolo, quindi controlla lo stato delle tue risorse. Se vuoi vedere un ottimo posizionamento delle pagine dei tuoi siti nei motori di ricerca, seguili rigorosamente.

Senza pretendere di avere tutti i mezzi possibili per eliminare le cause della duplicazione dei contenuti, proporrò comunque di studiare i punti più importanti di questo problema.

Se un utente normale (e talvolta lo stesso webmaster) potrebbe non notare il contenuto duplicato sul sito, i motori di ricerca lo determineranno immediatamente. La loro reazione sarà inequivocabile: contenuto da queste pagine non più unico. E questo è già un male, poiché influenzerà negativamente la loro classifica.

Inoltre, duplicazione sfoca il peso di riferimento, a un post specifico che, ottimizzando, stavi cercando di promuovere al TOP come landing page. I duplicati rovineranno semplicemente tutti i tentativi di ottimizzarlo e l'effetto del ricollegamento sarà minimo.

Che cos'è il contenuto duplicato?

1. Contenuti copiati da qualcuno o da te personalmente e pubblicati su risorse di terze parti.

Puoi leggere molti articoli su Internet su come gestire i contenuti rubati, poiché una delle opzioni è il mio articolo. È possibile sterminare - una domanda retorica, e oggi, secondo me, non ci sono soluzioni cardinali a questo problema su Internet. Ci sono solo alcuni metodi più o meno efficaci.

2. Il contenuto è un duplicato che il webmaster crea con le proprie mani.

Un duplicato completo (o incompleto) quando si distribuiscono informazioni (o, come vengono anche chiamati, annunci) su siti e forum speciali. Se vuoi ottenere un duplicato della tua voce su Internet - duplicarlo su una risorsa decente - il risultato sarà quasi sempre immediato. La duplicazione è possibile direttamente sulle pagine del sito. Hai mai visto due pagine identiche sulla tua risorsa quando ne hai creata solo una? Perché succede? I motivi sono la modifica delle voci o il salvataggio di quelle non terminate nelle bozze e quindi, inavvertitamente, la creazione di un duplicato. Il webmaster, senza accorgersene lui stesso e in futuro senza sfogliare tutti i suoi record per non trovarne un duplicato, vive per sempre felice e contento, non sospettando di avere "gemelli", "terzetti", ecc.

3. Duplicazione per motivi tecnici - il verificarsi di duplicati in cui è responsabile il CMS.

Questi errori derivano dal fatto che gli sviluppatori di CMS non pensano come i browser o gli spider di ricerca, ma pensano come dovrebbero fare gli sviluppatori di motori di siti Web; molti peccano per questo - Joomla, per esempio.

Ti spiego un po'. Diciamo che hai un articolo con una parola chiave "contenuto duplicato". Dovrebbe trovarsi in una pagina con il seguente indirizzo:, http://domain.ru/duplicazione dei contenuti/, ma lo stesso contenuto può essere visualizzato in questo modo: http://domain.ru/article-category/content duplication/. E se prendi in considerazione altre duplicazioni, pagine, ad esempio: http://domain.ru/content duplication/?source=rss. Tutti questi URL sono indirizzi diversi per qualsiasi , ma gli stessi per l'utente (lettore). Queste differenze consentono al webmaster di risalire alla provenienza dell'utente, ma possono anche essere dannose se non vengono eseguite le impostazioni di indicizzazione necessarie.

È noto che i siti Web funzionano grazie al sistema di database esistente. Esiste solo una versione di un determinato articolo (ID) nel database, ma gli script del sito lo consentono visualizzare questo articolo dal database su pagine diverse (URL). Ma i motori di ricerca hanno bisogno di un documento (URL), solo che è un identificatore univoco e nient'altro!

4. Scatta sfocata.

Un tipo speciale di duplicazione, che si trova principalmente nei negozi online, dove le pagine con schede prodotto differiscono solo per poche frasi con una descrizione e tutti gli altri contenuti, costituiti da blocchi trasversali e altri elementi, sono gli stessi. È difficile incolpare il webmaster, sebbene ci siano alcune opzioni per risolverli.

Quindi, abbiamo capito le cause e le conseguenze della duplicazione dei contenuti. Passiamo ora alla risoluzione dei problemi. Prima di tutto, scopriamolo

Come rilevare le pagine di copia?

1. Modo manuale.

1) Se i tuoi contenuti non sono troppo grandi, scorri la pagina nel pannello di amministrazione "Tutti i record” e, se vengono trovati duplicati, eliminare quelli extra.

2) Per scoprire la presenza di duplicati, puoi utilizzare i servizi dei motori di ricerca Yandex Webmaster o Google Webmaster Tools.

Ad esempio, in Strumenti per i Webmaster, apri la pagina "Strumenti per i Webmaster" - "Ottimizzazione" - "Ottimizzazione HTML": se ci sono errori e duplicati, la procedura guidata ti mostrerà tutto. Comprendi con i clic, elimina errori e duplicati, allo stesso tempo.

3) Utilizzare direttamente le finestre di ricerca del sistema (metodo approssimativo). Inserisci per ciascuno di essi una voce del form sito: dominio.ru e confrontare i loro risultati. Se non sono molto diversi, la tua duplicazione non è poi così male.

4) C'è un modo efficace per trovare i duplicati: cercare nei frammenti di testo. Questo viene fatto semplicemente: nella casella di ricerca di qualsiasi sistema, inserisci un frammento di testo della tua voce (articolo) nella quantità di 10-20 parole (preferibilmente dal centro) e analizza il risultato. La presenza di due o più pagine nei risultati della ricerca significa che ci sono duplicati per questo opus. In caso contrario, puoi rallegrarti un po' :).

È difficile se il sito ha accumulato molte pagine. Il controllo di cui sopra può diventare un lavoro insopportabile. Se vuoi ridurre al minimo i costi di tempo, usa il programma L'investigatore Link di Xenu.

Per verificare il sito, è necessario aprire un nuovo progetto selezionando "File" "Verifica URL" dal menu, inserire l'indirizzo e fare clic su "OK". Successivamente, il programma inizierà a elaborare tutti gli URL del sito. Al termine del controllo, è necessario esportare i dati ricevuti in un qualsiasi editor conveniente e iniziare a cercare i duplicati.

Chi ha bisogno di un link per scaricare il file di questo programma, cancella l'iscrizione nei commenti, invialo alla tua e-mail.

Quindi, abbiamo scoperto quali (principali) ragioni portano al verificarsi di contenuti duplicati. Ora troviamo il modo per risolverlo.

Modi per eliminare i contenuti duplicati

URL canonici: una soluzione concettuale al problema

Se non hai la possibilità di () rimuovere i duplicati, il problema può essere risolto usando il tag canonica l (usato per le copie sfocate). Il tag canonico è adatto anche per le versioni pagine da stampare e in altri casi simili. Viene applicato in modo molto semplice: per tutte le copie viene specificato l'attributo rel="canonical", ma non per la pagina principale, che è la più rilevante. Il codice dovrebbe assomigliare a questo: link rel="canonical" href="http://domain.ru/page-copy"/ e trovarsi all'interno del tag head.

Per gli utenti con il motore di WordPress, c'è una grande opportunità per fare tutto questo automaticamente installando un plug-in seo pack tutto in uno o simile. Nelle impostazioni, questa operazione è impostata con le etichette:

Impostazione delle funzioni di non autorizzazione nel file robots.txt del tuo sito

Sebbene l'impostazione delle pagine bloccate per l'indicizzazione non sia sempre un modo efficace per prevenire i duplicati, poiché i motori di ricerca a volte riescono a bypassarli, un robot.txt correttamente configurato renderà molto più semplice prevenirli.

DAwwwo senzawww

Come saranno le pagine del tuo sito, usando solo http o http.www? L'incertezza genererà la duplicazione. Immediatamente, dopo aver creato il sito, determina quale protocollo di trasporto ipertestuale utilizzerai. Per fare ciò, inserisci la tua scelta nei pannelli webmaster Yandex e Google (in Google, questo può essere fatto per entrambe le versioni, ma dovrai confermare i diritti su entrambi gli indirizzi). È possibile lasciarlo per impostazione predefinita o "scegliere un robot di ricerca", ma è meglio essere chiaramente definiti.

Reindirizzamento dell'impostazione

Il reindirizzamento 301 è ottimo per incollare pagine di copia i cui URL differiscono per la presenza e l'assenza di www. Come hai già capito (vedi lo screenshot sopra), anche l'impostazione di un reindirizzamento su WordPress è semplificata utilizzando un plug-in. In sostanza, se tu e il robot di ricerca avete "deciso" la vostra scelta - con www o senza di esso ci sarà un dominio principale, non è necessario impostare un reindirizzamento per tutte le pagine. Tuttavia, l'argomento dell'impostazione di un reindirizzamento e della sua opportunità è l'argomento di un articolo separato.

Risultati e conclusioni

  • non consentire la duplicazione di pagine (contenuti) sulle tue risorse, poiché i duplicati portano a una grave diminuzione della pertinenza delle pagine, il che rende difficile portarle in primo piano nei risultati di ricerca (TOP);
  • i problemi con la duplicazione dei contenuti per la maggior parte hanno una soluzione: per questo, usa tutti i mezzi possibili;
  • monitorare costantemente il processo di indicizzazione dei tuoi contenuti e non creare duplicati su di essi

Questo è tutto, caro lettore. Se hai qualcosa da aggiungere o correggermi, fai una domanda - cogli l'occasione!

Non esattamente in tema, ma sui gemelli.

(Visitato 28 volte, 1 visita oggi)

Articoli correlati in alto