Come configurare smartphone e PC. Portale informativo

Pagine simili (duplicate). Come identificare i contenuti duplicati

Il contenuto duplicato è parzialmente o completamente lo stesso testo, immagini e altri elementi del contenuto del sito, disponibili a indirizzi di pagine (URL) diversi. La presenza di duplicati può complicare notevolmente la promozione del sito sui motori di ricerca.

Secondo gli esperti, il contenuto duplicato è l'errore di ottimizzazione interna più comune, presente su ogni seconda risorsa web.

Come verificare se ci sono duplicati sul tuo sito e come eliminarli? Ve ne parleremo nel nuovo numero della nostra mailing list.

Cosa sono i duplicati

I doppi sono chiari e confusi (o completi e incompleti).

Doppio chiaro - copiare pagine con esattamente lo stesso contenuto, il contenuto del meta tag Descrizione e l'intestazione del titolo, disponibili a indirizzi diversi. Ad esempio, la pagina originale potrebbe avere i seguenti duplicati:

  • specchio con o senza WWW;
  • pagine con diverse estensioni (.html, .htm, index.php, GET parametro "?a=b", ecc.);
  • versione stampata;
  • versione per RSS;
  • la prima forma dell'URL dopo aver cambiato il motore;
  • eccetera.

Doppio sfocato - contenuto parzialmente identico su URL diversi.

Esempi di tali duplicati includono quanto segue:

  • carte dello stesso tipo di merce con descrizione ripetuta o mancante;
  • annunci di articoli, notizie, prodotti nelle diverse categorie, su pagine di tag e impaginazione;
  • archivi di date nei blog;
  • pagine in cui i blocchi end-to-end superano il contenuto principale in volume;
  • pagine con testi diversi, ma Titolo e Descrizione identici.

Perché i duplicati sono pericolosi per la promozione

1. Difficoltà nell'indicizzazione del sito (e nella determinazione della pagina principale)

A causa dei duplicati, il numero di pagine nel database dei motori di ricerca può aumentare più volte, alcune pagine potrebbero non essere indicizzate, perché una quota fissa del numero di pagine viene assegnata al robot di ricerca per bypassare il sito.

Diventa più difficile determinare la pagina principale che entrerà nei risultati della ricerca: la scelta del robot potrebbe non coincidere con la scelta del webmaster.

2. La pagina principale del numero può essere sostituita da un duplicato

Se il duplicato riceve un buon traffico e metriche comportamentali, con il prossimo aggiornamento può sostituire la pagina principale (promossa) nei risultati di ricerca. Allo stesso tempo, le posizioni nella ricerca "affondano", perché il duplicato non avrà popolarità del collegamento.

3. Perdita di link esterni alla pagina principale

4. Il rischio di cadere sotto il filtro PS

Sia Yandex che Google stanno lottando con contenuti non univoci, in relazione ai quali possono applicare filtri AGS e Panda al sito "intasato".

5. Perdita di pagine significative nell'indice

I duplicati incompleti (pagine di categoria, notizie, schede prodotto, ecc.) a causa della bassa unicità hanno la possibilità di non entrare affatto nell'indice dei motori di ricerca. Ad esempio, ciò può accadere con una parte delle schede prodotto che l'algoritmo di ricerca considera duplicati.

Come trovare ed eliminare i duplicati sul sito

Essendo il proprietario del sito, anche senza particolari conoscenze e abilità, puoi trovare autonomamente duplicati sulla tua risorsa. Di seguito sono riportate le istruzioni per trovare ed eliminare i contenuti duplicati.

Cerca i duplicati completi

Il modo più veloce per trovare i duplicati completi su un sito è tenere traccia della corrispondenza tra i tag Titolo e Descrizione. Per fare ciò, puoi utilizzare il pannello webmaster di Google o il servizio Xenu, popolare tra i SEO. La ricerca è condotta tra le pagine indicizzate.

Contro: non tutti i duplicati possono (e devono) essere cancellati (ad esempio, versioni di pagine con tag pubblicitari); lavoro laborioso, che richiede molto tempo con un gran numero di pagine. Non esclude la comparsa di nuovi duplicati. Il peso dei duplicati non viene trasferito alla pagina principale.

  • Pro: non richiede particolari capacità di programmazione.

6. Soluzioni pronte per i CMS più diffusi

Gli sviluppatori del popolare CMS hanno fornito una serie di soluzioni per prevenire duplicati. Allo stesso tempo, quando si lavora con il motore, i webmaster devono impostare con cura le impostazioni. Se hai trascurato qualcosa e appaiono ancora duplicati, non è mai troppo tardi per riparare tutto ed eliminare le copie. Istruzioni chiare per la configurazione del motore e l'utilizzo dei plug-in SEO possono essere trovate su blog specializzati e sui forum di WordPress, Joomla, Drupal, Bitrix e altri CMS ampiamente rappresentati.

Plugin SEO utili per combattere i duplicati:

  • WordPress: Pacchetto SEO All in One, Clearfy;
  • Drupal: reindirizzamento globale, titolo della pagina;
  • Joomla: link canonici tutto in uno, JL No Dubles.

7. Combatti a livello del motore

Una soluzione universale per una varietà di CMS è prevenire la comparsa di nuovi duplicati a livello del motore. È necessario impostare una condizione in base alla quale, durante l'elaborazione dei link di indirizzi, il CMS distingua "buono" da "cattivo" e visualizzi nella barra del browser solo quelli consentiti dalla norma. Ciò eviterà la formazione di pagine sinonimi (con e senza il segno "/", con un finale .html non necessario, parametri GET, ecc.), ma non proteggerà dai duplicati se le pagine non hanno un titolo e una descrizione univoci.

Per implementare questo metodo, è necessario includere la seguente regola nel file .htaccess:

RewriteEngine su RewriteCond %(REQUEST_FILENAME) !-d RewriteCond %(REQUEST_FILENAME) !-f RewriteRule ^(.*)$ index.php

Inoltre, dovresti implementare i controlli necessari nel motore stesso.

Il metodo è molto complesso e richiede l'applicazione a specialisti dello sviluppo.

  • Contro: grado di complessità estremamente elevato.
  • Pro: impedisce la comparsa di pagine sinonimi.

Cerca duplicati incompleti

1. Cerca utilizzando il webmaster di Google o il servizio Xenu

L'algoritmo delle azioni in questi servizi è assolutamente lo stesso della ricerca di duplicati completi. L'unica differenza è che tra i duplicati trovati è necessario selezionare quelle pagine che hanno Titolo e/o Descrizione identici, ma contenuto completamente diverso.

Come risultato di una ricerca su Google, abbiamo trovato un gruppo di duplicati incompleti (Fig. 2).

Riso. 2. Notizie completamente diverse con metadati duplicati

2. Stiamo cercando nella barra di ricerca Yandex o Google

Le pagine con contenuti parzialmente simili, ma metadati diversi nel modo sopra indicato non saranno in grado di identificare. In questo caso, dovrai lavorare manualmente.

Innanzitutto, evidenziare in modo condizionale le aree di rischio:

  • contenuto scadente (i blocchi trasversali superano il testo principale della pagina in volume);
  • contenuto copiato (descrizione di prodotti simili);
  • intersezione di contenuti (annunci, intestazioni/sottodirectory, filtri, ordinamento).

Seleziona più pagine da ciascun gruppo.

Per un'illustrazione visiva dell'esempio, abbiamo utilizzato una delle schede prodotto sul sito Web di un negozio di mobili che è stato verificato nella nostra sezione Competenza. La probabilità che appaiano duplicati qui è piuttosto alta, poiché le carte sono dominate da immagini e blocchi trasversali e il contenuto unico è ridotto al minimo.

Specificare nella barra di ricerca di Google un frammento di testo della descrizione del prodotto, racchiuso tra virgolette, e il dominio del sito con l'operatore del sito: (Fig. 3).

Contenuto duplicato può essere suddiviso in tre grandi categorie: duplicato esatto, dove due URL hanno esattamente lo stesso contenuto, contenuto con piccole differenze(ordine delle frasi, immagini leggermente diverse, ecc.) e duplicati tra domini, dove esiste una copia esatta o leggermente modificata su molti domini.

Esistono due concetti correlati che non sono considerati da Google come contenuti duplicati, ma che spesso confondono editori e SEO inesperti:

  • contenuto sottile - come notato in precedenza, si tratta di pagine che hanno pochissimo contenuto. Un esempio potrebbe essere un insieme di pagine costruito su un elenco di indirizzi commerciali che ha 5.000 indirizzi, ma ogni pagina contiene un solo indirizzo, solo poche righe;
  • contenuto di taglio Questa categoria include pagine leggermente diverse l'una dall'altra. Immagina un sito che vende scarpe Nike Air Max nelle taglie 37, 37.5, 38, 38.5, 39, ... 46. Se il sito ha una pagina separata per ogni taglia di scarpa, la differenza tra tutte queste pagine sarà insignificante . Google chiama questo effetto taglio sottile.

A Google non piacciono i contenuti sottili o i tagli sottili. Ognuno di questi effetti può essere rilevato dall'algoritmo Panda . Non è chiaro come Bing distingua esattamente la duplicazione del contenuto, il contenuto sottile e lo slicing del contenuto, ma è chiaro che gli editori dovrebbero evitare di creare questo tipo di pagine.

I contenuti duplicati possono verificarsi per molte ragioni, tra cui la licenza del contenuto del tuo sito, difetti nell'architettura del sito dovuti a un sistema di gestione dei contenuti non ottimizzato per i motori di ricerca oa causa di plagio. Negli ultimi cinque anni, gli spammer affamati di contenuti hanno iniziato a raccogliere contenuti da fonti legittime, riorganizzare le parole attraverso molti processi complessi e posizionare il testo risultante sulle loro pagine per attirare ricerche a coda lunga e visualizzare pubblicità contestuale, e anche per altri disonorevoli scopi.

Quindi oggi viviamo in un mondo di "problemi con contenuti duplicati" e "penalità per contenuti duplicati". Ecco alcune definizioni che saranno utili per la nostra discussione.

  • Contenuto unico- scritto da un essere umano, completamente diverso da qualsiasi altra combinazione di lettere, simboli e parole sul World Wide Web, non influenzato dagli algoritmi di elaborazione testi del computer (come gli strumenti di spammer a catena Markov).
  • Frammenti - si tratta di piccoli contenuti (come le virgolette) che vengono copiati e utilizzati più e più volte. Non sono quasi mai un problema per i motori di ricerca, specialmente se inclusi in un documento più grande con molti contenuti unici.
  • Herpes zoster - i motori di ricerca cercano segmenti relativamente piccoli di frasi (da cinque a sei parole) su altre pagine del World Wide Web. Se due documenti condividono troppe assicelle, i motori di ricerca potrebbero interpretare questi documenti come contenuti duplicati.
  • Problemi con i contenuti duplicati - questa frase viene solitamente utilizzata per indicare contenuti duplicati per i quali il sito può essere penalizzato. Tale contenuto è semplicemente una copia di una pagina esistente, costringendo il motore di ricerca a scegliere quale versione visualizzare nell'indice (questo è il cosiddetto filtro contenuto duplicato).
  • Filtro contenuto duplicato - una situazione in cui un motore di ricerca rimuove contenuti simili dai risultati di ricerca per fornire risultati migliori all'utente.
  • Penalità per contenuti duplicati - le multe (penalità) vengono applicate raramente e solo in situazioni evidenti. I motori di ricerca possono classificare in basso o vietare il resto delle pagine del sito e possono persino vietare l'intero sito web.

Conseguenze di contenuti duplicati

Supponendo che il tuo contenuto duplicato sia il risultato di una svista innocua da parte dei tuoi sviluppatori, il motore di ricerca probabilmente filtrerà tutte le pagine duplicate tranne una perché vuole mostrare solo una versione del contenuto duplicato nelle pagine dei risultati di ricerca. In alcuni casi, il motore di ricerca può filtrare i risultati prima che siano inclusi nell'indice, e in altri casi può ammettere la pagina nell'indice e filtrarla già durante la preparazione dei risultati della ricerca in risposta a una specifica query. In quest'ultimo caso, la pagina potrebbe essere filtrata per alcune richieste specifiche e non filtrata per altre.

Gli utenti vogliono vedere una varietà di risultati (non gli stessi risultati più e più volte). Pertanto, i motori di ricerca cercano di filtrare i contenuti duplicati e questo ha le seguenti conseguenze:

  • Il robot dei motori di ricerca arriva al sito con un budget di visualizzazione specifico, espresso in termini di numero di pagine che prevede di visualizzare in ciascuna sessione particolare. Ogni volta che raggiunge una pagina duplicata che deve solo essere filtrata dai risultati di ricerca, stai permettendo al robot di sprecare parte del suo budget di navigazione. Ciò significa che verranno visualizzate meno delle tue pagine "buone" e comporterà l'inclusione di un numero inferiore di pagine nell'indice dei motori di ricerca;
  • anche se i motori di ricerca cercano di filtrare i contenuti duplicati, i collegamenti alle pagine di contenuti duplicati continuano a trasmettere loro il succo dei collegamenti. Quindi le pagine duplicate possono ottenere PageRank o link juice, e poiché ciò non le aiuta a classificarsi, quella risorsa viene sprecata;
  • nessuno dei motori di ricerca ha fornito una spiegazione chiara di come il proprio algoritmo sceglie quale versione della pagina mostrare. In altre parole, se trova tre copie dello stesso contenuto, quali due filtrerà? Quale mostrerà? Dipende dalla query di ricerca? Di conseguenza, il motore di ricerca potrebbe mostrare la versione sbagliata di cui hai bisogno.

Sebbene i singoli ottimizzatori possano discutere con alcuni dei punti qui presentati, la struttura generale è quasi ineccepibile. Tuttavia, ci sono diversi problemi lungo i confini di questo modello.

Ad esempio, il tuo sito ha un gruppo di pagine di prodotti, nonché versioni stampabili di tali pagine. Il motore di ricerca può scegliere di visualizzare la versione stampabile nei suoi risultati. Questo a volte accade e può succedere anche quando la pagina stampabile ha meno link juice e un ranking inferiore rispetto alla pagina principale del prodotto.

Per rimediare, applica l'attributo link rel="canonical" a tutte le versioni duplicate della pagina per indicare la versione master.

La seconda opzione potrebbe apparire quando si distribuisce il contenuto (consentire la ristampa del contenuto) a terze parti. Il problema è che il motore di ricerca potrebbe omettere il tuo originale dai risultati della ricerca e preferire la versione utilizzata dalla persona che ha ristampato il tuo articolo. Ci sono tre potenziali soluzioni a questo problema:

  • lascia che la persona che ha ripubblicato il tuo articolo rimandi all'articolo originale sul tuo sito con l'attributo rel="canonical". Questo indicherà ai motori di ricerca che la tua copia della pagina è l'originale e tutti i link che puntano alla pagina sindacata verranno accreditati sulla tua pagina originale;
  • chiedi al tuo partner di syndication di coprire la loro copia con l'attributo noindex. In questo caso, il contenuto duplicato semplicemente non verrà indicizzato dal motore di ricerca. Inoltre, qualsiasi collegamento in questo contenuto al tuo sito ti trasferirà comunque l'autorità;
  • fai in modo che il tuo partner si colleghi alla pagina originale del tuo sito. I motori di ricerca di solito lo interpretano correttamente ed enfatizzano la tua versione del contenuto. Tuttavia, va notato che ci sono stati casi in cui Google ha erroneamente attribuito contenuti e assegnato la paternità al sito che lo ha ripubblicato, soprattutto se quel sito ha molta più autorità e credibilità rispetto alla vera fonte originale del contenuto.

In che modo i motori di ricerca riconoscono i contenuti duplicati?

Illustreremo il processo di ricerca di contenuti duplicati sul World Wide Web per il motore di Google con esempi. Negli esempi presentati in fig. 1-4, si fanno tre ipotesi:

  • una pagina con testo è una pagina che contiene contenuti duplicati (e non solo un frammento di esso, come mostrato nelle figure);
  • tutte le pagine con contenuto duplicato sono in domini diversi;
  • i passaggi illustrati di seguito sono stati semplificati per rendere il processo il più semplice e diretto possibile. Questa non è certamente una descrizione accurata di come funziona Google, ma ne trasmette il significato.

Riso. uno

Riso. 2

Riso. 3

Riso. 4

Ci sono alcuni fatti sui contenuti duplicati che meritano una menzione speciale in quanto possono creare confusione per un webmaster che è nuovo nel duplicare i problemi dei contenuti. Consideriamo questi fattori.

  • Posizione del contenuto duplicato - se tutto questo contenuto è sul mio sito, è duplicato? Sì, perché i contenuti duplicati possono verificarsi sia all'interno dello stesso sito che su siti diversi.
  • Percentuale di contenuti duplicati - Quale percentuale di una pagina deve essere duplicata per poter beneficiare del filtro dei contenuti duplicati? Sfortunatamente, i motori di ricerca non rivelano mai queste informazioni in quanto sarebbero dannose per la loro capacità di prevenire il problema stesso.
  • È quasi certo che questa percentuale è in continua evoluzione per tutti i motori e quando vengono rilevati contenuti duplicati, non viene effettuato solo un confronto diretto. La linea di fondo è che le pagine non devono essere identiche per essere considerate duplicate.
  • Correlazione tra codice e testo - Cosa succede se il nostro codice è molto grande, ma ci sono pochi elementi HTML univoci sulla pagina? Google non penserà che tutte le pagine siano duplicate l'una dell'altra? No. I motori di ricerca non si preoccupano del tuo codice, si preoccupano del contenuto delle tue pagine. La dimensione del codice diventa un problema solo quando diventa eccessiva.
  • Il rapporto tra elementi di navigazione e contenuto unico - tutte le pagine del mio sito hanno una grande barra di navigazione, tante intestazioni e piè di pagina, ma pochissimi contenuti. Google non considererebbe tutte queste pagine dei duplicati? No. Google (così come Yahoo! e Bing) tiene conto degli elementi di navigazione prima di valutare le pagine per i duplicati. Hanno molta familiarità con il layout dei siti Web e capiscono che avere strutture coerenti su tutte le pagine (o molte di esse) è del tutto normale. Prestano attenzione alle parti uniche delle pagine e ignorano quasi completamente il resto.
  • Contenuti concessi in licenza - Cosa succede se voglio evitare problemi di contenuti duplicati, ma ho contenuti da altre fonti Web che ho autorizzato a mostrare ai miei visitatori? Usa il codice meta name = "robots" content="noindex, follow" . Inseriscilo nell'intestazione della tua pagina e i motori di ricerca sapranno che questo contenuto non fa per loro. Questa è la migliore pratica poiché le persone potranno comunque visitarlo questa pagina e creare un collegamento ad essa, e i collegamenti in questa pagina manterranno il loro valore.

Un'altra opzione è ottenere i diritti esclusivi per possedere questo contenuto e pubblicarlo.

Individuazione ed eliminazione delle violazioni del diritto d'autore

Uno dei modi migliori per rintracciare i duplicati sul tuo sito è usare CopyScape (copyscape.com), che ti permette di vedere istantaneamente le pagine sul World Wide Web che stanno usando i tuoi contenuti. Non preoccuparti se le pagine di questi siti sono in un sottoindice o hanno un ranking significativamente inferiore al tuo: se un dominio grande, autorevole e ricco di contenuti cercasse di combattere tutte le copie del suo materiale sul World Wide Web, avrebbe bisogno, almeno due dipendenti a tempo pieno. Fortunatamente, i motori di ricerca si fidano di tali siti e quindi li riconoscono come fonti originali.

D'altra parte, se hai un sito relativamente nuovo, o un sito con pochi link in entrata, e i plagi si classificano costantemente più in alto di te (o qualche sito potente ti ruba il lavoro), ci sono cose che puoi fare. Un'opzione consiste nell'inviare una richiesta all'editore chiedendogli di rimuovere il contenuto illecito. In alcuni casi, l'editore semplicemente non era a conoscenza della violazione del copyright. Un'altra opzione è scrivere al provider di hosting. Le società di hosting possono potenzialmente essere ritenute responsabili dell'organizzazione di contenuti duplicati, quindi spesso rispondono rapidamente a tali richieste. Assicurati solo di essere disposto a fornire quanta più documentazione possibile per dimostrare la paternità del contenuto.

L'opzione successiva è presentare una richiesta di violazione del copyright (DMCA) a Google, Yahoo! e Bing. Dovresti inviare la stessa richiesta all'azienda che ospita il sito web dell'autore del reato.

La seconda opzione è intraprendere un'azione legale contro il sito in violazione o minacciare di farlo. Se il sito che pubblica il tuo lavoro è di proprietà del tuo paese, questo è probabilmente il primo passo più intelligente. Puoi iniziare con una comunicazione più informale e chiedere la rimozione del contenuto prima ancora di inviare una lettera formale da un avvocato, poiché possono passare mesi prima che le misure DMCA entrino in vigore. Ma se non ricevi una risposta, non hai motivo di rimandare un'azione più seria.

Un'opzione molto efficace ed economica per questo processo è DCMA.com.

Situazione con un vero rigore

Gli esempi precedenti mostrano filtri di contenuto duplicati al lavoro, ma non sono sanzioni, anche se in termini pratici l'effetto è lo stesso delle penalità: abbassare il ranking della tua pagina. Tuttavia, ci sono situazioni in cui può apparire una vera multa. Ad esempio, i siti di aggregazione dei contenuti sono a rischio, soprattutto se il sito stesso aggiunge pochi contenuti unici. In questo scenario, il sito può essere davvero penalizzato.

L'unico modo per risolvere questo problema è ridurre il numero di pagine duplicate disponibili per lo spider dei motori di ricerca. Ciò si ottiene rimuovendoli, aggiungendo un attributo canonico ai duplicati, aggiungendo un attributo noindex alle pagine stesse o aggiungendo una quantità significativa di contenuto unico.

Un esempio di contenuto che può essere filtrato frequentemente è questo sito partner "sottile". Questo è spesso indicato come un sito che promuove la vendita di prodotti di altre persone al fine di guadagnare commissioni, ma non fornisce nuove informazioni. Un tale sito potrebbe ricevere descrizioni da un produttore di prodotti e riprodurre semplicemente tali descrizioni, insieme a un collegamento a un affiliato, per incassare "clic" o acquisti.

Il problema sorge quando un venditore ha migliaia di partner che utilizzano lo stesso contenuto e gli ingegneri dei motori di ricerca hanno ricevuto feedback dagli utenti che (dal loro punto di vista) tali siti non aggiungono nulla di valore ai loro indici. Pertanto, i motori di ricerca cercano di filtrare tali siti o addirittura di escluderli dai loro indici. I modelli di affiliazione sono utilizzati da molti siti, ma forniscono anche nuovi contenuti ricchi, quindi di solito non hanno problemi. I motori di ricerca agiscono solo in presenza di contenuti duplicati e mancanza di valore unico allo stesso tempo.

Come evitare contenuti duplicati sul sito?

Come abbiamo notato in precedenza, i contenuti duplicati possono essere creati in molti modi. La duplicazione interna del materiale richiede l'utilizzo di tattiche specifiche al fine di ottenere i migliori risultati in termini di ottimizzazione. In molti casi, le pagine duplicate sono pagine che non hanno alcun valore per gli utenti o i motori di ricerca. In tal caso, provare a eliminare completamente questo problema. Modifica l'implementazione in modo che un solo URL si colleghi a ciascuna pagina. Esegui anche un reindirizzamento 301 per i vecchi URL agli URL rimanenti , per aiutare i motori di ricerca a vedere le modifiche che apporti il ​​più rapidamente possibile e mantenere il "link juice" che avevano le pagine eliminate.

Se ciò non è possibile, ci sono molte altre opzioni. . Di seguito è riportato un riepilogo delle linee guida per le soluzioni più semplici per una varietà di scenari:

  • utilizza un file robots.txt per impedire agli spider dei motori di ricerca di eseguire la scansione di versioni duplicate delle pagine del tuo sito;
  • usa l'elemento rel="canonical" - questa è la seconda soluzione (tra le migliori) per eliminare le pagine duplicate;
  • utilizzo IL CODICE dare un'indicazione MOTORE DI RICERCA i motori non indicizzano le pagine duplicate.

Tuttavia, tieni presente che se stai utilizzando un file robots.txt per impedire la visualizzazione della pagina, l'utilizzo dell'attributo noindex o nofollow sulla pagina stessa non ha senso. Poiché il ragno non può leggere questa pagina, non vedrà mai gli attributi noindex o nofollow. Tenendo presente questi strumenti, diamo un'occhiata ad alcune specifiche situazioni di contenuto duplicato.

    Pagine HTTPS - se stai utilizzando SSL (uno scambio crittografato tra un browser e un server web spesso utilizzato per l'e-commerce), il tuo sito ha pagine che iniziano con HTTPS: (invece di http :). Il problema sorge quando i collegamenti sulle tue pagine HTTPS puntano ad altre pagine del sito utilizzando collegamenti relativi anziché assoluti (quindi, ad esempio, il collegamento alla tua home page diventa https://www.YourDomain.com anziché http:// www.tuodominio.com).

    Se il tuo sito ha un problema del genere, puoi utilizzare l'elemento rel="canonical" o i reindirizzamenti 301 per risolverlo. Una soluzione alternativa è quella di cambiare i link in quelli assoluti: http://www.YourDomain.com/content.html invece di /contenthtml), che allo stesso tempo rende la vita un po' più difficile a chi ruba i tuoi contenuti.

  • Sistemi di gestione dei contenuti che creano contenuti duplicati - a volte un sito ha molte versioni di pagine identiche. Ciò è dovuto alle limitazioni in alcuni sistemi di gestione dei contenuti che indirizzano lo stesso contenuto con più di un URL. Di solito si tratta di una duplicazione completamente non necessaria che non ha alcun valore per gli utenti e la soluzione migliore è rimuovere le pagine duplicate e reindirizzare 301 le pagine eliminate alle pagine rimanenti. Se non funziona, prova altri metodi (dati all'inizio di questo articolo).
  • Pagine stampabili o molte opzioni di ordinamento - molti siti offrono pagine stampabili che forniscono all'utente lo stesso contenuto in un formato adatto alla stampa. Alcuni siti di e-commerce offrono elenchi dei loro prodotti con molti tipi possibili (per taglia, colore, marca e prezzo). Queste pagine hanno valore per l'utente, ma nessun valore per i motori di ricerca, e quindi appariranno loro come contenuti duplicati. In una situazione del genere, devi utilizzare una delle opzioni fornite in precedenza su questo blog o impostare un foglio CSS per la stampa (come descritto nel post yoast.com/added-print-css-style-sheet/ su Yoast sito web).
  • Contenuto duplicato in blog e sistemi di archiviazione- i blog sono una variazione interessante sul problema dei contenuti duplicati. Un post del blog può apparire su diverse pagine: la home page del blog, la pagina dei permalink del post, le pagine di archivio e le pagine delle categorie. Ogni istanza di post è un duplicato delle altre istanze. È molto raro che gli editori affrontino il problema di avere un post sia nella home page del blog che nella pagina del permalink. E, a quanto pare, i motori di ricerca fanno un ottimo lavoro nell'affrontare questo problema. Tuttavia, potrebbe avere senso mostrare solo frammenti di post nelle pagine di categoria e archivio.
  • Contenuti duplicati generati dagli utenti (post duplicati, ecc.) - molti siti implementano strutture per la ricezione di contenuti generati dagli utenti, come blog, forum o bacheche. Questi possono essere ottimi modi per sviluppare molti contenuti a un costo molto basso. Il problema è che un utente può pubblicare lo stesso contenuto sul tuo sito e più altri siti contemporaneamente, risultando in contenuti duplicati. È difficile controllarlo, ma si può considerare quanto segue per ridurre il problema:
    • è necessario disporre di una politica chiara che notifichi agli utenti che il contenuto che inviano al tuo sito deve essere unico e non può essere ospitato su altri siti. Certo, questo è difficile da raggiungere, ma aiuterà a capire le tue aspettative;
    • implementa il tuo forum in un modo unico che richiede contenuti diversi. Oltre ai campi di immissione dati standard, aggiungi alcuni campi univoci (diversi dagli altri siti) che saranno utili per i visitatori del tuo sito.

Contenuto (contenuto in inglese - contenuto) - informazioni, ovvero testo, immagini, video, file che si trovano sul sito.
Dovrebbe essere:
  1. Dare la risposta più completa e comprensibile, risolvere il problema di una persona: che sia per tirarsi su di morale, porre fine a un difficile dilemma o acquistare un prodotto di qualità.
  2. Senza usare frammenti nascosti come:
  • testo dello stesso colore dello sfondo,
  • il testo è nascosto dall'immagine, situata dietro di essa,
  • la dimensione del carattere è impostata su 0.
  • Strutturato e variamente progettato, ovvero facilmente percepibile visivamente:
    • le idee principali sono evidenziate a colori o in grassetto in modo che l'utente si concentri su di esse. Non dimenticare che le pagine web non vengono lette, ma scremate.
    • attraverso la struttura dell'articolo,
    • le frasi sono raggruppate in paragrafi con una riga vuota tra di loro,
    • liste usate, virgolette, tabelle,
    • immagini usate, infografiche, video, registrazioni audio. Le immagini giocano un ruolo importante. Quindi, un lettore di questo blog ha chiesto di tradurre i personaggi nello screenshot, che raffigurava l'editor di Blogger.
  • Unica e originale (non può essere ripristinata da siti morti o prelevata da risorse sotto filtri). I motori di ricerca lo controllano da vicino, sono estremamente indesiderabili riguardo ai duplicati e applicano sanzioni per l'uso di materiali simili. Immagina la situazione: imposti una richiesta e vedi la stessa risposta nei risultati di output. Lo studio di diverse fonti che hanno rivelato l'argomento in modi diversi ci consentirà di formare una comprensione più accurata e ampia della questione. È possibile verificare l'unicità del testo inserendo il suo frammento tra virgolette () nel modulo di ricerca.
  • La duplicazione dei contenuti può essere osservata non solo quando si posizionano dati su siti diversi, ma anche quando le informazioni vengono ripetute su due o più di un progetto web. Ecco un esperimento su devvver.ru sul negativo dei duplicati interni e su come i concorrenti possono trarne vantaggio.

    Considera quali strumenti abbiamo nella lotta contro questa malattia.

    Collegamenti di pagina

    L'unico un modo al cento per cento per impedire che una pagina venga indicizzata è non pubblicare collegamenti ad essa e non aggiungerla a Yandex addurilki, Google eccetera.

    File Robots.txt

    Un file di testo robots.txt (ad esempio ) è un ottimo strumento per la gestione dell'indicizzazione. Aiuta Yandex, Google. Ma se Google trova un collegamento a un URL chiuso in robots.txt, lo aggiungerà ai risultati della ricerca.

    Per questo motivo è necessario entrare qui solo quei documenti web che non possono essere raggiunti in altro modo, Per esempio, . Ed ovviamente, Mappa del sito per una migliore e più rapida indicizzazione delle pagine popolari.

    Intestazione HTTP

    L'URL non verrà indicizzato se riporta 404 o 301. E per Google, anche quando è presente la stringa

    X-Robot-Tag: noindex

    meta tag robot

    Questo strumento principale, perché funziona allo stesso modo sia per Yandex che per Google. Nella pagina, il cui contenuto dovrebbe essere vietato, è indicato:

    rel="canonical" attributo

    Obbligatorio l'attributo rel="canonical" suggerisce quello preferito tra diversi documenti web con contenuti molto simili, come http://site/2010/07/kontent..html?showComment. Il secondo motore di ricerca lo ignorerà perché obbedirà alla stringa:

    Yandex.Webmaster

    media="stampa"

    Non è necessario creare una versione stampabile separata. Gli stili possono essere regolati con .

    Rimozione dei duplicati che sono nell'indice per errore

    Nonostante le misure adottate, i robot di ricerca possono indicizzare una pagina indesiderata. Facendo una richiesta

    Guarda l'intera SERP, in particolare quelle con risultati Google omessi. Idealmente, questa iscrizione non dovrebbe essere:

    I risultati omessi devono essere rimossi manualmente. Per Yandex, utilizzeremo il modulo di eliminazione della pagina e per Google è necessario accedere a "Strumenti per i Webmaster" - "Ottimizzazione" - "Elimina URL" - "Crea una nuova richiesta di eliminazione".

    I motori di ricerca come Google hanno un problema e il nome è "contenuto duplicato". Il contenuto è chiamato duplicato se appare in una forma simile in luoghi diversi su Internet globale (a URL diversi), per cui i motori di ricerca non sanno quale URL visualizzare nei risultati di ricerca. Ciò può avere un effetto negativo sul posizionamento di una pagina web e quando le persone iniziano a collegarsi a versioni diverse dello stesso contenuto, il problema peggiora.

    Questo articolo ti aiuterà a comprendere le cause dei contenuti duplicati e ti darà un'idea di cosa è necessario fare in ogni caso specifico.

    Che cos'è il contenuto duplicato?

    Il contenuto duplicato può essere paragonato a un crocevia in cui i segnali stradali puntano in direzioni diverse per la stessa località: quale strada dovresti prendere? A peggiorare le cose, anche la destinazione finale è diversa, solo un pochino. Come lettore, non ti interessa, l'importante è ottenere ciò per cui sei venuto, ma il motore di ricerca deve scegliere quale pagina visualizzare nei risultati della ricerca, perché, ovviamente, non vogliono visualizzare nuovamente il stesso contenuto.

    Supponiamo che il tuo articolo sulla "parola chiave x" appaia invariato agli indirizzi e http://www.example.com/article-category/keyword-x/. La situazione non è inverosimile: questo accade in molti moderni sistemi di gestione dei contenuti. Quindi, supponiamo che il tuo articolo sia stato ripreso da diversi blogger, alcuni che si collegavano al primo URL e altri al secondo. Eccolo, il momento stesso in cui il problema dei motori di ricerca mostra la sua vera natura: riguarda anche te. il contenuto duplicato è il tuo problema perché quei link promuovono URL diversi. Se si collegassero allo stesso URL, le possibilità di classificarsi per "parola chiave x" sarebbero maggiori.

    1 Cause di contenuto duplicato

    Ci sono dozzine di motivi per cui viene visualizzato contenuto duplicato. La maggior parte di essi sono di natura tecnica: non capita spesso che una persona decida di pubblicare lo stesso contenuto in due luoghi diversi senza chiarire quale sia l'originale - per la maggior parte di noi questo sembra innaturale. Tuttavia, ci sono molte ragioni tecniche e sorgono principalmente perché gli sviluppatori pensano a modo loro - non come i browser e nemmeno come gli utenti, per non parlare dei ragni di ricerca - pensano come i programmatori. Prendi, ad esempio, l'articolo menzionato in precedenza su http://www.example.com/keyword-x/ e http://www.example.com/article-category/keyword-x/. Se chiedi agli sviluppatori la loro opinione, ti assicureranno che c'è solo un articolo qui.

    1.1 Fraintendere il concetto di URL

    No, gli sviluppatori non sono pazzi, parlano solo una lingua diversa. Molto probabilmente il sito sarà supportato da un CMS e conterrà solo un singolo articolo nel suo database, ma il software del sito Web consentirà l'accesso a questo articolo tramite più URL. L'equivoco si verifica perché, dal punto di vista degli sviluppatori, l'identificatore univoco dell'articolo è l'ID assegnatogli nel database e non una sorta di URL. Ma per un motore di ricerca, un URL è un identificatore di contenuto univoco. Se spieghi la situazione agli sviluppatori, inizieranno a capire l'essenza del problema e, dopo aver letto l'articolo, potrai persino fornire loro una soluzione già pronta.

    1.2 Identificatori di sessione

    Spesso si desidera monitorare le attività dei visitatori e consentire loro, ad esempio, di salvare gli articoli desiderati in un carrello. Per raggiungere questo obiettivo, è necessario fornire loro una "sessione". Una sessione è una breve cronologia dell'attività di un visitatore sul tuo sito, che può includere gli articoli menzionati in precedenza nel carrello e simili. Per salvare la sessione dell'attività dell'utente (mentre questi continua a scorrere le pagine del sito), è necessario salvare da qualche parte un identificatore di sessione univoco, chiamato anche ID di sessione. La soluzione più comune è utilizzare i cookie, ma la verità è che i motori di ricerca di solito non li salvano.

    In tal caso, alcuni sistemi smettono di utilizzare gli identificatori di sessione nell'URL. Ciò significa che all'URL di ciascun collegamento interno al sito Web viene assegnato un ID di sessione e, poiché questo ID è unico per la sessione, ciò porta alla creazione di nuovi URL e, di conseguenza, a contenuti duplicati.

    1.3 Parametri URL utilizzati per il monitoraggio e l'ordinamento

    Un altro motivo per il verificarsi di contenuti duplicati è l'uso di parametri URL che non modificano il contenuto della pagina stessa, ad esempio nei link di tracciamento. Vedete, per gli URL di un motore di ricerca http://www.example.com/keyword-x/ e http://www.example.com/keyword-x/? source=rss sono diversi. Ciò potrebbe consentirti di tenere traccia di quale risorsa ha portato i visitatori, ma allo stesso tempo rendere difficile la tua classifica - una conseguenza molto indesiderabile!

    Questo, ovviamente, non si applica ai soli parametri di monitoraggio, ma a tutti i parametri che possono essere aggiunti a un URL e che non modificano una parte di fondamentale importanza del contenuto. E non importa a cosa serva questo parametro, che si tratti di "modifiche nell'ordinamento della categoria di prodotti" o "visualizzazione della barra laterale successiva": ognuno di essi causa contenuti duplicati.

    1.4 Scraper e diffusione dei contenuti

    Per la maggior parte, il tuo sito o te stesso è responsabile del verificarsi di contenuti duplicati. Tuttavia, a volte altri siti Web utilizzano i tuoi contenuti, con o senza il tuo consenso. Non sempre si collegano alla fonte originale, lasciando che il motore di ricerca si occupi dell'ennesima versione dello stesso articolo. Più il tuo sito diventa popolare, più attira gli scraper, aggravando sempre di più il problema.

    1.5 Ordine dei parametri

    Un altro motivo comune è che il CMS non utilizza URL abbastanza puliti, ma piuttosto URL come / ?id=1&cat=2 dove "ID" si riferisce all'articolo e "cat" alla categoria. URL /?cat=2&id=1 rappresenterà lo stesso risultato per la maggior parte dei sistemi di siti Web, ma per un motore di ricerca i risultati saranno completamente diversi.

    1.6 Impaginazione dei commenti

    Nel mio WordPress preferito, così come in alcuni altri sistemi di gestione dei contenuti, c'è la possibilità di impaginazione dei commenti. Ciò comporta la visualizzazione di contenuti duplicati nell'URL dell'articolo, poiché /comment-page-1/, /comment-page-2/ ecc. vengono aggiunti all'URL dell'articolo.

    1.7 Versione stampabile delle pagine

    Se il sistema di gestione dei contenuti crea una versione stampabile delle pagine e ti colleghi ad esse dal tuo articolo, è più probabile che Google le trovi (a meno che, ovviamente, non siano state bloccate intenzionalmente). Ora sii onesto con te stesso: quale versione preferiresti vedere nei risultati di ricerca di Google? La versione con i tuoi annunci e i contenuti di supporto o quella con solo l'articolo?

    1.8 con WWW e senza WWW

    Questo motivo è vecchio quanto il mondo, ma nel caso della disponibilità di entrambe le versioni del WWW e senza il WWW, i motori di ricerca ogni tanto (anche se non spesso) continuano a percepire i contenuti rilevanti come duplicati. Un altro motivo (non così popolare, ma con cui ho anche avuto a che fare) è HTTP e contenuto duplicato.

    2 Soluzione concettuale: URL "canonico".

    Come abbiamo già visto, quando più URL portano allo stesso contenuto, c'è un problema, ma può essere risolto. Dovrebbe essere facile per una persona che lavora a una pubblicazione spiegare quale dovrebbe essere l'URL "corretto" per un particolare articolo, ma se chiedi a tre persone della stessa azienda, le risposte possono essere completamente diverse...

    Questo problema può essere risolto solo con l'aiuto dell'indirizzamento, perché, comunque sia, può esserci solo un URL. Tale URL "corretto" per un determinato contenuto è considerato canonico dai motori di ricerca.

    osservazione ironica

    "Canonico" è un termine che deriva dalla tradizione cattolica romana, secondo la quale un elenco di libri sacri è stato creato e accettato come autentico. Divennero noti come il vangelo canonico del Nuovo Testamento. Ironia della sorte, la Chiesa cattolica romana ha impiegato oltre 300 anni e molte battaglie per stabilire questo elenco canonico. Alla fine, hanno concordato quattro versioni della stessa storia ...

    3 Identificazione dei problemi di contenuto duplicato

    Potresti non sapere cosa ha causato la comparsa di contenuti duplicati per te, è il sito o il contenuto stesso la colpa? Ci sono diversi modi per scoprirlo.

    3.1 Console di ricerca di Google

    Google Search Console è un ottimo strumento per individuare contenuti duplicati. Vai alla Search Console del tuo sito, quindi alla scheda Aspetto della ricerca -> Miglioramenti HTML e vedrai quanto segue:

    Le pagine con titoli o tag ripetitivi sono quasi sempre una cosa negativa. Una volta cliccato, verranno trovati URL con titoli o tag duplicati per aiutarti a identificare il problema. Nel caso in cui tu abbia un articolo come quello che abbiamo menzionato prima (parola chiave X) e appaia in due categorie, potrebbe avere titoli diversi. Ad esempio, "Parola chiave X - Categoria X - Sito di esempio" e "Parola chiave X - Categoria Y - Sito di esempio". Google non considererà questi titoli come duplicati, ma possono essere trovati facendo una ricerca.

    3.2 Cerca titoli o frammenti

    Esistono diversi operatori di ricerca molto utili in casi come quello sopra. Se vuoi trovare tutti gli URL del tuo sito che contengono l'articolo "parola chiave X" devi digitare la seguente frase nella ricerca di Google:

    site:example.com intitle:"Parola chiave X"

    Google ti mostrerà quindi tutte le pagine trovate su esempio.com che contengono la parola chiave specificata. Più specifico è il titolo, più facile sarà eliminare i contenuti duplicati. È possibile utilizzare questo metodo per identificare i contenuti duplicati su Internet. Se, ad esempio, il titolo completo del tuo articolo è "Keyword X - Why It's Cool", dovresti usare la frase:

    intitle:"Parola chiave X - Perché è fantastico"

    E Google ti darà tutti i siti che rientrano in questa voce. A volte ha senso cercare anche una o due frasi complete dal tuo articolo, poiché alcuni scraper potrebbero cambiare il titolo. In alcuni casi, una tale ricerca può comportare la visualizzazione del seguente avviso nelle ultime pagine di una ricerca su Google:

    Questo è un segno che Google è già impegnato a rimuovere i contenuti duplicati. Ma questo non è ancora abbastanza, quindi vale la pena seguire il collegamento e guardare tutti gli altri risultati per vedere se almeno alcuni di essi possono essere corretti.

    4 Soluzioni pratiche per contenuti duplicati

    Dopo aver deciso quale URL è l'indirizzo canonico per un particolare pezzo dei tuoi contenuti, è il momento di passare al processo di canonizzazione ("sì, lo so", prova a dirlo ad alta voce tre volte velocemente). Ciò significa che dobbiamo informare i motori di ricerca della versione canonica della pagina e fargliela trovare il prima possibile. Le soluzioni possibili sono quattro, in ordine di preferenza sono le seguenti:

    1. Non creare contenuti duplicati
    2. Reindirizza il contenuto duplicato all'URL canonico
    3. Aggiungi l'attributo rel=canonical a una pagina con contenuto duplicato
    4. Aggiungi un collegamento HTML da una pagina con contenuto duplicato alla versione canonica della pagina

    4.1 Come evitare contenuti duplicati

    Alcune delle suddette cause di contenuto duplicato possono essere facilmente eliminate:

    • I tuoi URL contengono ID di sessione? Spesso puoi semplicemente prenderli e disabilitarli nelle impostazioni di sistema.
    • Avete versioni stampabili delle pagine? Non ce n'è bisogno: devi solo usare gli stili CSS per la stampa.
    • Usi l'impaginazione dei commenti in WordPress? Devi solo disabilitare questa funzione (nella sezione delle impostazioni per il 99% dei siti).
    • L'ordine dei parametri rimane lo stesso? Dì al tuo programmatore di scrivere uno script che ordini sempre i parametri (spesso indicato come "fabbrica di URL").
    • Ci sono problemi con i link di tracciamento? Nella maggior parte dei casi, puoi implementare una campagna di monitoraggio degli hashtag invece di utilizzare i parametri per farlo.
    • Hai problemi con "WWW e non WWW"? Scegline uno e poi reindirizza all'altro indirizzo. Puoi anche impostare le preferenze utilizzando Strumenti per i Webmaster di Google, ma entrambe le versioni del nome di dominio devono essere tue.

    Anche se risolvere il tuo problema non è facile, lo sforzo potrebbe essere giustificato. L'obiettivo dovrebbe essere quello di evitare contenuti duplicati, poiché questa è di gran lunga la soluzione migliore.

    4.2 Reindirizzamento di contenuti duplicati 301

    Ci sono momenti in cui semplicemente non è possibile evitare completamente che il sistema utilizzi URL non validi (per i contenuti), ma questi possono essere casi in cui è possibile utilizzare i reindirizzamenti. Se pensi che non ci sia logica in questo (posso capirti), ricordati di ricordarlo quando parli con gli sviluppatori. Quando lavori per risolvere i problemi relativi ai contenuti duplicati, assicurati di reindirizzare tutti i contenuti duplicati dai vecchi URL a quelli canonici.

    4.3 Utilizzo dei link

    A volte, anche se sai che l'URL è sbagliato, non vuoi o non puoi eliminare la versione duplicata di un articolo. Per risolvere questo problema, i motori di ricerca hanno introdotto l'elemento link canonico, che si trova nell'intestazione del tuo sito e si presenta così:

    link rel="canonical" href="http://example.com/wordpress/seo-plugin/

    Hai impostato l'attributo href del link canonico sull'URL canonico corretto del tuo articolo. Quando un motore di ricerca che supporta i link canonici incontra un tale elemento, esegue un reindirizzamento 301, regalando così quasi tutto il valore guadagnato dalla pagina della sua versione canonica.

    Vero, sarà più veloce utilizzare direttamente il reindirizzamento 301 e quindi, se hai una scelta, devi dargli la preferenza.

    I contenuti ripetitivi sono generalmente indicati come grandi blocchi di informazioni all'interno di uno o più domini, il cui contenuto è completamente identico o quasi. Di norma, in questo caso non viene perseguita la finalità di indurre in errore l'utente. Il contenuto duplicato può essere utilizzato senza intenti dannosi, ad esempio:

    • pagine di forum in versioni normali di siti Web e versioni per dispositivi mobili;
    • merce nel negozio online, mostrata quando si fa clic su URL diversi;
    • versioni di pagina per la stampa.

    Se il tuo sito ha più pagine con quasi lo stesso contenuto, puoi impostare il tuo URL preferito per Google. Questo può essere fatto in molti modi. Questa procedura è chiamata "normalizzazione".

    Tuttavia, in alcuni casi, il contenuto viene intenzionalmente duplicato su domini diversi per manipolare il posizionamento nei motori di ricerca o aumentare il traffico. L'uso di trucchi come questo può lasciare agli utenti un'impressione negativa, poiché vedranno quasi lo stesso contenuto ripetuto nei risultati di ricerca.

    Google fa del suo meglio per indicizzare e visualizzare pagine con informazioni uniche. Ad esempio, se il tuo sito ha una versione "standard" e una "stampa" di ogni articolo che non sono contrassegnate dal meta tag noindex, solo uno di questi verrà visualizzato nei risultati di ricerca. Nei rari casi in cui Google ritiene che i contenuti duplicati vengano mostrati per manipolare le classifiche o fuorviare gli utenti, apporteremo modifiche all'indice e alla classifica dei siti in questione. A questo proposito, il posizionamento del sito potrebbe diminuire o il sito potrebbe essere rimosso del tutto dall'indice di Google e diventare non disponibile per la ricerca.

    Di seguito sono riportate le istruzioni su come evitare problemi di contenuto duplicato e assicurarsi che gli utenti vedano il contenuto desiderato.

    • Usa 301. Se hai modificato la struttura del tuo sito, utilizza un reindirizzamento 301 ("reindirizzamento permanente") nel tuo file .htaccess per reindirizzare rapidamente utenti, Googlebot e vari spider. (Per Apache, questo può essere fatto utilizzando il file .htaccess. Per IIS, tramite la console di amministrazione.)

    • Sii coerente. Cerca di utilizzare i link interni in modo coerente. Ad esempio, non collegare a http://www.example.com/page/ , http://www.example.com/page e http://www.example.com/page/index.htm .

    • Usa domini di primo livello. Per aiutarci a selezionare la versione più appropriata di un documento, utilizza i domini di primo livello quando possibile per visualizzare contenuti specifici per paese. Ad esempio, i contenuti relativi alla Russia devono essere pubblicati su http://www.example.ru anziché su http://www.example.com/ru o http://ru.example.com .

    • Fai attenzione alla sindacazione. Se fornisci i tuoi contenuti ad altri siti, per ogni query di ricerca Google mostrerà sempre la versione che ritiene più accettabile per gli utenti. Questa versione non è necessariamente quella che sceglieresti. Tuttavia, dovresti assicurarti che tutti i siti che ospitano i tuoi contenuti abbiano un collegamento all'articolo originale. Puoi anche chiedere ai proprietari di siti che utilizzano i tuoi contenuti sindacati di bloccarli utilizzando il meta tag noindex per impedire ai motori di ricerca di indicizzare la loro versione.

    • Utilizza Search Console per notificare a Google il tuo metodo di indicizzazione preferito. Puoi, in particolare, specificare il dominio principale (ad esempio, http://www.example.com o http://example.com).

    • Evita le ripetizioni stereotipate. Ad esempio, invece di mettere tutto il testo del copyright in fondo a ogni pagina, includi solo le informazioni più basilari con un link alla pagina che contiene la versione dettagliata. Puoi anche utilizzare lo strumento Parametri URL per scegliere come Google gestisce i parametri URL.

    • Non utilizzare "stub" di software. Gli utenti non sono interessati alle pagine vuote. Ad esempio, non pubblicare pagine il cui contenuto non è ancora pronto. Se le pagine segnaposto sono essenziali, bloccale con il meta tag noindex per impedirne l'indicizzazione.

    • Impara il tuo sistema di gestione dei contenuti. Acquisisci familiarità con il modo in cui i contenuti vengono visualizzati sul tuo sito. Blog, forum e sistemi simili spesso mostrano lo stesso contenuto in più formati. Ad esempio, un post del blog può apparire nella pagina principale del blog, nella pagina degli archivi e nella pagina con altri post e sempre con lo stesso titolo.

    • Riduci la quantità di contenuti correlati. Se il tuo sito ha molte pagine simili, aggiungi contenuti unici a ciascuna di esse o combinale in una sola. Supponiamo che tu abbia un sito di viaggi con pagine separate per due città che mostrano le stesse informazioni. Puoi invece inserire una pagina che descrive entrambe le città o aggiungere materiali unici a ciascuna.

    Google sconsiglia di impedire ai robot di ricerca di accedere a contenuti duplicati utilizzando un file robots.txt o altro. Se i motori di ricerca non sono in grado di eseguire la scansione di pagine con tale contenuto, non saranno in grado di rilevare automaticamente che URL diversi hanno lo stesso contenuto e li tratteranno come pagine uniche. La soluzione migliore è consentire la scansione di questi URL, ma contrassegnarli comunque come copie esatte con un collegamento rel="canonical", uno strumento di gestione dei parametri URL o un reindirizzamento 301. Se la presenza di più copie rallenta notevolmente la scansione delle pagine, regola la velocità di scansione in Search Console.

    La presenza di contenuti ripetuti nel sito non costituisce presupposto per intraprendere alcuna azione in relazione ad esso. Tali misure vengono applicate solo se effettuate con l'intento di fuorviare gli utenti o manipolare i risultati di ricerca. Se riscontri problemi con contenuti duplicati e non hai seguito i consigli di cui sopra, sceglieremo quale versione del contenuto mostrare nei risultati di ricerca a nostra discrezione.

    Tuttavia, se la nostra recensione mostra che hai utilizzato pratiche ingannevoli e il tuo sito è stato rimosso dai nostri risultati di ricerca, dai un'occhiata più da vicino al tuo sito. Consulta la nostra guida per i webmaster e apporta le modifiche necessarie. Dopo aver verificato che il sito soddisfi i requisiti, inviaci una richiesta.

    In alcuni casi, gli algoritmi di Google possono selezionare l'URL di un sito di terze parti che ospita copie dei tuoi contenuti senza autorizzazione. Se il tuo contenuto è stato pubblicato su un altro sito che viola il copyright, chiedi al suo proprietario di rimuovere il contenuto. Puoi anche inviare una richiesta a Google per rimuovere la pagina in violazione dai risultati di ricerca. Per fare ciò, è necessario inviare una notifica di violazione del Digital Millennium Copyright Act degli Stati Uniti.

    questo articolo è stato utile?

    Come si può migliorare questo articolo?

    Articoli correlati in alto