Accueil » Blog » Le contenu dupliqué

Le contenu dupliqué

Publié le 4 décembre 2013
par Isabelle Canivet

Une page dont plus de 30 % du contenu se retrouvent sur 2 ou plusieurs pages web est considérée comme contenu dupliqué ou Duplicate Content.

La duplication de contenu est sanctionnée par les moteurs de recherche pour différentes raisons :

Le contenu dupliqué génère des répétitions au niveau des résultats de recherche. Dans un souci de qualité, notamment, les moteurs les relèguent dans un index secondaire, ce qui a pour conséquence que ces pages dupliquées n’ont plus aucune visibilité sur les pages de résultats. Trop de contenu dupliqué peut mener à l’exclusion du site de l’index.

D’un point de vue économique, le contenu dupliqué augmente inutilement l’espace disque et les bases de données utilisées par les moteurs ainsi que les coûts de crawling (les crawlers sont les robots qui scrutent en permanence les sites internet pour indexer leur contenu).

Les robots passeront du temps à crawler le contenu dupliqué au détriment des autres pages. Si Google rencontre trop de contenu dupliqué, il peut ralentir son crawling, ce qui aura un impact sur le positionnement du site (ranking) en partie ou dans sa totalité.

La répétition de pages dupliquées disperse le jus de lien (link juice ou transfert de popularité) d’une page A vers une page B, en faisant pointer des liens tantôt vers la page B, tantôt vers la page B1, B2, etc. Le PageRank s’en ressent, les pages perdent en positionnement.

Les pages dupliquées sont reléguées dans l’index secondaire, ce qui signifie qu’elles ne seront pas visibles sur les pages de résultats.

Il est donc impératif d’identifier le contenu dupliqué et de le supprimer.

Les différents types de contenu dupliqué

Il existe différents types de contenu dupliqué entre plusieurs pages :

duplication totale
duplication partielle
duplication interne
duplication externe

Examinons ces différents types en détail.

La duplication totale

On considère que l’on a de la duplication totale de contenu si une page est accessible via plusieurs URL différentes (sécurisées ou non). On parle aussi de DUST (Different URL Same Text) : duplication d’URL, même texte.

C’est le cas de la page produit qui appartient à 2 catégories :

www.nomdusite.com/categorie1/monproduit.html
www.nomdusite.com/categorie2/monproduit.html

Par exemple, si vous hésitez à placer une page sous l’une ou l’autre catégorie, vous pouvez décider de la placer sous les deux catégories. Vous pourriez placer la fiche produit « Jeux vidéo 123 » sous la catégorie « Multimédia » et sous la catégorie « Jeux ». Cette fiche sera accessible via deux URL et elle présentera le même contenu :

www.nomdusite.com/multimedia/jeu-video-132.html
www.nomdusite.com/jeune/jeu-video-132.html

Si vos pages sécurisées sont indexées, vous aurez également du contenu dupliqué :

http://www. nomdusite.com/mon-article.html
https://www. nomdusite.com/mon-article.html

Pour vérifier si vos pages https sont dans l’index, lancez la requête site:nomdusite.com inurl:https.

Certains CMS génèrent des URL différentes pour le même produit en fonction de la navigation sur le site (c’est le cas notamment de Magento) :

www.nomdusite.com/categorie1/monproduit.html
www.nomdusite.com/monproduit.html

Si un site Web est accessible avec et sans www devant le nom de domaine, et si rien n’est mis en place pour rediriger une variante de nom de domaine vers l’autre, vous aurez également du contenu dupliqué. Les pages seront indexées avec et sans www :

www.nomdusite.com/
nomdusite.com/
www.nomdusite.com

Ou avec différentes pages index :

www.nomdusite.com/index.html
www.nomdusite.com/index.htm
www.nomdusite.com/index.php

Vous aurez également du contenu dupliqué si vous utilisez un contenu identique pour des pays cibles différents. Par exemple, si on a un même contenu en français sur les sites dédiés à la France, la Belgique et la Suisse française, soit avec des sous-domaines (fr.nomdusite.com, be.nomdusite.com), soit avec des répertoires (nomdusite.com/fr ou nomdusite.com/be).

Idem pour les sites en développement (par exemple sur le sous-domaine test.nomdusite.com) si vous avez omis d’intégrer un noindex pour ces pages, signifiant ainsi aux robots qu’il ne faut pas indexer ces pages en développement.
Lorsque vous publiez la version définitive du site, vous risquez alors de vous retrouver avec une duplication de pages, les unes sous le sous-domaine test-nomdusite.com et les autres sous le nom de domaine www.nomdusite.com.
Le robots.txt est donc le premier fichier du site en développement à compléter consciencieusement pour demander aux moteurs de ne pas indexer les pages en développement.

Les pages faisant appel aux Session ID, par exemple www.nomdusite.com et www.nomdusite.com/?session=123 peuvent également être considérées comme du contenu dupliqué par les moteurs.

Il en est de même pour les versions imprimables pour lesquelles une variable est ajoutée à l’URL de la page web. Par exemple www.nomdusite.com/produit.php?id=123 pour la page web www.nomdusite.com/produit.php?id=123&print=1 pour la version imprimable.

La duplication partielle

Afin d’optimiser un site pour le référencement naturel, il est recommandé de créer un titre (balise title) et une description (balise meta description) uniques pour chaque page.
La multiplication d’un titre et/ou d’une meta description identiques tombe sous le cas de duplication partielle de contenu.
La balise meta description n’est certes pas prise en compte directement dans le calcul de pertinence d’une page, mais sa duplication sera pénalisante sur les pages de résultats, et donc, indirectement sur le positionnement du site.

La duplication partielle se produit généralement avec les pages de résultats d’un moteur de recherche interne ou avec des pages d’un même produit dont seule une faible portion de contenu change (par exemple la couleur, l’image, etc.).

Le contenu paginé, c’est-à-dire son morcellement en plusieurs pages peut tomber sous la duplication partielle si la page est également disponible dans son intégralité à côté de cette pagination.

Pagination du contenu
Il est possible de lire l’article complet ou via sa décomposition en pages successives accessibles par des liens de pagination de style Google.

Page canonique et contenu paginé

Utilisez le rel=’canonical’ pour indiquer la page canonique.

La technique de content spinning (génération automatisée de contenu et autres techniques black hat) peut également générer du contenu dupliqué partiel si les contenus ne se différencient pas suffisamment. Dans ce cas-ci, un contenu similaire est accessible via des URL différentes.

La duplication interne

Ce sont les contenus similaires internes à votre site :

nom de domaine (accessible via www, sans www, etc.) et URL (différenciation via un seul paramètre, etc.)
balises title identiques
balises meta description identiques ou similaires
contenu de la page

La duplication externe

C’est le cas lorsque le contenu est repris par un tiers avec ou sans autorisation.
Pensez notamment aux affiliés qui offrent le même catalogue de produits ou aux sites de communiqués de presse.

Dans certains cas, cette reprise est faite sans autorisation et sans faire apparaître la source originale. C’est le cas du scraping ou scraped content, du contenu syndiqué, du vol de contenu, légion sur Internet, etc.

Détecter le contenu dupliqué

Google met à disposition les Google Webmaster Tools et les opérateurs, mais il existe également des logiciels spécialisés pour détecter le contenu dupliqué.

Google Webmaster Tools

Allez sur Optimisation > Améliorations HTML. Google vous donne la liste des balises title et meta description dupliquées. Il fournit également les balises title non informatives, trop courtes ou manquantes.

Détecter la duplication title et meta description par les Google webmaster Tools

Commandes Google

La commande expression site:www.nomdusite.com ou expression site:nomdusite.com permet de rechercher une chaîne de caractères sur le domaine ou sous-domaine. Un bon point de départ pour identifier le volume de mots clés / expressions identiques sur un site.

L’utilisation de guillemets (par exemple : stratégie de contenu web et mobile site:https://yellowdolphins.com) lance une recherche sur le terme exacte stratégie de contenu web et mobile. L’absence de guillemets lance une recherche sur l’expression large.

Outil pour détecter le contenu dupliqué : les commandes Google

Ne mettez pas d’espace entre « site » et « : ».
Sans www, la recherche se fait sur le nom de domaine et les sous-domaines (par exemple : www.nomdusite.com, robe.nomdusite.com, jupe.nomdusite.com, etc.). Pour ne lancer la recherche que sur un sous-domaine, supprimer le www.

Duplication d’un bloc de texte

Pour savoir si un bloc de texte est dupliqué au sein de votre site ou sur le site d’un tiers, lancez la requête : « ceci est un bloc de texte » site:nomdusite.com ou site:www.nomdusite.com.

Duplication d’une URL

Pour repérer s’il y a 2 ou plusieurs URL avec pour seul élément distinctif, un paramètre ID, lancez la requête : site:nomdusite.com inurl:sort=

Duplication d’un title et/ou meta description

Pour vérifier si un title est repris sur une ou plusieurs pages, lancez la requête :

allintitle: texte du title site:https://yellowdolphins.com

Outils en ligne ou logiciels de détection de contenu dupliqué

Faites appel aux outils spécialisés dans la recherche de contenu dupliqué. La plupart vous permettront de comparer seulement quelques pages :

Xenu, un logiciel pour PC : à télécharger
(http://home.snafu.de/tilman/xenulink.html)
Microsoft SEO Toolkit (http://www.microsoft.com/web/seo)
Screaming Frog SEO Spider Tool : à télécharger
http://www.screamingfrog.co.uk/seo-spider/

Ces outils vous donneront aussi d’autres informations sur la « santé » de votre site.

Positeo (www.positeo.com/check-duplicate-content/)
Plagium (www.plagium.com)
Dupecop (www.dupecop.net) : comparaison de 4 pages en même temps (limité à 5 comparaisons par jour)
Copyscape (www.copyscape.com)

Solutions contre le contenu dupliqué

Dans le cadre de la duplication interne, il est plus ou moins facile d’intervenir sur les URL ou sur le contenu similaire (title, meta description et le texte).
Pour la duplication externe, vous dépendez du bon vouloir d’un tiers.

Différencier le contenu

Différenciez votre page d’un minimum de 30 % du contenu.

Rédigez du contenu exclusif, unique et original, lié à un domaine d’expertise ou l’actualité récente. Des outils permettent de faire des recherches sur les sujets qui intéressent les internautes (Google Tendancse des recherches, Google Trends ou toute la panoplie des filtres de Google, Trensmap, Yahoo hot topics, etc.).

Si vos contenus sont trop similaires (il faut au moins 30% de différence), il est possible de les enrichir avec des notions de géolocalisation (Google Maps), des ressources supplémentaires ou des informations contextuelles. Utilisez des termes associés ou des synonymes.

Par exemple, pour 2 pages présentant un même spectacle, une fois à Paris et une autre à Bordeaux, jouez sur la localisation, la spécificité de la ville, l’historique culturel, les moyens d’accès à la salle, etc.

Pour les « title » et « meta description », utilisez la longue traîne pour décrire de façon précise l’objet ou le service. Par exemple, « robe rouge » se déclinera en « robe rouge à manche courte », « robe courte à manche courte, coloris rouge cerise».

Différencier son contenu est la meilleure solution, mais ce n’est pas toujours possible.

Supprimer le contenu dupliqué

Si vous supprimez des pages dupliquées, évitez les erreurs 404.

Procédez comme suit :

Vérifiez s’il y a des liens internes et des liens de qualité externes (site d’autorité, auteur jouissant d’un bon AuthoRank ou trafic qualifié) qui pointent vers cette page.
Si oui, utilisez une redirection 301 de la page dupliquée à supprimer vers la page canonique, vers une autre rubrique du site ou vers une page d’erreur 404 optimisée.
Adaptez vos liens internes en les faisant pointer vers la page canonique.
Demandez aux webmasters des sites référents de changer le lien.
Supprimez le contenu.
Mettez à jour votre Sitemap.
Demandez à Google de désindexer les pages concernées sur les Google Webmaster Tools (Optimisation > URL à supprimer).

Supprimer le contenu dupliqué dans les Webmaster Tools

Configuration dans la Google Search Console

Les outils pour webmaster de Google vous permettent de :

Déclarer un nom de domaine favori, c’est-à-dire, le nom de domaine canonique (on privilégie généralement celui avec les « www »).
Supprimer des pages de l’index. Assurez-vous néanmoins qu’il n’existe pas de liens internes ou externes vers cette page et faites éventuellement des redirections 301 vers une autre page, comme nous l’avons expliqué.
Indiquer à Google d’ignorer les paramètres dans les URL (Configuration du site > Paramètres d’URL > Configurer les paramètres d’URL).

Déclarez-y votre domaine favori.

Gestion des URL et redirection 301

Lorsqu’une page possède plusieurs URL avec juste des paramètres différents, une technique consiste à rajouter le caractère « # » après le nom de domaine afin que Google considère les différentes adresses comme des ancres de liens (Google n’indexe pas les ancres).

Cette technique n’étant utilisé que par Google, il faudra malgré tout utiliser les redirections 301 pour les autres moteurs. Faites-le via le fichier .htaccess (situé à la racine du site) :

# Expression régulière pour renvoyer vers le nom de domaine avec les www

RewriteEngine On
RewriteCond %{HTTP_HOST} ^nomdusite.com$
RewriteRule ^{.*} htp://www.nomdusite.com/$1 [QSA,L,R=301]

Pour rediriger une page vers une autre considérée comme principale ou favorite, dans le cas où un contenu est visible avec plusieurs URL :

Redirect permanent /-Presentation.html

La redirection 301 est conseillée par les moteurs : elle permet de transférer la popularité d’une page à l’autre et elle se fait en toute transparence pour l’utilisateur.

Meta Robots

Pour ne pas indexer un faible volume de pages, rajoutez la ligne suivante dans le <head> des pages HTML concernées :

Indique aux robots de ne pas indexer la page et de ne pas suivre le lien.

Indique aux robots de ne pas indexer la page, mais de suivre le lien.

Robots.txt

Le robots.txt contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d’indexation des moteurs de recherche. Il est placé à la racine du site sur le serveur web. Il est important de comprendre qu’il ne s’agit là que d’une indication sur ce que doivent faire les robots, mais certains d’entre eux ignorent ce fichier, soit délibérément pour soit parce que le robot est trop simple pour gérer ce standard.

Le robots.txt sera plutôt utilisé pour empêcher l’indexation d’un fichier ou dossier. Google vous donne des informations relatives à votre robots.txt sur les GoogleWebmaster Tools (voir Etat de santé > Erreurs d’exploration et Etat de santé > URL bloquées).

Voici le contenu du fichier robots.txt selon le cas :

Les robots peuvent accéder à tout le site :

User-agent: *
Disallow:

Les robots ne doivent pas accéder à tout le site :

User-agent: *
Disallow: /

Les robots peuvent accéder à tout le site :

User-agent: *
Disallow:

Les robots ne doivent pas accéder à tout le site :

User-agent: *
Disallow: /

Pour indiquer à tous les robots sauf Googlebot d’accéder à un dossier en particulier, par exemple :

User-agent: *
Disallow: /forum

User-agent: googlebot
Disallow:

Lien canonique : rel=canonical

Vous souhaitez garder deux contenus dupliqués ou vous n’avez pas le temps de réécrire le contenu d’une page ? Indiquez aux moteurs de recherche la page d’origine ou page canonique.

Insérez le bout de code suivant dans le <head> des pages dupliquées en faisant pointer le lien vers la page canonique :

Le robot privilégiera la page canonique sur les pages de résultats.

Attention : ne faites pas pointer des pages internes vers des pages dupliquées qui ne sont pas canoniques. Vous dilueriez dans ce cas le jus de lien (transfert de popularité d’une page) vers une page dupliquée ou non canonique et perdriez ainsi tout le bénéfice du transfert de popularité vers la page canonique.

Lorsqu’il s’agit de duplication externe, c’est plus difficile à gérer, car vous n’avez pas la main sur le site qui duplique le contenu. Il est possible d’utiliser cette balise link (rel=canonical) mais c’est au bon vouloir du gestionnaire du site qui a repris votre contenu.

Il est toujours possible d’avoir recours à la justice pour signaler du plagiat ou de faire remonter l’information à Google (Report Scraper pages ou Suppression de contenu de Google). Plus rapide, peut-être : la pression des réseaux sociaux qui, aujourd’hui, fait des miracles, pensez-y 😉

Lisez également La page ou le nom canonique : une solution contre le contenu dupliqué

Hreflang

Si vous dupliquez un même contenu sur différentes URL pour le présenter à une cible spécifique, par exemple une page en espagnol pour Espagne et ce même contenu en espagnol pour le Mexique, vous tombez dans le contenu dupliqué total.

Vous avez donc des URL différentes avec un même contenu, par exemple www.nomdusite.com/es/produit.html pour l’Espagne, www.nomdusite.com/mx/produit.html pour le Mexique.

La solution pour éviter le contenu dupliqué est d’utiliser les balises multilingues.

Elles permettent d’indiquer à Google la langue et le pays cible d’une page. Dire à Google quelles pages doivent être visibles pour quels pays ciblés permet également de positionner le contenu adapté à la cible sur les SERP.

Google donne l’exemple suivant avec 4 sites web ciblés vers des langues et/ou des pays différents :

http://www.example.com/ : page d’accueil en espagnol
: page d’accueil en espagnol, pour l’Espagne
: page d’accueil en espagnol, pour le Mexique
: page d’accueil en anglais

Pour indiquer à Google la langue et le pays spécifiques pour chaque version des pages, intégrez les balises multilingues dans chacune d’elle :

Vous pouvez utiliser ces balises également si vous traduisez les contenus en différentes langues, par exemple en anglais et en russe.

Consultez l’aide en ligne de Google.

Indiquez également quels noms de domaine correspondent à quels pays sur Google Webmaster Tools. Un coup de pouce supplémentaire est de faire héberger chaque partie du site dans le pays qui lui correspond.

Merci à Nicolas Marey et Laureline Lefebvre pour leur excellent travail de rédaction web. Cet article est adapté sur base d’un exercice sur le contenu dupliqué donné dans le cadre de la Licence Pro Rédacteur web et référencement naturel de Mulhouse.

Faites appel à nos services pour améliorer votre référencement naturel !

Commentaires des lecteurs

Commentaire by Tiffanny — 6 janvier 2015

Article très complet qui reprend tous les fondamentaux. Merci!
Commentaire by Isabelle Canivet — 6 janvier 2015

Un grand merci Tiffanny pour ce retour 🙂
Isabelle et Jean-Marc.
Commentaire by devis demenagement idf — 24 mars 2015

excellent article merci 🙂

Votre commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.