Une page dont plus de 30 % du contenu se retrouvent sur 2 ou plusieurs pages web est considérée comme contenu dupliqué ou Duplicate Content.
La duplication de contenu est sanctionnée par les moteurs de recherche pour différentes raisons :
Le contenu dupliqué génère des répétitions au niveau des résultats de recherche. Dans un souci de qualité, notamment, les moteurs les relèguent dans un index secondaire, ce qui a pour conséquence que ces pages dupliquées n’ont plus aucune visibilité sur les pages de résultats. Trop de contenu dupliqué peut mener à l’exclusion du site de l’index.
D’un point de vue économique, le contenu dupliqué augmente inutilement l’espace disque et les bases de données utilisées par les moteurs ainsi que les coûts de crawling (les crawlers sont les robots qui scrutent en permanence les sites internet pour indexer leur contenu).
Les robots passeront du temps à crawler le contenu dupliqué au détriment des autres pages. Si Google rencontre trop de contenu dupliqué, il peut ralentir son crawling, ce qui aura un impact sur le positionnement du site (ranking) en partie ou dans sa totalité.
La répétition de pages dupliquées disperse le jus de lien (link juice ou transfert de popularité) d’une page A vers une page B, en faisant pointer des liens tantôt vers la page B, tantôt vers la page B1, B2, etc. Le PageRank s’en ressent, les pages perdent en positionnement.
Les pages dupliquées sont reléguées dans l’index secondaire, ce qui signifie qu’elles ne seront pas visibles sur les pages de résultats.
Il est donc impératif d’identifier le contenu dupliqué et de le supprimer.
Il existe différents types de contenu dupliqué entre plusieurs pages :
Examinons ces différents types en détail.
On considère que l’on a de la duplication totale de contenu si une page est accessible via plusieurs URL différentes (sécurisées ou non). On parle aussi de DUST (Different URL Same Text) : duplication d’URL, même texte.
C’est le cas de la page produit qui appartient à 2 catégories :
www.nomdusite.com/categorie1/monproduit.html
www.nomdusite.com/categorie2/monproduit.html
Par exemple, si vous hésitez à placer une page sous l’une ou l’autre catégorie, vous pouvez décider de la placer sous les deux catégories. Vous pourriez placer la fiche produit « Jeux vidéo 123 » sous la catégorie « Multimédia » et sous la catégorie « Jeux ». Cette fiche sera accessible via deux URL et elle présentera le même contenu :
www.nomdusite.com/multimedia/jeu-video-132.html
www.nomdusite.com/jeune/jeu-video-132.html
Si vos pages sécurisées sont indexées, vous aurez également du contenu dupliqué :
http://www. nomdusite.com/mon-article.html
https://www. nomdusite.com/mon-article.html
Pour vérifier si vos pages https sont dans l’index, lancez la requête site:nomdusite.com inurl:https.
Certains CMS génèrent des URL différentes pour le même produit en fonction de la navigation sur le site (c’est le cas notamment de Magento) :
www.nomdusite.com/categorie1/monproduit.html
www.nomdusite.com/monproduit.html
Si un site Web est accessible avec et sans www devant le nom de domaine, et si rien n’est mis en place pour rediriger une variante de nom de domaine vers l’autre, vous aurez également du contenu dupliqué. Les pages seront indexées avec et sans www :
www.nomdusite.com/
nomdusite.com/
www.nomdusite.com
Ou avec différentes pages index :
www.nomdusite.com/index.html
www.nomdusite.com/index.htm
www.nomdusite.com/index.php
Vous aurez également du contenu dupliqué si vous utilisez un contenu identique pour des pays cibles différents. Par exemple, si on a un même contenu en français sur les sites dédiés à la France, la Belgique et la Suisse française, soit avec des sous-domaines (fr.nomdusite.com, be.nomdusite.com), soit avec des répertoires (nomdusite.com/fr ou nomdusite.com/be).
Idem pour les sites en développement (par exemple sur le sous-domaine test.nomdusite.com) si vous avez omis d’intégrer un noindex pour ces pages, signifiant ainsi aux robots qu’il ne faut pas indexer ces pages en développement.
Lorsque vous publiez la version définitive du site, vous risquez alors de vous retrouver avec une duplication de pages, les unes sous le sous-domaine test-nomdusite.com et les autres sous le nom de domaine www.nomdusite.com.
Le robots.txt est donc le premier fichier du site en développement à compléter consciencieusement pour demander aux moteurs de ne pas indexer les pages en développement.
Les pages faisant appel aux Session ID, par exemple www.nomdusite.com et www.nomdusite.com/?session=123 peuvent également être considérées comme du contenu dupliqué par les moteurs.
Il en est de même pour les versions imprimables pour lesquelles une variable est ajoutée à l’URL de la page web. Par exemple www.nomdusite.com/produit.php?id=123 pour la page web www.nomdusite.com/produit.php?id=123&print=1 pour la version imprimable.
Afin d’optimiser un site pour le référencement naturel, il est recommandé de créer un titre (balise title) et une description (balise meta description) uniques pour chaque page.
La multiplication d’un titre et/ou d’une meta description identiques tombe sous le cas de duplication partielle de contenu.
La balise meta description n’est certes pas prise en compte directement dans le calcul de pertinence d’une page, mais sa duplication sera pénalisante sur les pages de résultats, et donc, indirectement sur le positionnement du site.
La duplication partielle se produit généralement avec les pages de résultats d’un moteur de recherche interne ou avec des pages d’un même produit dont seule une faible portion de contenu change (par exemple la couleur, l’image, etc.).
Le contenu paginé, c’est-à-dire son morcellement en plusieurs pages peut tomber sous la duplication partielle si la page est également disponible dans son intégralité à côté de cette pagination.
Il est possible de lire l’article complet ou via sa décomposition en pages successives accessibles par des liens de pagination de style Google.
Utilisez le rel=’canonical’ pour indiquer la page canonique.
La technique de content spinning (génération automatisée de contenu et autres techniques black hat) peut également générer du contenu dupliqué partiel si les contenus ne se différencient pas suffisamment. Dans ce cas-ci, un contenu similaire est accessible via des URL différentes.
Ce sont les contenus similaires internes à votre site :
C’est le cas lorsque le contenu est repris par un tiers avec ou sans autorisation.
Pensez notamment aux affiliés qui offrent le même catalogue de produits ou aux sites de communiqués de presse.
Dans certains cas, cette reprise est faite sans autorisation et sans faire apparaître la source originale. C’est le cas du scraping ou scraped content, du contenu syndiqué, du vol de contenu, légion sur Internet, etc.
Google met à disposition les Google Webmaster Tools et les opérateurs, mais il existe également des logiciels spécialisés pour détecter le contenu dupliqué.
Allez sur Optimisation > Améliorations HTML. Google vous donne la liste des balises title et meta description dupliquées. Il fournit également les balises title non informatives, trop courtes ou manquantes.
La commande expression site:www.nomdusite.com ou expression site:nomdusite.com permet de rechercher une chaîne de caractères sur le domaine ou sous-domaine. Un bon point de départ pour identifier le volume de mots clés / expressions identiques sur un site.
L’utilisation de guillemets (par exemple : stratégie de contenu web et mobile site:https://yellowdolphins.com) lance une recherche sur le terme exacte stratégie de contenu web et mobile. L’absence de guillemets lance une recherche sur l’expression large.
Ne mettez pas d’espace entre « site » et « : ».
Sans www, la recherche se fait sur le nom de domaine et les sous-domaines (par exemple : www.nomdusite.com, robe.nomdusite.com, jupe.nomdusite.com, etc.). Pour ne lancer la recherche que sur un sous-domaine, supprimer le www.
Pour savoir si un bloc de texte est dupliqué au sein de votre site ou sur le site d’un tiers, lancez la requête : “ceci est un bloc de texte” site:nomdusite.com ou site:www.nomdusite.com.
Pour repérer s’il y a 2 ou plusieurs URL avec pour seul élément distinctif, un paramètre ID, lancez la requête : site:nomdusite.com inurl:sort=
Pour vérifier si un title est repris sur une ou plusieurs pages, lancez la requête :
allintitle: texte du title site:https://yellowdolphins.com
Faites appel aux outils spécialisés dans la recherche de contenu dupliqué. La plupart vous permettront de comparer seulement quelques pages :
Ces outils vous donneront aussi d’autres informations sur la « santé » de votre site.
Dans le cadre de la duplication interne, il est plus ou moins facile d’intervenir sur les URL ou sur le contenu similaire (title, meta description et le texte).
Pour la duplication externe, vous dépendez du bon vouloir d’un tiers.
Différenciez votre page d’un minimum de 30 % du contenu.
Rédigez du contenu exclusif, unique et original, lié à un domaine d’expertise ou l’actualité récente. Des outils permettent de faire des recherches sur les sujets qui intéressent les internautes (Google Tendancse des recherches, Google Trends ou toute la panoplie des filtres de Google, Trensmap, Yahoo hot topics, etc.).
Si vos contenus sont trop similaires (il faut au moins 30% de différence), il est possible de les enrichir avec des notions de géolocalisation (Google Maps), des ressources supplémentaires ou des informations contextuelles. Utilisez des termes associés ou des synonymes.
Par exemple, pour 2 pages présentant un même spectacle, une fois à Paris et une autre à Bordeaux, jouez sur la localisation, la spécificité de la ville, l’historique culturel, les moyens d’accès à la salle, etc.
Pour les « title » et « meta description », utilisez la longue traîne pour décrire de façon précise l’objet ou le service. Par exemple, « robe rouge » se déclinera en « robe rouge à manche courte », « robe courte à manche courte, coloris rouge cerise».
Différencier son contenu est la meilleure solution, mais ce n’est pas toujours possible.
Si vous supprimez des pages dupliquées, évitez les erreurs 404.
Procédez comme suit :
Les outils pour webmaster de Google vous permettent de :
Déclarez-y votre domaine favori.
Lorsqu’une page possède plusieurs URL avec juste des paramètres différents, une technique consiste à rajouter le caractère « # » après le nom de domaine afin que Google considère les différentes adresses comme des ancres de liens (Google n’indexe pas les ancres).
Cette technique n’étant utilisé que par Google, il faudra malgré tout utiliser les redirections 301 pour les autres moteurs. Faites-le via le fichier .htaccess (situé à la racine du site) :
# Expression régulière pour renvoyer vers le nom de domaine avec les www
RewriteEngine On
RewriteCond %{HTTP_HOST} ^nomdusite.com$
RewriteRule ^{.*} htp://www.nomdusite.com/$1 [QSA,L,R=301]
Pour rediriger une page vers une autre considérée comme principale ou favorite, dans le cas où un contenu est visible avec plusieurs URL :
Redirect permanent /-Presentation.html
La redirection 301 est conseillée par les moteurs : elle permet de transférer la popularité d’une page à l’autre et elle se fait en toute transparence pour l’utilisateur.
Pour ne pas indexer un faible volume de pages, rajoutez la ligne suivante dans le <head> des pages HTML concernées :
<head>
<meta name=’ROBOTS’ content=’NOINDEX, NOFOLLOW’ />
Indique aux robots de ne pas indexer la page et de ne pas suivre le lien.
<head>
<meta name=’ROBOTS’ content=’NOINDEX, FOLLOW’ />
Indique aux robots de ne pas indexer la page, mais de suivre le lien.
Le robots.txt contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d’indexation des moteurs de recherche. Il est placé à la racine du site sur le serveur web. Il est important de comprendre qu’il ne s’agit là que d’une indication sur ce que doivent faire les robots, mais certains d’entre eux ignorent ce fichier, soit délibérément pour soit parce que le robot est trop simple pour gérer ce standard.
Le robots.txt sera plutôt utilisé pour empêcher l’indexation d’un fichier ou dossier. Google vous donne des informations relatives à votre robots.txt sur les GoogleWebmaster Tools (voir Etat de santé > Erreurs d’exploration et Etat de santé > URL bloquées).
Voici le contenu du fichier robots.txt selon le cas :
Les robots peuvent accéder à tout le site :
User-agent: *
Disallow:
Les robots ne doivent pas accéder à tout le site :
User-agent: *
Disallow: /
Les robots peuvent accéder à tout le site :
User-agent: *
Disallow:
Les robots ne doivent pas accéder à tout le site :
User-agent: *
Disallow: /
Pour indiquer à tous les robots sauf Googlebot d’accéder à un dossier en particulier, par exemple :
User-agent: *
Disallow: /forum
User-agent: googlebot
Disallow:
Vous souhaitez garder deux contenus dupliqués ou vous n’avez pas le temps de réécrire le contenu d’une page ? Indiquez aux moteurs de recherche la page d’origine ou page canonique.
Insérez le bout de code suivant dans le <head> des pages dupliquées en faisant pointer le lien vers la page canonique :
<link rel=canonical href=http://www.nomdusite.com />
Le robot privilégiera la page canonique sur les pages de résultats.
Attention : ne faites pas pointer des pages internes vers des pages dupliquées qui ne sont pas canoniques. Vous dilueriez dans ce cas le jus de lien (transfert de popularité d’une page) vers une page dupliquée ou non canonique et perdriez ainsi tout le bénéfice du transfert de popularité vers la page canonique.
Lorsqu’il s’agit de duplication externe, c’est plus difficile à gérer, car vous n’avez pas la main sur le site qui duplique le contenu. Il est possible d’utiliser cette balise link (rel=canonical) mais c’est au bon vouloir du gestionnaire du site qui a repris votre contenu.
Il est toujours possible d’avoir recours à la justice pour signaler du plagiat ou de faire remonter l’information à Google (Report Scraper pages ou Suppression de contenu de Google). Plus rapide, peut-être : la pression des réseaux sociaux qui, aujourd’hui, fait des miracles, pensez-y 😉
Lisez également La page ou le nom canonique : une solution contre le contenu dupliqué
Si vous dupliquez un même contenu sur différentes URL pour le présenter à une cible spécifique, par exemple une page en espagnol pour Espagne et ce même contenu en espagnol pour le Mexique, vous tombez dans le contenu dupliqué total.
Vous avez donc des URL différentes avec un même contenu, par exemple www.nomdusite.com/es/produit.html pour l’Espagne, www.nomdusite.com/mx/produit.html pour le Mexique.
La solution pour éviter le contenu dupliqué est d’utiliser les balises multilingues.
Elles permettent d’indiquer à Google la langue et le pays cible d’une page. Dire à Google quelles pages doivent être visibles pour quels pays ciblés permet également de positionner le contenu adapté à la cible sur les SERP.
Google donne l’exemple suivant avec 4 sites web ciblés vers des langues et/ou des pays différents :
http://www.example.com/ : page d’accueil en espagnol
: page d’accueil en espagnol, pour l’Espagne
: page d’accueil en espagnol, pour le Mexique
: page d’accueil en anglais
Pour indiquer à Google la langue et le pays spécifiques pour chaque version des pages, intégrez les balises multilingues dans chacune d’elle :
<link rel=’alternate’ hreflang=’es’ href=’http://www.example.com/’ />
<link rel=’alternate’ hreflang=’es-ES’ href=’http://es-es.example.com/’ />
<link rel=’alternate’ hreflang=’es-MX’ ‘href=http://es-mx.example.com/’ />
Vous pouvez utiliser ces balises également si vous traduisez les contenus en différentes langues, par exemple en anglais et en russe.
<link rel=’alternate’ hreflang=’en’ href=’http://en.example.com/’ />
<link rel=’alternate’ hreflang=’ru’ href=’http://ru.example.com/’ />
Consultez l’aide en ligne de Google.
Indiquez également quels noms de domaine correspondent à quels pays sur Google Webmaster Tools. Un coup de pouce supplémentaire est de faire héberger chaque partie du site dans le pays qui lui correspond.
Merci à Nicolas Marey et Laureline Lefebvre pour leur excellent travail de rédaction web. Cet article est adapté sur base d’un exercice sur le contenu dupliqué donné dans le cadre de la Licence Pro Rédacteur web et référencement naturel de Mulhouse.
Faites appel à nos services pour améliorer votre référencement naturel !
Commentaires des lecteurs
Comment by Tiffanny — 6 January 2015
Article très complet qui reprend tous les fondamentaux. Merci!
Comment by Isabelle Canivet — 6 January 2015
Un grand merci Tiffanny pour ce retour 🙂
Isabelle et Jean-Marc.
Comment by devis demenagement idf — 24 March 2015
excellent article merci 🙂