Sans aller jusqu’au duplicate content qui est pénalisé, à savoir que le contenu d’une page est le plagiat à 100% d’une autre page, Google ne pénalise pas les pages dont le contenu est proche. Quand vous traitez d’un sujet sur votre site Internet, il existe différentes façons d’exprimer en doublon cette substance, sans pour autant la reprendre mot pour mot. De la même manière, la matière que vous exprimez sur vos pages est sans doute déjà abordée sur d’autres sites concurrents.
Dans ces conditions, Google tente de déterminer quelle version représente le mieux le sujet considéré. Face à ces différentes versions, il doit choisir la meilleure, selon ses critères. Mais comment, pourquoi et avec quels critères ? C’est ce que je vais vous expliquer, après avoir trouvé 2 brevets dont je suis fan en tant que seo manager.
John Mueller a annoncé dans un tweet de 2019, que la firme de Mountain View ne confère aucun score permettant à un site de faire autorité comparé à un autre. Manifestement, c’est un mythe ou une unité de mesure créée par d'autres experts. Mais pour simplifier mon discours, j’accepte l’imprécision de dire que l'URL de la plus haute autorité devient la version canonique. Les autres pages web sont alors considérées comme des doublons.
Sans donner des notes d’autorité, Google trouve pourtant le moyen de distinguer les pages dupliquées sur différentes domaines, en se basant sur des règles de priorité. Elles sont expliquées dans un brevet dont la traduction du nom en français donnerait Identifier une version primaire d'un document.
Les 2 développeurs sont Alexandre A. Verstak et Anurag Acharya , et Google a obtenu le brevet sous le N° 9 779 072 le 03 octobre 2017. Il a fallu 4 ans entre le dépôt et l’accord.
Devis de référencement du seo manager
Ce brevet dispose que l’algorithme est capable d’identifier une version principale parmi différentes versions du même document. Le système détermine une priorité pour chaque version grâce à ces règles et d’autres informations associées à la version du document considéré.
La première partie du brevet aborde comment Google détermine quelle est la version principale d’un texte :
Identification des différentes versions
Chaque version est cataloguée selon le site l’intégrant, et selon les caractéristiques contenues dans chaque page (indépendamment du site)
Un algorithme détermine une priorité en tenant compte des 2 précédents critères
La page ayant la plus haute priorité est considérée comme la principale
Un second brevet toujours en place - qui est antérieur à celui de 2017 en fait - dispose que les informations identifiant l’ensemble des documents avec un contenu similaire, sont fusionnées en éléments caractérisant chacune de ces pages. Chacune d'elles peut être exclue de cet ensemble - ce qui mauvais pour son référencement -, et chaque nouvelle page trouvée sur le web avec contenu proche, peut intégrer cet ensemble (puis en ressortir ou pas).
Le brevet précise qu’il choisit un seul document représentatif pour chaque ensemble de pages web, dans la mesure où elles sont identifiées conformes à d’autres règles préalables. La qualité de chaque contenu est mesurée sans tenir compte des requêtes auquel il est lié. C’est vraiment la qualité du contenu qui prime. La page peut alors être indexée.
Les 4 développeurs ayant permis à Google d’obtenir le brevet en octobre 2014 sont Daniel Dulitz, Alexandre A. Verstak, Sanjay Ghemawat et Jeffrey A. Dean. Il a fallu 2 ans seulement pour son accord sous le N° US 8.868.559.
Pourquoi une version parmi un ensemble de pages dupliquées, peut être considérée comme une version principale ? Et surtout, pourquoi le faire ? La première version du brevet souligne 2 arguments :
La présence de différentes versions d'un contenu n’apporte pas d'informations utiles supplémentaires aux internautes. Par conséquent, la page web en duplicate content n’apporte aucune plus-value aux lecteurs potentiels.
Les SERPs peuvent inclure différentes versions du même document, comme les supprimer des résultats donnés aux utilisateurs. Simplement parce qu’un internaute n’a aucune façon de savoir quel contenu est meilleur que les autres sans les lire, il est donc nécessaire que Google fasse un choix dans un objectif de produire de la qualité dans les résultats qu’il propose.
Je veux en venir à un point majeur de ce qu’est le référencement naturel : beaucoup de porteurs de projets liés au SEO de leur site demandent des devis pour gagner des positions dans les résultats de recherches. Ils attendent des optimisations techniques, voire sémantiques. Mais à la lecture de ces 2 brevets, il est clair que l’optimisation la plus importante est de réécrire un vrai article, avec des informations actualisées et utiles aux lecteurs.
Pour rappel, le brevet dit chercher «le résultat de recherche le plus approprié et le plus fiable». Votre rédacteur doit apporter cette fiabilité.
Le brevet indique qu'une méthode d'identification d'une version principale à identifier s’effectue à partir d'un certain nombre de sources différentes, telles que :
Les bases de données en ligne
Les sites Internet
Les données des bibliothèques internes
Quelles sont les critères servant à prioriser un contenu ? Les quelques critères suivants sont mesurés :
La réputation de la source
L’auteur
Le droit de publier
La licence
Les citations
Les Mots Clés
Les références
Le titre (encore une fois, l’importance de ce cet élément !)
La date de publication
Le lieu de publication
Le nombre de fois que ce contenu est cité ailleurs
La langue
La taille du corpus de publication
La périodicité
La fréquence des mises à jour
Etc.
Dans un second temps seulement, la longueur du texte est qualifiée.
Le choix du contenu prioritaire se fie à un score, qui est l’association de la première mesure et de la seconde. Un texte de 700 mots n’est pas considéré comme prioritaire comparé à un texte de 350 mots, si le plus court a une qualité informative plus utile à l’internaute.