En savoir plus sur la nouvelle version de l’algorithme Panda

 

Le googler Pierre Far a annoncé sur sa page Google+ que le moteur de recherches venait de réaliser une mise à jour de son célèbre filtre Panda incluant de nouveaux critères permettant à ce dernier « d’identifier plus précisément le contenu de faible qualité ». Il vise une plus grande diversité de sites de haute qualité, qu'ils soient de petite ou de moyenne taille, en espérant qu’ils remontent plus haut dans les résultats. C’est une bonne chose pour la qualité de l’information ou pour trouver plus facilement le produit que l’on cherche.  Un nouveau brevet affiche donc une démarche qualité concernant le contenu, reposant sur des groupes de mots. Voici plus d’informations sur ce dernier.

 

Voici comment l’algorithme fonctionne

Il semble donc que cette mise à jour soit une bonne nouvelle pour certains sites ayant été affectés par Panda dans le passé.

 

Une aide aux plus petits sites

J’ai consulté quelques fils de discussions sur le forum liés au post de Barry Schwartz, et il semblerait que la version 4.1 de Panda en cours de déploiement (il y aura des modifications à venir) viserait à aider les sites web les plus petits. Dans un des fils de discussion, un prestataire a déclaré avoir constaté un changement des niveaux de trafic sur son site à compter du 19 septembre. Un référenceur a suggéré que le changement ciblait le contenu médiocre.

 

L’expert de l’agence de référencement BreizhMasters a remarqué que Navneet Panda (la mise à jour de Panda a été nommée en l’honneur de ce dernier) avait récemment sorti un autre brevet. Quand le premier brevet portant son nom est sorti, j’ai demandé s’il s’agissait du brevet Panda. Avec son nombre de mises à jour (et d’actualisations de données), il est possible qu’au moins un des changements concernant l’algorithme ait pu être décrit dans ce brevet. Et il est possible que cette dernière mise à jour sur la qualité du contenu puisse être la cause d’une mise à jour comme celle dont nous sommes témoins aujourd’hui avec la version 4.1. Pour en apprendre encore davantage, la source du brevet est accessible sur le site officiel de l’US patent & Trademark Office. Nous apprenons qu’il a été conçu par Yun Zhou et Navneet Panda, que le brevet à la N°US 20140280011, qu’il a été publié le 18 septembre 2014 et est bien affecté à Google par  un dépôt légal du 15 mars 2013. Il est donc effectif plus d’un an après.

 

L’algorithme en résumé

Le brevet décrit l’utilisation d’un algorithme de groupes de mots, où le contenu des pages est réparti dans des listes, aussi bien les mots individuels que la ponctuation, et la fréquence des groupes de mots est comptabilisée sur ces pages afin d’attribuer une note à chaque page.

 

Spéculons un petit peu…

Le brevet n’explique malheureusement pas en profondeur ce qu’est un groupe de mots. Nous ne savons pas si Google a déjà utilisé ces brevets mais il est possible que oui, tout le porte à le penser en tout cas. Les erreurs qui apparaissent sur les pages peuvent être comptabilisées plutôt que d’être ignorées dans le processus de normalisation. Les mots qui n’apparaissent pas souvent sur le Net peuvent être ignorés dans ce calcul de ratio qualité.

 

Les textes d’ancrage pointant vers une page sous forme de liens pourraient être traités comme un groupe de mots figurant en réalité sur la page étant pointée vers elle-même. Il s’agissait là d’une déclaration intéressante dans le brevet et sa signification n’a pas été éclairée. Cela pourrait résulter par l’ajout de beaucoup de groupes de mots d’un type donné vers une page s’il existe de nombreux liens pointant vers cette page, utilisant le même texte d’ancrage.

 

Ces listes pourraient être décomposées par groupes d’un, deux, trois, quatre ou cinq classes (mots et ponctuation) ou ngrams, qui d’ailleurs sont utilisé couramment sur la toile dans les fonctionnalités suivantes :

 

 

 

 

J’ai indiqué plus haut le lien du brevet si vous voulez y jeter un œil et commenter les différents aspects de ce dernier, c’est avec plaisir. Bien qu’il soit possible qu’il évoque un algorithme de contenu spécifique et différent, autre qu’une mise à jour de Panda, le moment choisi est intéressant et il mérite notre attention en tant que spécialiste du référencement.

 

Commentaires

Votre Pseudo :
Votre E-Mail :
Votre Message :