Catégories
Growth Hacking tutoriel

Content Spinning – Le Guide

Bienvenue dans le guide pour comprendre le content spinning ! Comment ça marche ? Pourquoi on s’en sert ? Qu’elles en sont les limites ? On vous explique tout !

Si vous avez un site internet et que vous vous souciez de votre trafic, vous voudrez être bien positionné sur les moteurs de recherche. C’est ce qu’on appelle le SEO ou référencement et c’est le 1er canal d’acquisition de trafic web.

Le SEO comporte 3 grands « paquets » qui ont pour chacun d’entre eux plein de petites optimisations pour que votre site soit mieux positionné sur le moteur de recherche :

  • Le contenu
  • Les liens
  • L’optimisation du site

Le content spinning est une méthode qui permet de grandement faciliter la génération de contenu et de liens vers votre site (=backlinks). Il vous permettra même de gagner du temps.

Le content spinning, c’est quoi ?

Le content spinning est une méthode de génération de textes qui permet de générer des milliers voir des millions de variations à partir d’un texte source. Spinner un texte revient à créer des « versions différentes » de ce même texte en gardant le sens mais en changeant tout le reste. Pour cela on utilise une syntaxe spéciale qui s’appelle la « spyntax ».

L’utilisation de la spyntax permet d’être aussi bien lu par un ordinateur que par un être humain. On utilise principalement 2 « symboles » lorsqu’on fait du content spinning : les accolades { } et le pipe | .
Les accolades permettent de délimiter la partie du texte qui sera spinnée, le pipe quand à lui permet de donner toutes les variations de cette partie de texte, ça à l’air compliqué mais ça ne l’est pas, vous allez voir.

Pour que vous compreniez voici un exemple d’un master spin ultra simplifié :

{{Bonjour|Salut|Hello}|Coucou les potes,} je suis {Jonathan|Jonny|John} et {j'aime|j'adore} le {ski.|surf.|seo.|marketing.}{| ;)}

De ce master spin on peut générer 193 textes différents avec un degré de similarité allant de 59% a 96% environ.
Par exemple :

  • Bonjour je suis Jonathan et j’aime le ski.
  • Salut je suis John et j’adore le marketing.
  • Salut je suis Jonny et j’adore le marketing.
  • Coucou les potes, je suis Jonny et j’adore le marketing. ?

content spinning – Master Spin

Le content spinning a de nombreux cas d’usages. Je ne parlerai que de ceux qui vont concerner le SEO mais à vous d’être créatif de vous en servir pour tout ce que vous jugerai pertinent !

La mauvaise réputation du content spinning.

Lorsque l’on fait du content spinning, on nous prend pour des badboys (aka black hat) alors que quand nous parlons de génération automatique de textes, là, tout le monde trouve ça génial. 2 techniques différentes pour un objectif similaire. Alors pourquoi le content spinning a t-il si mauvaise réputation ?

content spinning black hat

Le content spinning est devenu intéressant à une époque où les algorithmes de Google / Yahoo ,… étaient encore très limités et facilement manipulables.

Le content spinning est apparu au moment où les moteurs de recherches définissaient le classement des sites internes en fonction du nombre de backlinks qu’un site avait.

Aujourd’hui, c’est toujours important mais seulement si les liens sont propres et venant de domaines / pages fortes, ce qui n’est pas toujours le cas.

Ces « bad boys du seo »(que j’ose appeler des créatifs finalement) ce sont donc lancé dans le content spinning pour générer des variations de petites présentations pour les annuaires & forum principalement. #spamlinking

Il est facile d’avoir des liens sur ce genre de sites. Ils ont ensuite automatisé la publication de ses tirages avec un joli lien vers leur site.

Mais ça c’était avant, Google a compris et a créé un panda géant et quelques Penguin pour résoudre le problème.

Google s’en est vite rendu compte et a décrété que le content spinning était MAL et qu’il ne fallait pas en faire :

Tout contenu proposé sur un site web doit être avant tout être créé pour les utilisateurs et non pour les moteurs de recherche. Le « content spinning » n’offre rien de nouveau aux internautes (si ce n’est un contenu déjà existant, rendu illisible) et est clairement destiné aux moteurs de recherche plutôt qu’aux utilisateurs. Par conséquent, des actions peuvent être prises sur les sites qui proposent ce genre de contenus et de pratiques.

« Tout contenu proposé sur un site web doit être avant tout être créé pour les utilisateurs » : On se rend bien compte que les vielles techniques forums / annuaires sont contre les guidelines Google, surtout si les textes sont peu lisibles.

Par contre, si le texte est à destination des utilisateurs et non des robots et qu’il est en Français courant de sorte que vous ne voyez pas la différence entre un texte spinné et texte écrit par un rédacteur, alors où est le mal ?

A mon sens, ce n’est pas le content spinning qui peut être mal vu mais ce qu’on en fait. Je ne veux pas rentrer dans le débat Black Hat / White Hat mais en un mot Google impose ses règles du jeu et personnellement j’aime bien m’amuser à jouer avec ses limites.

Content spinning cas d’usage

Content spinning et annuaire / forum

Une des méthodes simple et automatisable pour obtenir des liens est de rechercher les dorks (=footprint) des annuaires (ou profil web, communiqué de presse, commentaires de blogs,…) dans votre thématique et de soumettre votre site pour qu’il soit sur l’annuaire et que vous obteniez de nouveaux liens.

On va pas se le cacher, aller taper à la porte de chaque site manuellement c’est long d’autant plus que souvent les annuaires sont ok pour mettre un lien vers votre site mais vous devez d’abord écrire un petit texte de présentation UNIQUE. Dans ce cas il suffit simplement de faire un petit master spin propre et efficace. L’objectif est simplement de passer la modération et le vous avez gagné un lien.

Disclaimer : Si vous pensez ranker avec cette technique uniquement je vous arrête tout de suite vous allez perde à ce jeu avec Google. Il ne suffit pas de poster des liens, il faut qu’ils soient perçus comme pertinents dans la thématique et non toxiques.

Content spinning et satellites

L’utilisation du content spinning pour un PBN (Private Blog Network) est plus compliqué. Sans rentrer dans le détail, un PBN est un réseau de site privé (=satellite) qui a pour seul vocation de faire pointer des liens puissants et thématisés vers le site mère celui qui apporte vraiment de l’argent (Money Site). C’est une technique Black Hat très puissante si elle est bien utilisée, dévastatrice (pour vous) si vous faites n’importe quoi.

L’une des problématiques des PBN est d’avoir des contenus uniques et que les satellites publient plus ou moins régulièrement des billets de blogs ou profils ou page. C’est faisable à la main si on a 1 ou 2 sites, au dessus de 10 blogs à gérer soit même, bonne chance…

Vous pouvez passer par des rédacteurs et payer beaucoup, ou vous pouvez faire du content spinning et générer des centaines de textes uniques ou presque (ou y reviendra) pour chacun de vos sites satellites, beaucoup plus rentable et plus simple à gérer.

Disclaimer : Si vous pensez ranker facilement de cette manière, vous avez tout faux.

Faire un PBN est très dangereux. Si Google vous Blacklist, c’est fini pour votre Money Site et tous les autres sites de votre PBN. Cela demande beaucoup de rigueur et de connaissance en l’algorithme de Google. Plus votre PBN est gros, plus il est difficile de le maintenir.
Si toutefois vous vous en sentez capable alors faite en l’expérience. Cela prendra du temps mais c’est redoutable.

Content spinning et cocon / silo sémantique

Silo ou cocon sémantique, les deux sont possibles. Pour ceux qui ne connaissent pas, le but est d’isoler des pages par sémantique. ensuite il y a une petite différence entre silo et cocon.

Dans le cas des silos, on va cibler tous les mots clés proches sémantiquement de notre mot clé principal tandis que dans le cas des cocons, on va s’intéresser a ce que veulent vraiment les utilisateurs.

Prenons un exemple, imaginons un site de déguisement pour Halloween. Dans le cas des silos, votre arborescence sera toujours en rapport proche avec le mot clé « déguisement ». Dans le cas des cocons, on va trier les pages autrement. En prenant en compte, par exemple, la taille des utilisateurs, ce qui rend l’expérience utilisateur meilleure.

Un utilisateur qui regarde un déguisement de spiderman pour les 15-18 ans ne voudra pas voir un deguisement de hulk pour les 3-4 ans. Ici, on comprend bien que si l’utilisateur a regarder des déguisement pour les ados alors il faut lui montrer des produits pour le même âge / taille. Dans les silos, on ne fait pas la différences dans les cocons si.

  • Silo :
    • monsite.fr
    • monsite.fr/pantalon
    • monsite.fr/pantalon/bebe
  • Cocon :
    • monsite.fr
    • monsite.fr/bebe
    • monsite.fr/bebe/pantalon
    • monsite.fr/ado/pantalon

Pour aller plus loin avec les silos / cocons ==> Lisez l’article sur la navigation à facette

Le content spinning intervient donc très facilement lorsqu’on essaie de monter des cocons ou des silos sémantiques. Si on reprend notre exemple, imaginons 2000 fiches produits de pantalons différents de toutes les tailles, toutes les couleurs. La sémantique et la même et les caractéristiques produit seront a peut de chose prêt les mêmes. Taille, couleur, texture, coupe,…

On se rend vite compte que c’est un travail titanesque si on écrit les pages à la main. Le content spinning prend donc tout son sens ici et permet d’être plus efficace.

Il y a d’autres utilisations du content spinning (ps : pensez à l’emailing )

Content spinning, limites et solutions

En soit, faire un master spin c’est vraiment très simple. Il suffit de comprendre la spyntaxe et c’est parti. Faire un master spin qualitatif, c’est une autre histoire. Il y a plein de pièges qu’un débutant ne voit pas, similarité des contenus , lisibilité, cohérence globale du texte. C’est un vrai travail de fond qu’il ne sera pas aisé de maitriser (si on veut faire quelque chose de qualitatif).

Les softwares disponibles pour vous faciliter la tache sont généralement eux même compliqués.

Content spinning et google panda

Google Panda est l’algorithme de google en charge de trouver les contenus dupliqués. Théoriquement, un contenu doit être 100% unique mais c’est impossible. Il n’est pas possible de vendre deux types de « table » sans dire le mot « table » dans les deux fiches produits. Disons maintenant qu’on accepte un seuil de tolérance faible qui prend en compte les mots de liaisons et les meta-mots.

Demandez à un rédacteur d’écrire les 2000 fiches produits, que ce passe t-il ?

C’est simple, on a tous des mimiques de langages et d’écriture. Je suis sûr que si vous lisez 3 articles sur le blog à la suite vous verrez que j’ai tendance a utiliser certains mots.

Bref, il est impossible d’avoir des textes 100% unique, donc par abus de langage on dit unique pour dire suffisamment différents pour ne pas être détectable par Google Panda et par un humain. Le seuil est très discuté dans la communauté SEO, il serait entre 20 et 70% de contenu similaire (personnellement je tenterais pas les 70%).

En résumé, 1ere limite (plutôt contrainte) du content spinning : le taux de similarité (on y revient plus tard).

Content spinning et lisibilité

Si vous pensez pouvoir passer à travers les mailles du filet de Google Panda vous allez avoir d’autres embuches sur votre chemin. Le plus gros problème quand on fait du content spinning, c’est la lisibilité.

Faire un master spin qui :

  • génère des tirages qui passent en dessous des radars de Google en terme de similarité.
  • Comporte au moins 500 mots (en dessous c’est très faible pour une fiche produit)

on se rend vite compte que ça devient très très vite compliqué si on à pas un minimum d’organisation !

Quelques exemples de problèmes de lisibilité que vous allez observé si vous tentez l’expérience :

  • Les apostrophes : le {drone|avion télécommandé} # le drone / le avion télécommandé
  • Les genres : cette{arbre|plante} est beau # cette arbre est beau / cette plante est beau
  • Les nombres : il a mangé {1|10|100} gateau ! # il a mangé 1 gateau / il a mangé 10 gateau(x)
  • Sans comptez les problèmes de sens général de la phrase

Le content spinning semble être une méthode miracle mais c’est du boulot. Il faut donc pouvoir gérer le niveau de similarité et la qualité des textes que l’on va publier.Plus votre texte sera long, plus il sera compliqué d’avoir un texte unique et lisible et encore plus, un texte intéressant !

il existe des outils qui peuvent vous générer un master spin et les tirages associés à partir de mot clés (et rien d’autre) que vous lui donnez. Sur le papier l’idée est génial et je ne doute pas qu’un jour ça puisse fonctionner correctement mais ce jour n’est pas arrivé.

La seule vraie méthode qui fonctionne aujourd’hui de manière qualitative, c’est de le faire à la main à l’aide ou avec des softs comme Xspin ou deuxio content Spinning.

Le content spinning et le taux de similarité

Le content spinning a pour vocation de créer des variantes d’un texte source suffisamment unique et lisible.

Pour passer à travers des restrictions de Google Panda en matière de duplicate content il faut passer en dessous du seuil « toléré » par l’algorithme.

Pour calculer le seuil de similarité, il existe différentes méthodes de calculs. les 3 principales sont la méthode Leveinsthein, Jaccard et Simhash.

Nous allons voir chacune d’entre elles pour bien comprendre comment définir un seuil de similarité correct pour vos textes. Dans l’idéal si vos textes, sont en dessous des 40% pour chacun des trois textes vous êtes normalement tranquille.

Voici les définition wikipedia de ces différents tests (bien mieux expliqué que ce que je pourrais décemment faire)

Le test Leveinsthein ou distance de leveinsthein :

La distance de Levenshtein est une distance mathématique donnant une mesure de la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu’il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre.

Le test Jaccard :

L’indice de Jaccard (ou coefficient de Jaccard) est le rapport entre le cardinal (la taille) de l’intersection des ensembles considérés et le cardinal de l’union des ensembles. Il permet d’évaluer la similarité entre les ensembles.

Le test Simhash :

In computer science, SimHash is a technique for quickly estimating how similar two sets are. The algorithm is used by the Google Crawler to find near duplicate pages. It was created by Moses Charikar. A large scale evaluation has been conducted by Google in 2006 to compare the performance of Minhash and Simhash algorithms. In 2007 Google reported using Simhash for duplicate detection for web crawling and using Minhash and LSH for Google News personalization.

Par Jonathan

Consultant Growth Marketing chez ✌ DEUX.IO.
J'aime tester, mesurer, et automatiser tout ce que je fais. Mes articles tournent souvent autour de ça ;)

Une réponse sur « Content Spinning – Le Guide »

Bonjour Jonathan et merci pour cette article de qualité, je viens de finir mon master spin après 1 bonne semaine de travail. La similarité des articles est basses seulement mon site est tout récent, 2 semaines d’existence, combien de pages maximum puis-je poster par jour pour éviter l’indexspam ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *