Catégories
tutoriel

Robots txt : sur Magento, WordPress, Prestashop…: A quoi ça sert ? Comment l’utiliser ?

Vous avez un blog ? Un site Ecommerce ou un site d’entreprise (sur magento, wordpress ou prestashop) et vous vous demandez comment faire pour être mieux classé sur Google ou sur les autres moteurs de recherches ? Commencez par faire un fichier Robots txt !

Vous commencez une longue aventure qui ne s’arrête malheureusement jamais ! Mais bonne nouvelle, certains critères  sont connus et permettent de vous améliorer. C’est le cas du fichier robots txt, ce fichier est indispensable que vous soyez tout petit ou un mastodonte de l’info. Voyons comment implémenter le fichier robots txt sur magento, wordpress ou prestashop.

Dans cet article vous allez donc apprendre :

  • Qu’est ce qu’un fichier Robots.txt
  • Comprendre l’utilité d’un sitemap
  • Apprendre à implémenter un fichier Robots.txt sur votre CMS préféré : Magento, WordPress ou Prestashop

Désolé pour les autres, j’ai pris les trois plus sympa actuellement et surement les plus utilisés aussi (hors drupal).

25 cours. 5 disciplines.

Scraping, Cold Emailing, Data, Analytics, SEO, Ads, Landing Pages, ...

Parcourir les Cours

Robots txt, c’est quoi ?

Le fichier Robots txt

Le fichier robots txt est un fichier qui sert à l’exploration des contenus d’un site par les robots des différents crawler et moteurs de recherche.

L’objectif du fichier robots txt est d’imposer aux moteurs de recherche de ne pas indexer certaines pages / rubriques de votre site sur site (ex: demander à google de ne pas indexer la page mentions légales qui n’a pas d’intérêt en soit pour un internaute sur google). Il sert également à indiquer le sitemap de votre site, en gros le mapping de vos pages et là où il peut venir récupérer le contenu intéressant pour lui.
/! Ne pas indexer, ne veut pas dire que la page n’est pas visible, vous dites simplement à google ou aux autres crawler : « hey bro’, ne mets pas cette page dans les résultats de recherche »

Pourquoi donner ce robots.txt aux moteurs de recherche ?

Vous allez surement me dire, plus il y a de pages indexées sur google mieux c’est. C’est vrai, mais seulement si votre contenu apporte de la valeur pour un utilisateur de Google. Si ce n’est pas le cas, alors vous faites travailler le robot de Google pour rien et comme tout le temps c’est de l’argent, les crawlers comme google n’aiment pas en perdre !

Le temps que le robot d’indexation prendra pour visiter votre page et l’indexer est du temps de perdu pour le robot si votre page n’est pas intéressante pour ses clients (je parle des clients de google (ou autre crawler) aka nous autres les êtres humains). Google crawle toute la journée des millions de sites, si tout le monde se met à faire ça c’est beaucoup de temps de perdu pour lui !

Donc en résumé :

  • Le fichier robots.txt sert à dire aux moteurs de ne pas indexer une page ou un répertoire.
  • Google et les autres crawler prennent en compte ce fichier robots.txt pour savoir ce qu’ils ne doivent pas prendre en compte.
  • Faire un fichier robots txt c’est faire gagner du temps à Google donc lui faire gagner de l’argent et google est une entreprise lucrative, très lucrative.

Tips : Lorsque vous faites une refonte de votre site internet (et que vous n’êtes pas sur un serveur local) pour ne pas faire de duplicate content, faites un fichier robots.txt et interdisez l’accès à l’ensemble de votre version en cours de développement. Une fois la version en développement poussée en prod, n’oubliez pas de modifier le fichier robots.txt sinon bye bye les moteurs de recherche !

A quoi ressemble le fichier robots.txt ?

Le fichier robots txt est un fichier texte (.txt) et peut être crée avec n’importe quel éditeur de texte. Le bloc note de windows fait l’affaire par exemple. Il doit être obligatoirement placé à la racine de votre site, c’est à dire monsite.com/robots.txt .

Voilà à quoi ressemble un fichier Robots.txt :

User-agent: *
 Disallow: /repertoire-a/
 Disallow: /repertoire-b/

User-agent: * = « Svp tous les robots, ce fichier est fait pour vous les gars! « 
User-agent: Googlebot  = « Hello Googlebot ce qui suit n’est que pour toi mon chou ! »
Disallow : « Hey bloque l’accès à des répertoires a et aux répertoire b aussi ! Merci « 

Attention certains robots crawler n’en n’ont rien à faire de ce document, mais les « gentils » robots comme Bing ou Google s’en servent et vous sont reconnaissant de les aider !

Où mettre le fichier Robots txt ?

Que ce soit sur Mangento, wordpress, prestashop ou n’importe quoi d’autre, il faut que le fichier soit à la racine de votre site c’est a dire : http://mondomain.fr/robots.txt. Ouvrez votre espace web et poussez le fichier dans le répertoire source de votre site web.

Robots txt sur magento

Normalement magento ne gère pas le fichier Robots.txt par lui même il est donc important de le rajouter et de lui dire quoi bloquer !
Ne copiez collez pas bêtement, adaptez le à votre site (ajoutez votre Sitemap)

Website Sitemap

Sitemap: blabla.xml << AJOUTER ICI
 User-agent: *
 Disallow: /404/
 Disallow: /app/
 Disallow: /cgi-bin/
 Disallow: /downloader/
 Disallow: /errors/
 Disallow: /includes/
 Disallow: /js/
 Disallow: /lib/
 Disallow: /magento/
 Disallow: /pkginfo/
 Disallow: /report/
 Disallow: /scripts/
 Disallow: /shell/
 Disallow: /skin/
 Disallow: /stats/
 Disallow: /var/
 Disallow: /catalogsearch/result/
 Disallow: /catalog/product_compare/
 Disallow: /catalog/category/view/
 Disallow: /catalog/product/view/
 Disallow: /catalogsearch/
 Disallow: /checkout/
 Disallow: /control/
 Disallow: /contacts/
 Disallow: /customer/
 Disallow: /customize/
 Disallow: /newsletter/
 Disallow: /poll/
 Disallow: /review/
 Disallow: /sendfriend/
 Disallow: /tag/
 Disallow: /wishlist/
 Disallow: /index.php/catalogsearch/result/
 Disallow: /index.php/catalog/product_compare/
 Disallow: /index.php/catalog/category/view/
 Disallow: /index.php/catalog/product/view/
 Disallow: /index.php/catalogsearch/
 Disallow: /index.php/checkout/
 Disallow: /index.php/control/
 Disallow: /index.php/contacts/
 Disallow: /index.php/customer/
 Disallow: /index.php/customize/
 Disallow: /index.php/newsletter/
 Disallow: /index.php/poll/
 Disallow: /index.php/review/
 Disallow: /index.php/sendfriend/
 Disallow: /index.php/tag/
 Disallow: /index.php/wishlist/
 Disallow: /cron.php
 Disallow: /cron.sh
 Disallow: /error_log
 Disallow: /install.php
 Disallow: /LICENSE.html
 Disallow: /LICENSE.txt
 Disallow: /LICENSE_AFL.txt
 Disallow: /STATUS.txt
 Disallow: /.js$
 Disallow: /.css$
 Disallow: /.php$
 Disallow: /?p=&
 Disallow: /?SID=
 Disallow: /*?limit=all

Et si tu ne veux pas que Google indexe tes images, ajoutes ceci:

User-agent: Googlebot-Image
Disallow: /

Robots txt wordpress

Même principe pour le Robots twt wordpress mais avec les documents que vous ne voulez pas indexer sous wordpress (exemple la page de login administrateur) : 

 User-agent: *
 Sitemap: blabla.xml << AJOUTER ICI
 Disallow: /cgi-bin
 Disallow: /wp-login.php
 Disallow: /wp-admin
 Disallow: /wp-includes
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: /category/
 Disallow: /trackback
 Disallow: /feed
 Disallow: */comments
 Disallow: /?
 Disallow: /.php$
 Disallow: /.js$
 Disallow: /.inc$
 Disallow: /.css$
 Disallow: /.gz$
 Disallow: /.swf$
 Disallow: /.wmv$
 Disallow: /.cgi$
 Disallow: /.xhtml$

Robots txt prestashop

Et enfin le fichier Robots txt prestashop un peu différent.  Prestashop génère par défaut le fichier en enlevant les urls qui ne doivent pas être publiques. si vous souhaitez le modifier attendez qu’il le génère et ajouter ce que vous voulez dedans.

Si vous utilisez un FTP, vous trouverez le fichier robots à la racine de votre site. Il suffit de modifier le fichier en ajoutant la ou les pages/répertoires que vous voulez bloquer.

Merci d’avoir lu l’article, n’hésitez pas si vous avez des questions. Dans un autre article, nous parlerons de la différence entre no follow, follow, index et no index !

25 cours. 5 disciplines.

Scraping, Cold Emailing, Data, Analytics, SEO, Ads, Landing Pages, ...

Parcourir les Cours

Par Jonathan

Consultant Growth Marketing chez ✌ DEUX.IO.
J'aime tester, mesurer, et automatiser tout ce que je fais. Mes articles tournent souvent autour de ça ;)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *