
Robots txt : sur Magento, WordPress, Prestashop…: A quoi ça sert ? Comment l’utiliser ?
Vous avez un blog ? Un site Ecommerce ou un site d’entreprise (sur magento, wordpress ou prestashop) et vous vous demandez comment faire pour être mieux classé sur Google ou sur les autres moteurs de recherches ? Commencez par faire un fichier Robots txt !
Vous commencez une longue aventure qui ne s’arrête malheureusement jamais ! Mais bonne nouvelle, certains critères sont connus et permettent de vous améliorer. C’est le cas du fichier robots txt, ce fichier est indispensable que vous soyez tout petit ou un mastodonte de l’info. Voyons comment implémenter le fichier robots txt sur magento, wordpress ou prestashop.

Growth = Methode x Experience
Luko, Blablacar, Castalie, Legalstart, Numa,... ont tous fait confiance a deux.io dans leur croissance web. Découvrez La 1ere Agence de Growth Hacking de 🇫🇷
Dans cet article vous allez donc apprendre :
- Qu’est ce qu’un fichier Robots.txt
- Comprendre l’utilité d’un sitemap
- Apprendre à implémenter un fichier Robots.txt sur votre CMS préféré : Magento, WordPress ou Prestashop
Désolé pour les autres, j’ai pris les trois plus sympa actuellement et surement les plus utilisés aussi (hors drupal).


25 cours. 5 disciplines.
Scraping, Cold Emailing, Data, Analytics, SEO, Ads, Landing Pages, ...
Parcourir les CoursRobots txt, c’est quoi ?
Le fichier Robots txt
Le fichier robots txt est un fichier qui sert à l’exploration des contenus d’un site par les robots des différents crawler et moteurs de recherche.
L’objectif du fichier robots txt est d’imposer aux moteurs de recherche de ne pas indexer certaines pages / rubriques de votre site sur site (ex: demander à google de ne pas indexer la page mentions légales qui n’a pas d’intérêt en soit pour un internaute sur google). Il sert également à indiquer le sitemap de votre site, en gros le mapping de vos pages et là où il peut venir récupérer le contenu intéressant pour lui.
/! Ne pas indexer, ne veut pas dire que la page n’est pas visible, vous dites simplement à google ou aux autres crawler : « hey bro’, ne mets pas cette page dans les résultats de recherche »

Pourquoi donner ce robots.txt aux moteurs de recherche ?
Vous allez surement me dire, plus il y a de pages indexées sur google mieux c’est. C’est vrai, mais seulement si votre contenu apporte de la valeur pour un utilisateur de Google. Si ce n’est pas le cas, alors vous faites travailler le robot de Google pour rien et comme tout le temps c’est de l’argent, les crawlers comme google n’aiment pas en perdre !
Le temps que le robot d’indexation prendra pour visiter votre page et l’indexer est du temps de perdu pour le robot si votre page n’est pas intéressante pour ses clients (je parle des clients de google (ou autre crawler) aka nous autres les êtres humains). Google crawle toute la journée des millions de sites, si tout le monde se met à faire ça c’est beaucoup de temps de perdu pour lui !

Donc en résumé :
- Le fichier robots.txt sert à dire aux moteurs de ne pas indexer une page ou un répertoire.
- Google et les autres crawler prennent en compte ce fichier robots.txt pour savoir ce qu’ils ne doivent pas prendre en compte.
- Faire un fichier robots txt c’est faire gagner du temps à Google donc lui faire gagner de l’argent et google est une entreprise lucrative, très lucrative.
Tips : Lorsque vous faites une refonte de votre site internet (et que vous n’êtes pas sur un serveur local) pour ne pas faire de duplicate content, faites un fichier robots.txt et interdisez l’accès à l’ensemble de votre version en cours de développement. Une fois la version en développement poussée en prod, n’oubliez pas de modifier le fichier robots.txt sinon bye bye les moteurs de recherche !
A quoi ressemble le fichier robots.txt ?
Le fichier robots txt est un fichier texte (.txt) et peut être crée avec n’importe quel éditeur de texte. Le bloc note de windows fait l’affaire par exemple. Il doit être obligatoirement placé à la racine de votre site, c’est à dire monsite.com/robots.txt .
Voilà à quoi ressemble un fichier Robots.txt :
User-agent: *
Disallow: /repertoire-a/
Disallow: /repertoire-b/
User-agent: * = « Svp tous les robots, ce fichier est fait pour vous les gars! «
User-agent: Googlebot = « Hello Googlebot ce qui suit n’est que pour toi mon chou ! »
Disallow : « Hey bloque l’accès à des répertoires a et aux répertoire b aussi ! Merci «
Attention certains robots crawler n’en n’ont rien à faire de ce document, mais les « gentils » robots comme Bing ou Google s’en servent et vous sont reconnaissant de les aider !
Où mettre le fichier Robots txt ?
Que ce soit sur Mangento, wordpress, prestashop ou n’importe quoi d’autre, il faut que le fichier soit à la racine de votre site c’est a dire : http://mondomain.fr/robots.txt. Ouvrez votre espace web et poussez le fichier dans le répertoire source de votre site web.


25 cours. 5 disciplines.
Scraping, Cold Emailing, Data, Analytics, SEO, Ads, Landing Pages, ...
Parcourir les CoursRobots txt sur magento
Normalement magento ne gère pas le fichier Robots.txt par lui même il est donc important de le rajouter et de lui dire quoi bloquer !
Ne copiez collez pas bêtement, adaptez le à votre site (ajoutez votre Sitemap)
Website Sitemap
Sitemap: blabla.xml << AJOUTER ICI
User-agent: *
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
Disallow: /catalogsearch/result/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /index.php/catalogsearch/result/
Disallow: /index.php/catalog/product_compare/
Disallow: /index.php/catalog/category/view/
Disallow: /index.php/catalog/product/view/
Disallow: /index.php/catalogsearch/
Disallow: /index.php/checkout/
Disallow: /index.php/control/
Disallow: /index.php/contacts/
Disallow: /index.php/customer/
Disallow: /index.php/customize/
Disallow: /index.php/newsletter/
Disallow: /index.php/poll/
Disallow: /index.php/review/
Disallow: /index.php/sendfriend/
Disallow: /index.php/tag/
Disallow: /index.php/wishlist/
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt
Disallow: /.js$
Disallow: /.css$
Disallow: /.php$
Disallow: /?p=&
Disallow: /?SID=
Disallow: /*?limit=all
Et si tu ne veux pas que Google indexe tes images, ajoutes ceci:
User-agent: Googlebot-Image
Disallow: /
Robots txt wordpress
Même principe pour le Robots twt wordpress mais avec les documents que vous ne voulez pas indexer sous wordpress (exemple la page de login administrateur) :
User-agent: *
Sitemap: blabla.xml << AJOUTER ICI
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /category/
Disallow: /trackback
Disallow: /feed
Disallow: */comments
Disallow: /?
Disallow: /.php$
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
Disallow: /.gz$
Disallow: /.swf$
Disallow: /.wmv$
Disallow: /.cgi$
Disallow: /.xhtml$
Robots txt prestashop
Et enfin le fichier Robots txt prestashop un peu différent. Prestashop génère par défaut le fichier en enlevant les urls qui ne doivent pas être publiques. si vous souhaitez le modifier attendez qu’il le génère et ajouter ce que vous voulez dedans.
Si vous utilisez un FTP, vous trouverez le fichier robots à la racine de votre site. Il suffit de modifier le fichier en ajoutant la ou les pages/répertoires que vous voulez bloquer.
Merci d’avoir lu l’article, n’hésitez pas si vous avez des questions. Dans un autre article, nous parlerons de la différence entre no follow, follow, index et no index !

25 cours. 5 disciplines.
Scraping, Cold Emailing, Data, Analytics, SEO, Ads, Landing Pages, ...
Parcourir les Cours
BESOIN D’AIDE DANS VOTRE CROISSANCE DIGITALE ?
Que vous souhaitiez vous former, faire seul ou vous faire accompagner vous avez le choix !




