Pour apparaître dans les résultats de Google, vos pages doivent être indexées. Le sitemap XML et le fichier robots.txt sont les deux outils qui aident Google à découvrir et comprendre la structure de votre site. Bien configurés, ils accélèrent l'indexation de vos nouvelles pages et évitent que Google ne perde du temps sur des pages inutiles.
Comment Google découvre et indexe vos pages
Avant de parler du sitemap et du robots.txt, il faut comprendre comment Google fonctionne. Le processus se décompose en trois étapes :
1. L'exploration (crawl)
Google envoie des robots (appelés Googlebot) qui parcourent le web en suivant les liens d'une page à l'autre. Quand Googlebot arrive sur votre site, il explore vos pages en suivant les liens de votre menu, de votre contenu et de votre sitemap.
2. L'indexation
Une fois qu'une page est explorée, Google analyse son contenu et décide s'il vaut la peine de la stocker dans son index. L'index de Google, c'est sa gigantesque base de données de pages web. Si votre page n'est pas dans l'index, elle n'apparaîtra jamais dans les résultats de recherche.
3. Le classement (ranking)
Quand un internaute fait une recherche, Google parcourt son index et classe les pages par pertinence. C'est ici que le SEO entre en jeu.
Le point important : si l'étape 1 (exploration) ou l'étape 2 (indexation) échoue, l'étape 3 n'arrive jamais. Votre page peut être la meilleure du monde, si Google ne la trouve pas ou ne l'indexe pas, elle est invisible.
Le sitemap XML : la carte de votre site
Qu'est-ce qu'un sitemap ?
Un sitemap XML est un fichier qui liste toutes les pages de votre site que vous souhaitez voir indexées par Google. C'est comme remettre un plan du magasin à un visiteur pour qu'il sache exactement ce qu'il y a dans chaque rayon.
Le sitemap ne garantit pas l'indexation (Google décide toujours en dernier recours), mais il facilite considérablement la découverte de vos pages, surtout pour :
- Les nouvelles pages qui n'ont pas encore de liens entrants
- Les sites de grande taille avec beaucoup de pages
- Les pages profondes (accessibles après plusieurs clics)
À quoi ressemble un sitemap
Un sitemap XML est un fichier texte structuré. Voici un exemple simplifié :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://votresite.fr/</loc>
<lastmod>2026-04-01</lastmod>
<priority>1.0</priority>
</url>
<url>
<loc>https://votresite.fr/services/</loc>
<lastmod>2026-03-15</lastmod>
<priority>0.8</priority>
</url>
<url>
<loc>https://votresite.fr/contact/</loc>
<lastmod>2026-02-20</lastmod>
<priority>0.6</priority>
</url>
</urlset>
Chaque URL est listée avec sa date de dernière modification et une priorité relative. En pratique, Google utilise surtout la date de modification pour savoir quelles pages revisiter.
Comment créer et maintenir son sitemap
Sur WordPress : les plugins SEO génèrent automatiquement le sitemap.
| Plugin | URL du sitemap | Mise à jour |
|---|---|---|
| Yoast SEO | /sitemap_index.xml | Automatique à chaque publication |
| Rank Math | /sitemap_index.xml | Automatique à chaque publication |
| All in One SEO | /sitemap.xml | Automatique à chaque publication |
Sur un site sur mesure : votre développeur doit créer un script qui génère le sitemap automatiquement à chaque ajout de contenu.
Pour les sites Next.js (comme celui de Dwenola) : on utilise le fichier sitemap.ts qui génère dynamiquement le sitemap à chaque build.
Soumettre son sitemap à Google
Une fois votre sitemap créé, soumettez-le dans Google Search Console :
- Allez dans le menu "Sitemaps"
- Entrez l'URL complète de votre sitemap
- Cliquez sur "Envoyer"
- Vérifiez que le statut passe à "Réussite"
Google explorera ensuite régulièrement votre sitemap pour détecter les nouvelles pages et les modifications.
Les erreurs courantes à éviter
- Inclure des pages que vous ne voulez pas indexer (pages de connexion, pages de remerciement, pages de test)
- Oublier de mettre à jour le sitemap quand vous ajoutez de nouvelles pages (les plugins WordPress le font automatiquement)
- Lister des pages en erreur 404 ou des redirections
- Dépasser 50 000 URL par sitemap (dans ce cas, divisez en plusieurs sitemaps avec un index)
Le fichier robots.txt : dire à Google ce qu'il peut explorer
Qu'est-ce que le robots.txt ?
Le fichier robots.txt est un petit fichier texte placé à la racine de votre site (votresite.fr/robots.txt) qui donne des instructions aux robots des moteurs de recherche. Il leur dit quelles parties du site ils peuvent explorer et lesquelles ils doivent ignorer.
Exemple de robots.txt
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /panier/
Disallow: /mon-compte/
Sitemap: https://votresite.fr/sitemap.xml
Décryptage :
User-agent: *: s'applique à tous les robotsAllow: /: autorise l'exploration de tout le siteDisallow: /wp-admin/: interdit l'exploration de l'interface d'administrationSitemap:: indique l'emplacement du sitemap
Ce qu'il faut bloquer et ce qu'il ne faut pas bloquer
| À bloquer | À ne pas bloquer |
|---|---|
| Pages d'administration (/wp-admin/) | Vos pages de contenu |
| Pages de connexion | Vos fichiers CSS et JavaScript |
| Pages de panier et compte | Vos images |
| Pages de résultats de recherche interne | Votre page d'accueil |
| Pages de staging/test | Vos pages de catégories |
Attention : une erreur fréquente est de bloquer les fichiers CSS et JavaScript dans le robots.txt. Google en a besoin pour comprendre comment votre page s'affiche. Si vous les bloquez, Google ne peut pas évaluer correctement votre site.
Robots.txt vs balise noindex
Le robots.txt empêche l'exploration, pas l'indexation. Si une page est liée depuis un autre site et que Google la trouve par ce lien, il peut l'indexer même si elle est bloquée dans le robots.txt.
Pour empêcher l'indexation d'une page, utilisez plutôt la balise meta robots dans le HTML :
<meta name="robots" content="noindex, nofollow">
Ou l'en-tête HTTP X-Robots-Tag: noindex.
| Méthode | Effet | Quand l'utiliser |
|---|---|---|
| robots.txt Disallow | Empêche l'exploration | Pour les sections entières non utiles |
| Meta noindex | Empêche l'indexation | Pour les pages spécifiques à masquer |
| Canonical | Indique la version principale | Pour le contenu dupliqué |
Vérifier l'état de l'indexation de votre site
Dans Google Search Console
Le rapport "Pages" (anciennement "Couverture") vous montre :
- Pages indexées : celles qui sont dans l'index de Google
- Pages non indexées : avec la raison (erreur, exclue par robots.txt, noindex, etc.)
Vérifiez ce rapport régulièrement, surtout après le lancement de votre site.
Avec la commande site:
Tapez site:votresite.fr dans Google. Vous verrez toutes les pages de votre site qui sont indexées. C'est une vérification rapide et pratique.
Avec l'outil d'inspection d'URL
Dans la Search Console, l'outil "Inspection d'URL" vous permet de vérifier l'état d'indexation d'une page spécifique et de demander à Google de la (ré)indexer.
Accélérer l'indexation des nouvelles pages
Quand vous publiez une nouvelle page, Google peut mettre quelques heures à quelques semaines pour la découvrir et l'indexer. Voici comment accélérer le processus :
- Soumettez la page dans la Search Console : utilisez l'outil d'inspection d'URL et cliquez sur "Demander une indexation"
- Assurez-vous que le sitemap est à jour : la page doit y figurer
- Créez des liens internes vers la nouvelle page depuis des pages déjà indexées
- Partagez la page sur les réseaux sociaux : les robots de Google suivent aussi les liens sur les réseaux
- Utilisez l'API Indexing : pour les pages très urgentes (offres d'emploi, événements), l'API Indexing de Google permet une indexation quasi instantanée
Questions fréquentes
Mon site est en ligne depuis une semaine et Google ne l'a pas encore indexé, c'est normal ?
Oui, c'est courant pour un site tout neuf. Google découvre les nouveaux sites progressivement. Assurez-vous d'avoir soumis votre sitemap dans la Search Console et demandé l'indexation de votre page d'accueil. Les premières pages sont généralement indexées sous 3 à 7 jours. L'indexation complète peut prendre 2 à 4 semaines.
Faut-il un sitemap si mon site n'a que 5 pages ?
Techniquement, Google peut découvrir 5 pages sans sitemap en suivant simplement vos liens internes. Mais on recommande quand même d'en avoir un. C'est une bonne pratique, ça ne coûte rien, et ça aide Google à connaître la date de dernière modification de chaque page.
J'ai des pages indexées que je ne veux pas voir dans Google, comment les supprimer ?
Ajoutez une balise <meta name="robots" content="noindex"> sur ces pages. Puis attendez que Google les revisite (ou demandez une réindexation dans la Search Console). Google les supprimera de son index dans les jours ou semaines suivantes. Pour une suppression urgente, utilisez l'outil de suppression temporaire dans la Search Console.
Le robots.txt peut-il améliorer mon SEO ?
Indirectement, oui. En empêchant Google d'explorer des pages inutiles (administration, pages techniques), vous l'aidez à concentrer son "budget de crawl" sur vos pages importantes. Pour un petit site, l'impact est minime. Pour un site de plusieurs milliers de pages, c'est significatif.
Besoin d'aide ? Chez Dwenola, on crée votre site pro dès 49€/mois. On en discute ?
