Crawl / Crawling
Le crawl désigne l'exploration automatique des pages web par des robots (crawlers ou spiders). Googlebot crawle le web pour alimenter l'index de Google. BingBot fait de même pour Bing. Pour l'AEO, le crawl est fondamental : une page non crawlée n'existe pas pour les moteurs de recherche ni pour les IA utilisant le RAG.
Crawlers importants pour l'AEO
Googlebot : Le crawler de Google. Influence le ranking Google et les AI Overviews.
BingBot : Le crawler de Bing. Critique car ChatGPT utilise Bing pour son RAG.
GPTBot : Le crawler d'OpenAI. Alimente les futures données d'entraînement.
PerplexityBot : Le crawler de Perplexity.
Contrôler le crawl : robots.txt
Le fichier robots.txt contrôle quels robots peuvent crawler votre site. Attention : Bloquer GPTBot ou d'autres crawlers IA vous rend invisible pour ces systèmes.
Optimiser pour le crawl
- Site rapide (les crawlers ont un "budget" de temps)
- Pas de blocage par erreur dans robots.txt
- Sitemap XML à jour
- Maillage interne cohérent