Liste des crawlers des chatbots utilise pour la Generative Engine Optimization (GEO)

Nous avons identifiés les 9 familles de crawlers essentiels pour faire référencer votre entreprise dans les chatbots comme ChatGPT. Eh oui, si vous pensiez que Bing et Indexnow étaient l’alpha et l’omega du GEO, GSO et AEO, vous avez tout faux !
Bing n’alimente pas le cœur des modèles de ChatGPT, mais seulement leur RAG.
Lorsque vous envoyez un prompt à ChatGPT, c’est, avant tout, le cœur de son LLM qui répond, le modèle lui-même (GPT4, GPT4.1, GPT 4.5, o3, o4-mini-high…).
Ce modèle est entraîné à partir des données collectées par des crawlers spécifiques.
Les crawlers propriétaires « cœur de LLM »
Ce sont ceux qu’OpenAI contrôle en direct et qui fournissent les données qui permettront d’entraîner chaque modèle.
Le nom du crawler principal d’OpenAI qui récupère ce type de données : GPTBo
2. Les crawlers partenaires mutualisés
Commoncrawl est une association organisation à but non lucratif qui collecte et met à disposition des milliards de pages web pour la recherche, l'analyse ou l’entrainement des LLMs.
Commoncrawl joue un rôle essentiel pour l'entrainement des LLMs
Les systèmes de collecte de données structurées ou non structurées spécifiques
Les LLMs sont entraînés sur des données comme des livres (avec/sans copyright, avec/sans autorisation), les archives de media ou des corpus de lois/réglementaires.
Ce ne sont pas des crawlers au sens propre, mais des systèmes cousins.
Les crawlers multimodaux
LAION crawle le web pour créer des bases de textes et d’images utilisées pour l’entrainement de LLM multimodaux.
Les crawlers de contenus UGC
Des crawlers OpenAI sont dédiés aux contenus des forums ou de réseaux sociaux (StackExchange, Reddit, etc…)
Les crawlers polyvalents / couteaux suisses
Applebot-extended, Amazonbot, Facebookbot, Duckassistbot… collectent des informations à usage multiple (afficher des résumés de pages dans Facebook, enrichir SIRI ou les "réponses IA de Duckducgo, entrainer les LLMs d’Apple ou d'Alexa…).
Lorsque le coeur du LLM ne suffit pas, ChatGPT peut compléter ses réponses avec les données issues des crawlers RAG.
Les crawlers RAG / « recherche web » partenaires
ChatGPT peut aussi décider qu'il a besoin de compléter ses réponses en sollicitant les données de... Bing !
Les crawlers propriétaires RAG / « recherche web »
Ces crawlers alimentent, comme Bing, une sorte d'index complémentaire.
Nom du crawler de ce type chez OpenAI : OAI-SearchBot
En marge de cela, on trouve aussi ...
Les crawlers propriétaires « temps réel »
OpenAI envoie un autre type de crawler au moment où vous lui demandez d’analyser une URL spécifique et uniquement dans ce cas.
Actuellement, c’est soit ChatGPT-User/1.0, soit ChatGPT-User/2.0 pour ChatGPT.
Ce dossier a été élaboré par Raphaël Richard, expert en Generative Engine Optimisation (GEO), c'est à dire en référencement dans les chatbots tels que ChatGPT, Claude, Gemini ou Copilot). Raphaël Richard dirige l'agence d'intelligence artificielle, Neodia et le fondateur de la plateforme de formation 24pm Academy.
LIste des Crawlers IA |
Crawlers d'Anthropic / Claude
Bot | Type | Fonction |
|
ClaudeBot | Crawler propriétaire « cœur de LLM »
| Fonction officielle : ClaudeBot aide à améliorer l'utilité et la sécurité de nos modèles génératifs d'IA en collectant du contenu web qui pourrait potentiellement contribuer à leur formation. Fonction probable : Un robot d'exploration du Web exploité par Anthropic pour télécharger des données d'entraînement pour ses LLM (Large Language Models) qui alimentent des produits d'IA comme Claude. Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.) | |
Claude-User | Crawler propriétaire « temps réel »
| Claude-User soutient les utilisateurs de Claude AI. Lorsque des personnes posent des questions à Claude, celui-ci peut accéder à des sites web à l'aide d'un agent Claude-User. Il est possible qu’il n’y ait pas de user agent propre à Claude user et que Claudebot transmette ses données à Claude-User pour une analyse instantannée. | |
Claude-SearchBot | Crawler propriétaire RAG / « recherche web »
| Claude-SearchBot navigue sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs. Il analyse le contenu en ligne afin d'améliorer la pertinence et la précision des réponses aux recherches. Il est possible qu’il n’y ait pas de user agent propre à Claude Searchbot et que Claudebot transmette ses données à Claude-Searchbot pour indexation simple et non entrainement des LLM d’Anthropic. | |
Anthropic-AI x | Crawler propriétaire « cœur de LLM »
| Autre crawler collectant des données pour l’entraînement des LLM d’Anthropic. Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.) |
Crawlers de Cohere
Bot | Type | Fonction |
Cohere-ai | Crawler propriétaire « cœur de LLM » | Collecte des données textuelles pour les modèles de lanage de Cohere,. User agent: Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html) |
Crawler de Commoncrawl
Bot | Type | Fonction |
CCbot | Crawler partenaire mutualisé | Indexe les sites web pour alimenter la base open source de sites web Common Crawl, utilisées par de nombreux entreprises pour entraîner leurs modèles (OpenAI, Mistral, Meta…) User agent: Mozilla/5.0 (compatible; CCBot/1.0; +http://www.commoncrawl.org/bot.html) |
Crawler Duckduckgo
Bot | Type | Fonction |
|
DuckAssistBot | Crawler hybride RAG/recherche web et génération de réponses IA | Ce crawler collecte des données à la fois pour alimenter les modèles de Duckduckgo qui permettent de générer des réponses IA synthétiques dans les pages de résultats de recherche, pour fournir du contexte aux réponses des LLMs que Duckduckgo intègre parfois et comme données pour le RAG que Duckduckgo a intégré à certains de ses services. User agent: Mozilla/5.0 (compatible; DuckAssistBot/1.0; +https://duckduckgo.com/duckassistbot) |
Crawler Google Gemini
Bot | Type | Fonction |
Google-Extended | Crawler propriétaire « cœur de LLM » | Utilisé pour améliorer les API génératives de Bard (désormais Gemini) et Vertex AI, y compris les futures générations de modèles. Utilisé pour Gemini et l'indexation liée à l'IA au-delà de la recherche standard ; blocage pour exclure votre contenu des réponses de Google en matière d'IA. User agent: Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html) |
GoogleOther | Utilisé par Google pour la recherche et le développement internes incluant potentiellement l’IA et les LLMs. | |
Googlebot | Crawler propriétaire RAG / « recherche web » | Googlebot n’est à priori pas un crawler RAG, puisque c’est le crawler principal du moteur de recherche, mais l’index de ce moteur, permet d’enrichir directement ou indirectement certaines réponses de Gemini. |
Crawlers Meta
Bot | Type | Fonction |
Meta-externalagent | Crawler propriétaire « cœur de LLM » | Utilisé initialement en relais de Facebookbot, mais désormais officiellement pour l’aspiration de contenu utilisés pour l'entraînement de modèles d'intelligence artificielle de Meta tels que Llama ou « l'amélioration de produits ». User agent: Mozilla/5.0 (compatible; meta-externalagent/1.1; +https://developers.facebook.com/docs/sharing/webmasters/crawler) Autres user agents possibles : Metaai, Meta-ai |
FacebookExternalHit
| Crawler propriétaire « cœur de LLM » | Officiellement, ce crawler aspire le contenu des URLs partagées sur les réseaux sociaux de Meta. Il est probable que ces contenus « validés » par les internautes soient considérés comme de qualité suffisante pour entrainer les LLMs de Meta. |
Meta-ExternalFetcher | Crawler propriétaire « temps réel »
| Il est déclenché lors de certaines actions des utilisateurs de Meta AI, notamment lorsqu'un lien externe est requis pour répondre à une requête. User agent: meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler) |
Facebookbot | Crawler propriétaire « cœur de LLM » | Crawler officiel qui, officiellement, génère des extraits de prévisualisation et des métadonnées de liens pour Facebook et Instagram. Probable utilisation pour la collecte de données en vue de l’entraînement des modèles de langage de Meta. User agent: Mozilla/5.0(compatible;FacebookBot/1.0;http://www.facebook.com/bot.html |
Crawlers Microsoft et Copilot
Bot | Type | Fonction |
|
Bingbot | Crawler propriétaire hybride : « cœur de LLM » et RAG / « recherche web »
| Certaines données collectées par Bingbot sont utilisées pour entraîner les modèles LLM de Microsoft (mais pas ceux d’OpenAI). D’autres données sont utiisées en suppléance des réponses du LLM de Copilot via un RAG ainsi que dans les autres assistants IA de Microsoft User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36 | |
Bingpreview | Crawler propriétaire « temps réel »
| BingPreview est déclenché lorsqu'un utilisateur réalise certaines recherches sur Bing Search qui nécessite une prévisualisation des pages ainsi que sur lors de l’utilisation de certains services IA de Microsoft. User agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b | |
MsBot | Crawler propriétaire
| Crawler complémentaire de Bingbot qui alimente l’index de Bing Search et collecte des données pour les services d’IA de Microsoft. Il passe plutôt rarement sur les sites web et son usage dans le cadre de l’IA n’est pas clair. | |
Indexnow |
| Indexnow n’est pas un crawler mais à la fois, un protocole opensource et un service qui permet aux webmasters de demander l’indexation immédiate de pages web à la fois dans le moteur Bing Search et dans les moteurs partenaires d’Indexnow. Indexnow.org |
Crawler Mistral
Bot | Type | Fonction |
|
? | Crawler propriétaire « cœur de LLM » | Mistral ne communique pas officiellement sur l’existence d’un crawler web destiné à l’entraînement de ses LLMs, mais il est probable qu’il en utilise un. | |
MistralAI-User | Crawler propriétaire « temps réel »
| BingPreview est déclenché lorsqu'un utilisateur réalise certaines recherches sur Bing Search qui nécessite une prévisualisation des pages ainsi que sur lors de l’utilisation de certains services IA de Microsoft. User agent: Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot) |
Crawler OpenAI
Bot | Type | Fonction |
GPTBot | Crawler propriétaire « cœur de LLM » | Utilisé par OpenAI pour entrainer ses LLMs User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot) |
ChatGPT-User 1 et 2 | Crawler propriétaire « temps réel » | Aspire le contenu d’une page, par exemple, lorsqu’un utilisateur demande à ChatGPT d’analyser le contenu d’une URL précise. User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot) User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot) |
OAI-SearchBot | Crawler propriétaire RAG / « recherche web » | Complète certaines réponses de ChatGPT à l’initiative de ChatGPT ou lorsque l’utilisateur active l’option « Recherche web » User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot) |
Crawler Perplexity
Bot | Type | Fonction |
PerplexityBot | Crawler propriétaire RAG / « recherche web »
| Crawler primaire de Perplexity qui indexe les sites pour construire le moteur de recherche Perplexity AI. Officiellement non utilisé pour entraîner des modèles, mais douteux dans la mesure où Perplexity développe ses propres modèles, notamment sur les bases de données LLama qu'il doit probablement enrichir de manière proactive. User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot) |
Perplexity‑User |
| Charge une page uniquement lorsqu'un utilisateur clique sur une citation Perplexity ; traité comme un trafic humain, il contourne les robots.txt. User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent) |
Crawler Tiktok Bytedance
Bot | Type | Fonction |
|
Bytespider | Crawler propriétaire « cœur de LLM » | Utilisé initialement pour enrichir les services de Tiktok, il est désormais aussi utilisé pour entraîner des LLMS comme Doubao. Indexe et réindexe à une fréquence très importante, mais aussi Tiktok search et des assistants éducatifs. Il collecte texte, images et vidéo pour également entrainer des algorithmes de reconnaissances vocale ou de recommandation de contenu. User agent: Mozilla/5.0(compatible;Bytespider/1.0;http://www.bytedance.com/bot.html) User agent: Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.) |
Crawler You.com
Bot | Type | Fonction |
|
Youbot | Crawler propriétaire RAG / « recherche web » | Complète certaines réponses du LLM utilisé par You.com lorsque l’utilisateur active l’option « Recherche web » ou lorsque des entreprises développent des versions personnalisées de You.com en interne. |
Crawler des autres bots IA
Amazonbot |
| Amazonbot crawle les sites pour enrichir les requêtes d'Alexa, l'IA de Fire OS et les recommandations de produits. User agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) |
Applebot |
| Crawler principale alimentant Siri et Spotlight, indexant le web afin d'améliorer les fonctions de recherche d'Apple. User agent: Mozilla/5.0 (compatible; Applebot/1.0; +http://www.apple.com/bot.html) |
Applebot-Extended |
| Crawler collecte des données pour les futurs modèles d'intelligence artificielle d'Apple (LLM ?) User agent: Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html) |
LinkedInBot |
| LinkedInBot extrait les données Open Graph pour les prévisualisations dans les posts, les messages et les articles sur Linkedin. Peut-être utilisé pour créer des modèles de connaissance ou modèles de langage. User agent: LinkedInBot/1.0 (compatible; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com) |
AI2Bot/1.0 |
| Moteur de recherche académique alimentant Semantic Scholar et d'autres outils de recherche en IA de l'Allen Institute. User agent: Mozilla/5.0 (compatible; AI2Bot/1.0; +http://www.allenai.org/crawler) |
Diffbot/0.1; |
| Transforme les pages web en données structurées telles que des listes de produits, des articles ou des FAQ pour les pipelines ML. Utilisé par certains développeurs de LLM. User agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; +http://www.diffbot.com) |
omgili/1.0 |
| Se concentre sur l'indexation des forums, des commentaires et des tableaux de discussion afin d'obtenir des informations plus approfondies sur les conversations. Utilisé par certains développeurs de LLM. User agent: Mozilla/5.0 (compatible; omgili/1.0; +http://www.omgili.com/bot.html) |
Timpibot/0.8 |
| Crawler de startup de recherche décentralisée à faible trafic, visant à construire un réseau d'indexation distribué. Utilisé par certains développeurs de LLM. User agent: Timpibot/0.8 (+http://www.timpi.io) |