Formation à GPT3 et ChatGPT
Musclez le contenu + SEO
Référencement naturel

Liste des crawlers des chatbots utilise pour la Generative Engine Optimization (GEO)

Nous avons identifiés les 9 familles de crawlers essentiels pour faire référencer votre entreprise dans les chatbots comme ChatGPT. Eh oui, si vous pensiez que Bing et Indexnow étaient l’alpha et l’omega du GEO, GSO et AEO, vous avez tout faux !

Bing n’alimente pas le cœur des modèles de ChatGPT, mais seulement leur RAG.

Lorsque vous envoyez un prompt à ChatGPT, c’est, avant tout, le cœur de son LLM qui répond, le modèle lui-même (GPT4, GPT4.1, GPT 4.5, o3, o4-mini-high…).

Ce modèle est entraîné à partir des données collectées par des crawlers spécifiques.

  1. Les crawlers propriétaires « cœur de LLM »

Ce sont ceux qu’OpenAI contrôle en direct et qui fournissent les données qui permettront d’entraîner chaque modèle.

Le nom du crawler principal d’OpenAI qui récupère ce type de données : GPTBo

2. Les crawlers partenaires mutualisés

Commoncrawl est une association organisation à but non lucratif qui collecte et met à disposition des milliards de pages web pour la recherche, l'analyse ou l’entrainement des LLMs.

Commoncrawl joue un rôle essentiel pour l'entrainement des LLMs

Les systèmes de collecte de données structurées ou non structurées spécifiques

Les LLMs sont entraînés sur des données comme des livres (avec/sans copyright, avec/sans autorisation), les archives de media ou des corpus de lois/réglementaires.

Ce ne sont pas des crawlers au sens propre, mais des systèmes cousins.

Les crawlers multimodaux

LAION crawle le web pour créer des bases de textes et d’images utilisées pour l’entrainement de LLM multimodaux.

Les crawlers de contenus UGC

Des crawlers OpenAI sont dédiés aux contenus des forums ou de réseaux sociaux (StackExchange, Reddit, etc…)

Les crawlers polyvalents / couteaux suisses

Applebot-extended, Amazonbot, Facebookbot, Duckassistbot… collectent des informations à usage multiple (afficher des résumés de pages dans Facebook, enrichir SIRI ou les "réponses IA de Duckducgo, entrainer les LLMs d’Apple ou d'Alexa…).

Lorsque le coeur du LLM ne suffit pas, ChatGPT peut compléter ses réponses avec les données issues des crawlers RAG.

Les crawlers RAG / « recherche web » partenaires

ChatGPT peut aussi décider qu'il a besoin de compléter ses réponses en sollicitant les données de... Bing !

Les crawlers propriétaires RAG / « recherche web »

Ces crawlers alimentent, comme Bing, une sorte d'index complémentaire.

Nom du crawler de ce type chez OpenAI : OAI-SearchBot

En marge de cela, on trouve aussi ...

Les crawlers propriétaires « temps réel »

OpenAI envoie un autre type de crawler au moment où vous lui demandez d’analyser une URL spécifique et uniquement dans ce cas.

Actuellement, c’est soit ChatGPT-User/1.0, soit ChatGPT-User/2.0 pour ChatGPT.

Ce dossier a été élaboré par Raphaël Richard, expert en Generative Engine Optimisation (GEO), c'est à dire en référencement dans les chatbots tels que ChatGPT, Claude, Gemini ou Copilot). Raphaël Richard dirige l'agence d'intelligence artificielle, Neodia et le fondateur de la plateforme de formation 24pm Academy.

LIste des Crawlers IA

Crawlers d'Anthropic / Claude

Bot

Type

Fonction

 

ClaudeBot

Crawler propriétaire « cœur de LLM »

 

Fonction officielle : ClaudeBot aide à améliorer l'utilité et la sécurité de nos modèles génératifs d'IA en collectant du contenu web qui pourrait potentiellement contribuer à leur formation.

Fonction probable : Un robot d'exploration du Web exploité par Anthropic pour télécharger des données d'entraînement pour ses LLM (Large Language Models) qui alimentent des produits d'IA comme Claude.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.)
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; ClaudeBot/1.0; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.)

Claude-User

Crawler propriétaire « temps réel »

 

Claude-User soutient les utilisateurs de Claude AI. Lorsque des personnes posent des questions à Claude, celui-ci peut accéder à des sites web à l'aide d'un agent Claude-User.

Il est possible qu’il n’y ait pas de user agent propre à Claude user et que Claudebot transmette ses données à Claude-User pour une analyse instantannée.

Claude-SearchBot

Crawler propriétaire RAG / « recherche web »

 

Claude-SearchBot navigue sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs. Il analyse le contenu en ligne afin d'améliorer la pertinence et la précision des réponses aux recherches.

Il est possible qu’il n’y ait pas de user agent propre à Claude Searchbot et que Claudebot transmette ses données à Claude-Searchbot pour indexation simple et non entrainement des LLM d’Anthropic.

Anthropic-AI

x

Crawler propriétaire « cœur de LLM »

 

Autre crawler collectant des données pour l’entraînement des LLM d’Anthropic.

Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.)

Crawlers de Cohere

Bot

Type

Fonction

Cohere-ai

Crawler propriétaire « cœur de LLM »

Collecte des données textuelles pour les modèles de lanage de Cohere,.

User agent: Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)

Crawler de Commoncrawl

Bot

Type

Fonction

CCbot

Crawler partenaire mutualisé

Indexe les sites web  pour alimenter la base open source de sites web Common Crawl, utilisées par de nombreux entreprises pour entraîner leurs modèles (OpenAI, Mistral, Meta…)

User agent: Mozilla/5.0 (compatible; CCBot/1.0; +http://www.commoncrawl.org/bot.html)

Crawler Duckduckgo

Bot

Type

Fonction

 

DuckAssistBot

Crawler hybride RAG/recherche web et génération de réponses IA

Ce crawler collecte des données à la fois pour alimenter les modèles de Duckduckgo qui permettent de générer des réponses IA synthétiques dans les pages de résultats de recherche, pour fournir du contexte aux réponses des LLMs que Duckduckgo intègre parfois et comme données pour le RAG que Duckduckgo a intégré à certains de ses services.

User agent: Mozilla/5.0 (compatible; DuckAssistBot/1.0; +https://duckduckgo.com/duckassistbot)

Crawler Google Gemini

Bot

Type

Fonction

Google-Extended

Crawler propriétaire « cœur de LLM »

Utilisé pour améliorer les API génératives de Bard (désormais Gemini) et Vertex AI, y compris les futures générations de modèles.

Utilisé pour Gemini et l'indexation liée à l'IA au-delà de la recherche standard ; blocage pour exclure votre contenu des réponses de Google en matière d'IA.

User agent: Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)

GoogleOther

 

Utilisé par Google pour la recherche et le développement internes incluant potentiellement l’IA et les LLMs.

Googlebot

Crawler propriétaire RAG / « recherche web »

Googlebot n’est à priori pas un crawler RAG, puisque c’est le crawler principal du moteur de recherche, mais l’index de ce moteur, permet d’enrichir directement ou indirectement certaines réponses de Gemini.

Crawlers Meta

Bot

Type

Fonction

Meta-externalagent

Crawler propriétaire « cœur de LLM »

Utilisé initialement en relais de Facebookbot, mais désormais officiellement pour l’aspiration de contenu utilisés pour l'entraînement de modèles d'intelligence artificielle de Meta tels que Llama ou « l'amélioration de produits ».

User agent: Mozilla/5.0 (compatible; meta-externalagent/1.1; +https://developers.facebook.com/docs/sharing/webmasters/crawler)

Autres user agents possibles : Metaai, Meta-ai

FacebookExternalHit

 

Crawler propriétaire « cœur de LLM »

Officiellement, ce crawler aspire le contenu des URLs partagées sur les réseaux sociaux de Meta. Il est probable que ces contenus « validés » par les internautes soient considérés comme de qualité suffisante pour entrainer les LLMs de Meta.

Meta-ExternalFetcher

Crawler propriétaire « temps réel »

 

Il est déclenché lors de certaines actions des utilisateurs de Meta AI, notamment lorsqu'un lien externe est requis pour répondre à une requête.

User agent: meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)

Facebookbot

Crawler propriétaire « cœur de LLM »

Crawler officiel qui, officiellement, génère des extraits de prévisualisation et des métadonnées de liens pour Facebook et Instagram. Probable utilisation pour la collecte de données en vue de l’entraînement des modèles de langage de Meta.

User agent: Mozilla/5.0(compatible;FacebookBot/1.0;http://www.facebook.com/bot.html

Crawlers Microsoft et Copilot

Bot

Type

Fonction

 

Bingbot

Crawler propriétaire hybride :  « cœur de LLM » et RAG / « recherche web »

 

Certaines données collectées par Bingbot sont utilisées pour entraîner les modèles LLM de Microsoft (mais pas ceux d’OpenAI).

D’autres données sont utiisées en suppléance des réponses du LLM de Copilot via un RAG ainsi que dans les autres assistants IA de Microsoft

User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36

Bingpreview

Crawler propriétaire « temps réel »

 

BingPreview est déclenché lorsqu'un utilisateur réalise certaines recherches sur Bing Search qui nécessite une prévisualisation des pages ainsi que sur lors de l’utilisation de certains services IA de Microsoft.

User agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b

MsBot

Crawler propriétaire

 

Crawler complémentaire de Bingbot qui alimente l’index de Bing Search et collecte des données pour les services d’IA de Microsoft. Il passe plutôt rarement sur les sites web et son usage dans le cadre de l’IA n’est pas clair.

Indexnow

 

Indexnow n’est pas un crawler mais à la fois, un protocole opensource et un service qui permet aux webmasters de demander l’indexation immédiate de pages web à la fois dans le moteur Bing Search et dans les moteurs partenaires d’Indexnow.

Indexnow.org

Crawler Mistral

Bot

Type

Fonction

 

?

Crawler propriétaire « cœur de LLM »

Mistral ne communique pas officiellement sur l’existence d’un crawler web destiné à l’entraînement de ses LLMs, mais il est probable qu’il en utilise un.

MistralAI-User

Crawler propriétaire « temps réel »

 

BingPreview est déclenché lorsqu'un utilisateur réalise certaines recherches sur Bing Search qui nécessite une prévisualisation des pages ainsi que sur lors de l’utilisation de certains services IA de Microsoft.

User agent: Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)

Crawler OpenAI

Bot

Type

Fonction

GPTBot

Crawler propriétaire « cœur de LLM »

Utilisé par OpenAI pour entrainer ses LLMs

User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot)

ChatGPT-User 1 et 2

Crawler propriétaire « temps réel »

Aspire le contenu d’une page, par exemple, lorsqu’un utilisateur demande à ChatGPT d’analyser le contenu d’une URL précise.

User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot)

User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot)

OAI-SearchBot

Crawler propriétaire RAG / « recherche web »

Complète certaines réponses de ChatGPT à l’initiative de ChatGPT ou lorsque l’utilisateur active l’option « Recherche web »

User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot)

Crawler Perplexity

Bot

Type

Fonction

PerplexityBot

Crawler propriétaire RAG / « recherche web »

 

Crawler primaire de Perplexity qui indexe les sites pour construire le moteur de recherche Perplexity AI. Officiellement non utilisé pour entraîner des modèles, mais douteux dans la mesure où Perplexity développe ses propres modèles, notamment sur les bases de données LLama qu'il doit probablement enrichir de manière proactive.

User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

Perplexity‑User

 

Charge une page uniquement lorsqu'un utilisateur clique sur une citation Perplexity ; traité comme un trafic humain, il contourne les robots.txt.

User agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)

 Crawler Tiktok Bytedance

Bot

Type

Fonction

 

Bytespider

Crawler propriétaire « cœur de LLM »

Utilisé initialement pour enrichir les services de Tiktok, il est désormais aussi utilisé pour entraîner des LLMS comme Doubao. Indexe et réindexe à une fréquence très importante, mais aussi Tiktok search et des assistants éducatifs.  Il collecte texte, images et vidéo pour également entrainer des algorithmes de reconnaissances vocale ou de recommandation de contenu.

User agent: Mozilla/5.0(compatible;Bytespider/1.0;http://www.bytedance.com/bot.html)

User agent: Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.)

Crawler You.com

Bot

Type

Fonction

 

Youbot

Crawler propriétaire RAG / « recherche web »

Complète certaines réponses du LLM utilisé par You.com  lorsque l’utilisateur active l’option « Recherche web » ou lorsque des entreprises développent des versions personnalisées de You.com en interne.

Crawler des autres bots IA

Amazonbot

 

Amazonbot crawle les sites pour enrichir les requêtes d'Alexa, l'IA de Fire OS et les recommandations de produits.

User agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Applebot

 

Crawler principale alimentant Siri et Spotlight, indexant le web afin d'améliorer les fonctions de recherche d'Apple.

User agent: Mozilla/5.0 (compatible; Applebot/1.0; +http://www.apple.com/bot.html)

Applebot-Extended

 

Crawler collecte des données pour les futurs modèles d'intelligence artificielle d'Apple (LLM ?)

User agent: Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)

LinkedInBot

 

LinkedInBot extrait les données Open Graph pour les prévisualisations dans les posts, les messages et les articles sur Linkedin. Peut-être utilisé pour créer des modèles de connaissance ou modèles de langage.

User agent: LinkedInBot/1.0 (compatible; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com)

AI2Bot/1.0

 

Moteur de recherche académique alimentant Semantic Scholar et d'autres outils de recherche en IA de l'Allen Institute.

User agent: Mozilla/5.0 (compatible; AI2Bot/1.0; +http://www.allenai.org/crawler)

Diffbot/0.1;

 

Transforme les pages web en données structurées telles que des listes de produits, des articles ou des FAQ pour les pipelines ML. Utilisé par certains développeurs de LLM.

User agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; +http://www.diffbot.com)

omgili/1.0

 

Se concentre sur l'indexation des forums, des commentaires et des tableaux de discussion afin d'obtenir des informations plus approfondies sur les conversations. Utilisé par certains développeurs de LLM.

User agent: Mozilla/5.0 (compatible; omgili/1.0; +http://www.omgili.com/bot.html)

Timpibot/0.8

 

Crawler de startup de recherche décentralisée à faible trafic, visant à construire un réseau d'indexation distribué. Utilisé par certains développeurs de LLM.

User agent: Timpibot/0.8 (+http://www.timpi.io)

EXCLUSIF

35 Formations
Intelligence Artificielle
Marketing Digital
Ecommerce
Forfait illimité: à partir de 166€/mois

Accès 100 collaborateurs

Découvrir

Organisme de formation

 OF N°11756628075 - 17 rue etex, Paris

Recevez des exclus !

Search