[1] llm-geo.fr
veille en direct FR / EN

Page LLMMécanismeAvril 2026

Comment ChatGPT choisit ses sources

Mise à jour : 29.04.2026 Sources : Seer Interactive, OpenAI, Search Engine Land Lecture : ~12 min
  • ChatGPT s'appuie sur deux pools de sources : ses corpus d'entraînement (figés à un instant T) et un moteur de recherche en temps réel appelé SearchGPT, qui interroge l'index Bing de Microsoft.
  • Selon Seer Interactive, 87 % des citations SearchGPT correspondent au top organique Bing sur la même requête. La hiérarchie Bing détermine donc largement ce que ChatGPT cite.
  • Les partenariats publishers d'OpenAI (Associated Press, Le Monde, Axel Springer, News Corp...) donnent un accès privilégié à du contenu sous licence, mais ne garantissent pas plus de citations. La corrélation entre partenariat et fréquence de citation est faible.
  • Trois biais structurels : Wikipedia 47,9 % des citations sur requêtes informationnelles (Digital Bloom), forte présence de Reddit, et hégémonie des médias éditoriaux US sur le marché anglophone.

Quand ChatGPT répond à une question, il puise dans deux types de sources qu'il faut distinguer pour comprendre ce qui se joue. Les corpus d'entraînement (figés à la date du dernier cut-off connu) et la recherche en temps réel via SearchGPT (qui interroge le web à chaque requête). Ce n'est pas la même chose, et les leviers GEO ne sont pas les mêmes.

Les deux pools de sources

Le corpus d'entraînement

Les modèles GPT (GPT-4, GPT-4o, etc.) ont été entraînés sur des corpus massifs de textes web, livres, articles académiques et corpus structurés. La date de cut-off varie selon les versions (octobre 2023 puis avril 2024 puis fin 2024 selon les modèles). Les sources entrées dans ce corpus restent disponibles dans la mémoire du modèle, mais ne sont pas « rafraîchies » à chaque conversation.

Conséquence pratique pour les marques : si une marque n'existait pas (ou existait mal) dans les sources web au moment de l'entraînement, le modèle ne la connaît pas dans ses paramètres internes. Elle dépendra de la recherche en temps réel pour apparaître dans les réponses.

La recherche en temps réel (SearchGPT)

SearchGPT, lancé fin 2024 et progressivement intégré à ChatGPT, est l'évolution majeure du moteur côté sources. Quand l'utilisateur pose une question qui demande des informations à jour, le modèle déclenche une recherche en temps réel. Cette recherche s'appuie sur l'index Bing de Microsoft, fruit du partenariat OpenAI / Microsoft.

Mécaniquement : la requête utilisateur est reformulée en une ou plusieurs requêtes de recherche, ces requêtes sont envoyées à Bing, les résultats sont récupérés, classés par pertinence, puis les contenus extraits sont injectés dans le contexte du modèle pour composer la réponse. Les sources citées en sortie correspondent donc largement à ce que Bing classe en tête sur la requête reformulée.

Le rôle structurant de Bing

87 % Part des citations SearchGPT qui correspondent au top organique Bing sur la même requête, selon l'analyse Seer Interactive (2026). La majorité de ces résultats sont dans le top 10 Bing. La hiérarchie Bing détermine donc largement ce que ChatGPT cite en mode recherche. Source : Seer Interactive, étude 2026 sur 87 % de match SearchGPT/Bing

Cette donnée a un sens stratégique fort. Bing étant traditionnellement sous-investi en SEO (la part de marché historique étant faible face à Google), beaucoup de marques n'ont pas activement travaillé leur position Bing. Avec l'arrivée de SearchGPT, la position Bing redevient un signal d'entrée majeur pour la visibilité ChatGPT. Le travail SEO Bing devient une stratégie GEO indirecte.

Quelques points pratiques sur Bing comme source ChatGPT :

  • Index propre. Bing maintient son propre crawler et son propre index, distincts de ceux de Google. Une page indexée par Google ne l'est pas automatiquement par Bing.
  • Bing Webmaster Tools. Microsoft propose un outil équivalent à Search Console qui permet de soumettre des sitemaps, demander l'indexation, suivre les performances. À utiliser pour piloter sa visibilité ChatGPT.
  • Critères de classement Bing. Largement comparables à ceux de Google (qualité technique, autorité, pertinence, fraîcheur), avec quelques différences : Bing valorise plus les balises traditionnelles, donne plus de poids au contenu textuel que Google.
  • Crawl Bing parfois plus lent. L'indexation de pages neuves est souvent plus lente sur Bing que sur Google. Les contenus récents peuvent mettre quelques jours à apparaître dans les résultats.

Les partenariats publishers d'OpenAI

Au-delà de l'index Bing, OpenAI a négocié à partir de 2023 des partenariats avec des éditeurs de contenu. Liste partielle, à fin 2024 et début 2026 :

  • Associated Press (un des premiers, 2023)
  • Axel Springer (Bild, Die Welt, Politico, Business Insider)
  • News Corp (Wall Street Journal, New York Post, MarketWatch...)
  • Le Monde et Prisa Media (presse francophone et hispanophone)
  • Financial Times
  • Time
  • Vox Media et The Atlantic
  • Condé Nast (Vogue, Vanity Fair, Wired, GQ...)
  • Hearst (Cosmopolitan, Esquire, Elle...)
  • Reuters (partenariat plus récent)

Ces accords donnent à OpenAI un accès « sous licence » au contenu de ces éditeurs (pour entraînement et utilisation en temps réel). Du côté des éditeurs, le deal apporte des revenus de licence et des assurances sur l'utilisation de leur contenu.

Un partenariat ne garantit pas plus de citations. Les analyses Search Engine Land et autres médias spécialisés ont montré qu'il n'y a pas de corrélation forte entre les partenariats et la fréquence de citation par ChatGPT. Un éditeur partenaire n'est pas systématiquement préféré dans les sources sortantes. Les partenariats sécurisent l'accès au contenu ; ils ne donnent pas de coup de pouce algorithmique majeur dans les réponses.

Implication pour les marques non-éditeurs : ces accords ne ferment pas le terrain. ChatGPT continue de citer des sources non partenaires (Wikipedia, Reddit, sites de marques, plateformes d'avis, blogs) qui restent au moins aussi présentes que les médias sous licence.

Les biais documentés

Plusieurs études convergent sur les sources les plus citées par ChatGPT. Trois biais ressortent :

Wikipedia surreprésenté

Digital Bloom 2025 mesure que 47,9 % des citations ChatGPT sur les requêtes informationnelles testées sont issues de Wikipedia. C'est de loin la source la plus présente. Pourquoi :

  • Wikipedia a une structure éditoriale (sources nommées, validation communautaire) qui se rapproche de ce qu'un LLM valorise.
  • Wikipedia couvre par construction des dizaines de millions d'entités (personnes, entreprises, concepts).
  • Wikipedia est l'une des principales sources d'entraînement des modèles GPT, ce qui crée un biais cognitif d'auto-renforcement.

Reddit fort sur les requêtes commerciales

Sur les requêtes comparatives ou consuméristes (« meilleur outil X », « avis Y »), Reddit prend souvent le dessus. ChatGPT a un penchant marqué pour les retours d'expérience communautaires. Sur le marché US, c'est même la source numéro un sur ce type de requête selon Peec AI (analyse 30 M de citations, mars 2026).

Sites tiers (annuaires, comparateurs) à 48,73 %

L'analyse Yext (octobre 2025) mesure que 48,73 % des citations ChatGPT viennent de sites tiers (Yelp, TripAdvisor, MapQuest, plateformes d'avis sectorielles, comparateurs). C'est l'opposé direct de Gemini, qui privilégie les sites de marques officielles. Sur des requêtes B2C, l'investissement dans les présences tierces (cf. notre guide) paie particulièrement chez ChatGPT.

Le schéma de décision en pratique

Quand ChatGPT répond à une question, simplification du parcours :

  1. Évaluation de la nécessité de recherche. Le modèle juge si sa connaissance interne suffit ou si une recherche en temps réel est nécessaire. Sur les questions d'actualité ou demandant des informations à jour, la recherche se déclenche.
  2. Reformulation de la requête. La question utilisateur est traduite en une ou plusieurs requêtes Bing optimisées pour la recherche.
  3. Récupération via Bing. Les résultats sont obtenus de l'API Bing avec leurs métadonnées (titre, URL, snippet, date).
  4. Filtrage et reranking. Le modèle évalue la pertinence et la qualité des sources récupérées (autorité, fraîcheur, adéquation à la question).
  5. Extraction de contenu. Pour les sources retenues, le contenu textuel est récupéré (souvent via crawl direct ou API) et injecté dans le contexte du modèle.
  6. Composition de la réponse. Le modèle compose une réponse cohérente à partir du contexte enrichi, avec attribution sous forme de citations cliquables.

Ce parcours montre que la qualité Bing et la qualité du contenu lui-même sont les deux principaux leviers. Le premier détermine si on entre dans le pool de sources ; le second détermine si on est retenu après reranking.

Comment ChatGPT évolue

Plusieurs tendances depuis fin 2024 méritent d'être suivies :

  • Citations cliquables. ChatGPT a généralisé l'affichage des sources sous forme de citations cliquables dans ses réponses, alors que c'était plus rare au début. C'est un acquis pour la traçabilité, et un signal positif pour la visibilité des sources citées.
  • Mode recherche par défaut. Sur les versions récentes, le déclenchement de la recherche en temps réel est devenu plus fréquent, ce qui augmente la dépendance aux sources web actuelles.
  • Renforcement des partenariats publishers. OpenAI continue de signer des accords. Reuters en 2025-2026 est un des plus récents.
  • Anti-blocage. Certains éditeurs ont demandé à être exclus du training (Robots.txt + accord de licence). OpenAI respecte ces demandes mais cela limite la couverture sur certains domaines.
  • Plus de transparence sur les sources. Pression réglementaire (notamment européenne) pousse OpenAI à mieux exposer comment les sources sont sélectionnées. Les détails restent partiels.

Ce que ça implique pour le GEO

  1. Travailler sa position Bing. Bing Webmaster Tools, sitemaps, signaux d'autorité Bing. C'est la voie d'entrée pour 87 % des citations SearchGPT.
  2. Présence Wikipedia si possible. Pour les marques avec une page Wikipedia légitime, sa qualité a un effet direct sur la visibilité ChatGPT informationnelle. Pour celles qui n'ont pas de page, c'est plus compliqué : Wikipedia ne tolère pas les pages auto-déclarées.
  3. Investir dans les sources tiers. 48,73 % des citations viennent de sites tiers. Plateformes d'avis, annuaires sectoriels, comparateurs sont des terrains GEO directs (cf. notre guide).
  4. Présence Reddit authentique (cf. guide Perplexity qui détaille la méthode, applicable aussi pour ChatGPT). Pas de marketing forum déguisé.
  5. Contenu structuré et factuel. Format ami du LLM (titre, dates, citations attribuées, données chiffrées sourcées). Voir nos guides citations d'experts et statistiques sourcées.
  6. Patience sur le contenu d'entraînement. Ce qui est dans les corpus actuels y reste pour des trimestres ou années. Construire l'autorité de marque est une discipline à 18-36 mois.

Limites de ce qu'on sait

  • OpenAI ne publie pas le détail de l'algorithme. Les pourcentages d'overlap (87 % Bing) et les biais (Wikipedia, Reddit) sont mesurés par des tiers. Les pondérations exactes restent privées.
  • Le modèle évolue vite. Chaque version (GPT-4, 4o, GPT-5 quand il sortira) peut modifier les comportements de sélection. Les chiffres 2026 ne sont pas durables.
  • Études dominamment US. Le 47,9 % Wikipedia, le 48,73 % sites tiers et le 87 % Bing sont mesurés sur des corpus US. Sur le marché francophone, les ratios peuvent différer.
  • Type de requête déterminant. Les biais de citation changent fortement selon la nature de la requête (informationnelle vs commerciale vs locale). Les chiffres agrégés cachent ces variations.
  • Différence entre ChatGPT chat et SearchGPT. Les biais peuvent diverger selon que la recherche en temps réel se déclenche ou non. Toujours préciser le mode mesuré.

Sources

Sources qui alimentent cette page :

Études couvertes sur le site : Seer Interactive, Digital Bloom, Yext & Superlines.