[1] llm-geo.fr
veille en direct FR / EN

Fiche étude · Princeton / IIT Delhi / Georgia Tech / Allen Institute for AI

L'étude qui a fondé le GEO : 9 stratégies testées, un champ disciplinaire né

Publication originale : novembre 2023 (arxiv) Version définitive : ACM SIGKDD 2024 Lecture : ~12 min
En une phrase : cette étude a testé 9 stratégies d'optimisation de contenu sur des moteurs de recherche génératifs et montré qu'il est possible d'augmenter sa visibilité dans les réponses IA de +30 à +40 %, à condition de travailler les bons signaux, les citations de sources et les données chiffrées en tête.

Novembre 2023. ChatGPT a un an, les AI Overviews de Google n'existent pas encore, et la plupart des professionnels du SEO regardent les moteurs génératifs comme une curiosité dont on ne sait pas encore quoi faire. C'est dans ce contexte qu'une équipe de chercheurs publie sur arxiv un papier d'une quarantaine de pages avec un titre simple : GEO: Generative Engine Optimization.

L'étude ne fait pas que décrire un phénomène. Elle le quantifie, le méthodologise, et propose un cadre expérimental pour tester ce qui fonctionne. C'est la raison pour laquelle elle reste, en 2026, la référence académique la plus citée sur le sujet, même si les modèles ont considérablement évolué depuis.

Les auteurs et leur positionnement

L'étude est signée Pranjal Aggarwal, Vishvak Murahari et leurs co-auteurs, issus de quatre institutions : l'IIT Delhi (Institut Indien de Technologie), Princeton University, Georgia Tech et l'Allen Institute for AI. Ce n'est pas une étude produite par un outil SEO avec un angle marketing : c'est de la recherche académique indépendante, peer-reviewed, publiée en version définitive dans les actes de l'ACM SIGKDD 2024, l'une des conférences les plus sélectives en data mining et apprentissage automatique.

Ce contexte est important pour interpréter les résultats. Les chercheurs n'ont aucun intérêt commercial à sur-vendre l'efficacité du GEO. Leurs conclusions sont mesurées, nuancées, et accompagnées des limites méthodologiques habituelles de la recherche académique.

La méthodologie : comment mesurer la visibilité dans une réponse IA

Le problème de fond quand on veut mesurer le GEO : contrairement au SEO où la position dans les résultats est un chiffre clair, la visibilité dans une réponse IA est floue. Soit votre contenu est cité, soit il est paraphrasé, soit il est absent. Et même quand il est cité, sa position dans la réponse varie.

Les chercheurs ont conçu une métrique spécifique pour contourner ce problème : le Position-Adjusted Word Count (PAWC). Elle mesure deux choses simultanément :

  • La présence : quelle part du contenu d'une source se retrouve dans la réponse générée.
  • La position : est-ce que cette présence intervient en début de réponse (plus de poids) ou en fin (moins de poids).

Un contenu cité en première phrase de la réponse IA aura un PAWC plus élevé qu'un contenu mentionné en passant en fin de réponse. C'est une métrique qui tient compte de la façon dont les humains lisent : on retient surtout le début.

Le corpus de test

Les chercheurs ont constitué un corpus de 10 000 requêtes réparties sur plusieurs domaines thématiques : finances, droit, santé, technologie, informatique, culture et éducation. Chaque requête a été soumise à plusieurs moteurs génératifs disponibles en 2023, dont les premières versions de Bing Chat (basé sur GPT-4) et Perplexity.

Pour chaque requête, ils ont récupéré les sources utilisées par le moteur pour générer sa réponse, appliqué une des 9 stratégies à ces sources, puis mesuré l'évolution du PAWC avant et après modification.

Limite importante à garder en tête : le corpus est majoritairement en anglais, et les moteurs testés sont ceux de 2023. Les modèles GPT-4o, Gemini 2.0, Perplexity Sonar et les AI Overviews de Google n'existaient pas encore. Les stratégies validées en 2023 restent des indicateurs utiles, mais leur effet précis sur les modèles actuels n'a pas été re-testé dans ce cadre.

Les 9 stratégies et ce qu'elles produisent

Les chercheurs ont testé 9 approches distinctes, chacune appliquée de façon isolée pour mesurer son effet propre. Voici les résultats :

Stratégie Ce qu'elle consiste à faire Effet sur le PAWC Domaines où elle est la plus efficace
Cite Sources Ajouter des citations en ligne et des références à des sources reconnues dans le corps du texte Fort, top 1 global Finance, droit, santé, technologie
Add Statistics Intégrer des données chiffrées précises, des pourcentages, des résultats d'études Fort, top 2 global Finance, technologie, sciences
Add Quotations Ajouter des citations directes attribuées à des experts identifiés (nom + titre ou affiliation) Fort, top 3 global Éducation, culture, santé
Easy to Understand Simplifier le vocabulaire, raccourcir les phrases, réduire la complexité syntaxique Modéré, variable Culture, éducation, lifestyle
Fluency Optimization Améliorer la fluidité globale du texte, corriger les maladresses de style Modéré, variable Éducation, culture
Authoritative Tone Adopter un registre d'autorité dans la formulation (affirmatif, pas hypothétique) Variable selon domaine Droit, santé
Uniqueness Optimization Produire un contenu original qui n'est pas une reformulation de ce qui existe déjà Variable selon domaine Tous, mais effet difficile à isoler
Technical Terms Intégrer le vocabulaire spécialisé reconnu dans le domaine concerné Variable selon domaine Technologie, informatique, médecine
Keyword Stuffing Répéter intensivement les mots-clés cibles dans le texte Inefficace ou nul Aucun
Les 9 stratégies GEO de l'étude Princeton : efficacité relative Efficacité relative des 9 stratégies (étude Princeton, 2023) Stratégies efficaces (top 3) Résultats variables Inefficace Citer ses sources Top 1 Ajouter des statistiques Top 2 Citations d'experts Top 3 Style accessible Variable Fluidité du texte Variable Ton autoritaire Variable Optim. unicité Variable Termes techniques Variable Bourrage de mots-clés Inefficace Efficacité relative - les longueurs de barres sont indicatives, l'étude mesure le PAWC (Position-Adjusted Word Count)
Source : Aggarwal et al., Princeton / IIT Delhi / Georgia Tech / Allen Institute for AI, novembre 2023

Le gain global des meilleures stratégies combinées atteint +30 à +40 % d'amélioration du PAWC. Ce n'est pas un gain marginal. C'est la différence entre un contenu qui n'apparaît pratiquement jamais dans les réponses IA et un contenu qui est régulièrement cité.

Pourquoi "Cite Sources" est la stratégie n°1

Ce résultat mérite qu'on s'y attarde, parce qu'il n'est pas intuitif au premier abord. On aurait pu s'attendre à ce que la fluidité du texte ou sa lisibilité soient les premiers facteurs. Ce sont les citations qui gagnent.

L'explication la plus probable tient à la façon dont les LLMs ont été entraînés. Leurs corpus d'apprentissage incluent une part massive de textes académiques, journalistiques et encyclopédiques, où la pratique de citer ses sources est la norme. Un texte qui cite ses sources "ressemble" à un contenu de qualité aux yeux d'un modèle entraîné sur ce type de données.

Il y a aussi une hypothèse fonctionnelle : les moteurs génératifs qui utilisent une architecture RAG (Retrieval-Augmented Generation) récupèrent des passages de sources externes avant de composer leur réponse. Un contenu qui cite lui-même des sources reconnues peut bénéficier d'une double légitimité : celle de la source citante et celle des sources citées.

En pratique, ça se traduit par quelque chose de très concret : écrire "les experts recommandent..." ne vaut rien. Écrire "selon l'étude de Aggarwal et al. (Princeton, 2023), les stratégies de citation augmentent la visibilité IA de +40 %..." est d'une toute autre nature pour un LLM.

La variabilité selon les domaines : un point sous-estimé

L'un des apports les plus importants de cette étude, souvent passé sous silence dans les résumés qu'on trouve en ligne, est la variabilité des résultats selon le domaine thématique. La stratégie "Cite Sources" est top 1 en finance et en droit, mais son effet est moins prononcé en culture ou en lifestyle. La stratégie "Easy to Understand" fonctionne bien en éducation mais peu en technologie.

Ce n'est pas un détail mineur. Ça signifie qu'il n'existe pas de recette GEO universelle. Un site santé et un site e-commerce n'ont pas les mêmes leviers. C'est précisément pourquoi les tests terrain sur ses propres contenus restent indispensables : les études donnent des tendances, l'expérimentation donne les ordres de grandeur réels pour un contexte spécifique.

Ce que ça implique pour votre pratique : ne pas appliquer mécaniquement le top 3 de Princeton à tous vos contenus. Identifier d'abord dans quel domaine thématique vous vous situez, puis adapter. Un site de conseils juridiques et un site de recettes de cuisine ne partagent pas les mêmes signaux de crédibilité aux yeux d'un LLM.

Le keyword stuffing : la confirmation définitive

Le keyword stuffing est la seule stratégie pour laquelle les chercheurs obtiennent un résultat uniformément nul ou légèrement négatif, tous domaines confondus. C'est une confirmation importante, parce qu'elle valide une hypothèse sur la façon dont les LLMs évaluent un texte.

Un moteur de recherche classique, avant les mises à jour Panda et Penguin de Google, pouvait être abusé par la densité de mots-clés. Un LLM ne fonctionne pas sur une correspondance de termes : il évalue la cohérence sémantique, la densité informationnelle et la structure argumentative d'un texte. Répéter "meilleur CRM pour PME" quinze fois dans un article n'ajoute aucune information. Le modèle le détecte, et ça ne l'aide pas à décider si votre contenu vaut d'être cité.

Ce qu'on peut en appliquer concrètement en 2026

L'étude date de 2023 et les modèles ont changé. Mais certaines conclusions restent solides parce qu'elles tiennent à la logique même de l'apprentissage automatique sur des corpus textuels, pas à une version spécifique d'un modèle.

Ce qui reste valable :

  • Citer ses sources dans le corps du texte, avec attribution précise (auteur, institution, date), est le signal le plus robuste.
  • Intégrer des données chiffrées précises et sourcées augmente la visibilité, confirmé depuis par Digital Bloom (+22 %) et Princeton (+30-40 %).
  • Les citations d'experts nommés avec leur titre ou leur affiliation ont un effet mesurable, confirmé par Digital Bloom (+37 %).
  • Le keyword stuffing est une perte de temps en GEO.
  • Les résultats varient selon le secteur : tester sur ses propres contenus est indispensable.

Ce qui mérite d'être retesté sur les modèles actuels :

  • L'effet de "Easy to Understand" sur les modèles 2025-2026 qui comprennent des textes complexes beaucoup mieux que ceux de 2023.
  • L'effet de "Technical Terms" sur les modèles spécialisés qui sont apparus depuis (modèles médicaux, juridiques, financiers).
  • L'effet de "Authoritative Tone" dans un contexte où les modèles ont été entraînés à être plus prudents et nuancés (RLHF, Constitutional AI).

Les limites de l'étude à garder en tête

L'étude est sérieuse, mais elle a des limites que tout professionnel doit avoir à l'esprit avant d'en faire une Bible.

  • Corpus anglophone. Les 10 000 requêtes testées sont en anglais. Les LLMs traitent les langues différemment, et les signaux de crédibilité peuvent varier selon la langue et la culture éditoriale.
  • Modèles de 2023. Les premières versions de Bing Chat et Perplexity ont depuis été largement remplacées. GPT-4o, Gemini 2.0, Claude 3.5 Sonnet et leurs successeurs ont des architectures et des données d'entraînement très différentes.
  • Google AI Overviews absent. Les AIO n'existaient pas lors de l'étude. Leur fonctionnement, notamment l'overlap croissant avec le top 10 organique mesuré par BrightEdge, introduit des dynamiques que cette étude ne couvre pas.
  • Mesure des effets isolés. Chaque stratégie a été testée séparément. L'effet de combinaisons de stratégies n'est pas mesuré dans cette étude. En pratique, on applique plusieurs signaux simultanément.
  • Pas de test sur la durée. Le PAWC est mesuré à un instant T. L'étude ne dit rien sur la persistance des effets dans le temps, ni sur la volatilité forte que d'autres études récentes ont depuis documentée (59,3 % de citation drift mensuel sur les AI Overviews selon Digital Bloom).

Source originale

L'étude est disponible librement en accès ouvert :

La lecture du papier complet vaut le détour pour qui veut comprendre la méthodologie PAWC en détail. La section "Results and Discussion" (pages 8-14 de la version arxiv) est particulièrement instructive sur la variabilité par domaine.

Études complémentaires :