Novembre 2023. ChatGPT a un an, les AI Overviews de Google n'existent pas encore, et la plupart des professionnels du SEO regardent les moteurs génératifs comme une curiosité dont on ne sait pas encore quoi faire. C'est dans ce contexte qu'une équipe de chercheurs publie sur arxiv un papier d'une quarantaine de pages avec un titre simple : GEO: Generative Engine Optimization.
L'étude ne fait pas que décrire un phénomène. Elle le quantifie, le méthodologise, et propose un cadre expérimental pour tester ce qui fonctionne. C'est la raison pour laquelle elle reste, en 2026, la référence académique la plus citée sur le sujet, même si les modèles ont considérablement évolué depuis.
Les auteurs et leur positionnement
L'étude est signée Pranjal Aggarwal, Vishvak Murahari et leurs co-auteurs, issus de quatre institutions : l'IIT Delhi (Institut Indien de Technologie), Princeton University, Georgia Tech et l'Allen Institute for AI. Ce n'est pas une étude produite par un outil SEO avec un angle marketing : c'est de la recherche académique indépendante, peer-reviewed, publiée en version définitive dans les actes de l'ACM SIGKDD 2024, l'une des conférences les plus sélectives en data mining et apprentissage automatique.
Ce contexte est important pour interpréter les résultats. Les chercheurs n'ont aucun intérêt commercial à sur-vendre l'efficacité du GEO. Leurs conclusions sont mesurées, nuancées, et accompagnées des limites méthodologiques habituelles de la recherche académique.
La méthodologie : comment mesurer la visibilité dans une réponse IA
Le problème de fond quand on veut mesurer le GEO : contrairement au SEO où la position dans les résultats est un chiffre clair, la visibilité dans une réponse IA est floue. Soit votre contenu est cité, soit il est paraphrasé, soit il est absent. Et même quand il est cité, sa position dans la réponse varie.
Les chercheurs ont conçu une métrique spécifique pour contourner ce problème : le Position-Adjusted Word Count (PAWC). Elle mesure deux choses simultanément :
- La présence : quelle part du contenu d'une source se retrouve dans la réponse générée.
- La position : est-ce que cette présence intervient en début de réponse (plus de poids) ou en fin (moins de poids).
Un contenu cité en première phrase de la réponse IA aura un PAWC plus élevé qu'un contenu mentionné en passant en fin de réponse. C'est une métrique qui tient compte de la façon dont les humains lisent : on retient surtout le début.
Le corpus de test
Les chercheurs ont constitué un corpus de 10 000 requêtes réparties sur plusieurs domaines thématiques : finances, droit, santé, technologie, informatique, culture et éducation. Chaque requête a été soumise à plusieurs moteurs génératifs disponibles en 2023, dont les premières versions de Bing Chat (basé sur GPT-4) et Perplexity.
Pour chaque requête, ils ont récupéré les sources utilisées par le moteur pour générer sa réponse, appliqué une des 9 stratégies à ces sources, puis mesuré l'évolution du PAWC avant et après modification.
Les 9 stratégies et ce qu'elles produisent
Les chercheurs ont testé 9 approches distinctes, chacune appliquée de façon isolée pour mesurer son effet propre. Voici les résultats :
| Stratégie | Ce qu'elle consiste à faire | Effet sur le PAWC | Domaines où elle est la plus efficace |
|---|---|---|---|
| Cite Sources | Ajouter des citations en ligne et des références à des sources reconnues dans le corps du texte | Fort, top 1 global | Finance, droit, santé, technologie |
| Add Statistics | Intégrer des données chiffrées précises, des pourcentages, des résultats d'études | Fort, top 2 global | Finance, technologie, sciences |
| Add Quotations | Ajouter des citations directes attribuées à des experts identifiés (nom + titre ou affiliation) | Fort, top 3 global | Éducation, culture, santé |
| Easy to Understand | Simplifier le vocabulaire, raccourcir les phrases, réduire la complexité syntaxique | Modéré, variable | Culture, éducation, lifestyle |
| Fluency Optimization | Améliorer la fluidité globale du texte, corriger les maladresses de style | Modéré, variable | Éducation, culture |
| Authoritative Tone | Adopter un registre d'autorité dans la formulation (affirmatif, pas hypothétique) | Variable selon domaine | Droit, santé |
| Uniqueness Optimization | Produire un contenu original qui n'est pas une reformulation de ce qui existe déjà | Variable selon domaine | Tous, mais effet difficile à isoler |
| Technical Terms | Intégrer le vocabulaire spécialisé reconnu dans le domaine concerné | Variable selon domaine | Technologie, informatique, médecine |
| Keyword Stuffing | Répéter intensivement les mots-clés cibles dans le texte | Inefficace ou nul | Aucun |
Le gain global des meilleures stratégies combinées atteint +30 à +40 % d'amélioration du PAWC. Ce n'est pas un gain marginal. C'est la différence entre un contenu qui n'apparaît pratiquement jamais dans les réponses IA et un contenu qui est régulièrement cité.
Pourquoi "Cite Sources" est la stratégie n°1
Ce résultat mérite qu'on s'y attarde, parce qu'il n'est pas intuitif au premier abord. On aurait pu s'attendre à ce que la fluidité du texte ou sa lisibilité soient les premiers facteurs. Ce sont les citations qui gagnent.
L'explication la plus probable tient à la façon dont les LLMs ont été entraînés. Leurs corpus d'apprentissage incluent une part massive de textes académiques, journalistiques et encyclopédiques, où la pratique de citer ses sources est la norme. Un texte qui cite ses sources "ressemble" à un contenu de qualité aux yeux d'un modèle entraîné sur ce type de données.
Il y a aussi une hypothèse fonctionnelle : les moteurs génératifs qui utilisent une architecture RAG (Retrieval-Augmented Generation) récupèrent des passages de sources externes avant de composer leur réponse. Un contenu qui cite lui-même des sources reconnues peut bénéficier d'une double légitimité : celle de la source citante et celle des sources citées.
En pratique, ça se traduit par quelque chose de très concret : écrire "les experts recommandent..." ne vaut rien. Écrire "selon l'étude de Aggarwal et al. (Princeton, 2023), les stratégies de citation augmentent la visibilité IA de +40 %..." est d'une toute autre nature pour un LLM.
La variabilité selon les domaines : un point sous-estimé
L'un des apports les plus importants de cette étude, souvent passé sous silence dans les résumés qu'on trouve en ligne, est la variabilité des résultats selon le domaine thématique. La stratégie "Cite Sources" est top 1 en finance et en droit, mais son effet est moins prononcé en culture ou en lifestyle. La stratégie "Easy to Understand" fonctionne bien en éducation mais peu en technologie.
Ce n'est pas un détail mineur. Ça signifie qu'il n'existe pas de recette GEO universelle. Un site santé et un site e-commerce n'ont pas les mêmes leviers. C'est précisément pourquoi les tests terrain sur ses propres contenus restent indispensables : les études donnent des tendances, l'expérimentation donne les ordres de grandeur réels pour un contexte spécifique.
Le keyword stuffing : la confirmation définitive
Le keyword stuffing est la seule stratégie pour laquelle les chercheurs obtiennent un résultat uniformément nul ou légèrement négatif, tous domaines confondus. C'est une confirmation importante, parce qu'elle valide une hypothèse sur la façon dont les LLMs évaluent un texte.
Un moteur de recherche classique, avant les mises à jour Panda et Penguin de Google, pouvait être abusé par la densité de mots-clés. Un LLM ne fonctionne pas sur une correspondance de termes : il évalue la cohérence sémantique, la densité informationnelle et la structure argumentative d'un texte. Répéter "meilleur CRM pour PME" quinze fois dans un article n'ajoute aucune information. Le modèle le détecte, et ça ne l'aide pas à décider si votre contenu vaut d'être cité.
Ce qu'on peut en appliquer concrètement en 2026
L'étude date de 2023 et les modèles ont changé. Mais certaines conclusions restent solides parce qu'elles tiennent à la logique même de l'apprentissage automatique sur des corpus textuels, pas à une version spécifique d'un modèle.
Ce qui reste valable :
- Citer ses sources dans le corps du texte, avec attribution précise (auteur, institution, date), est le signal le plus robuste.
- Intégrer des données chiffrées précises et sourcées augmente la visibilité, confirmé depuis par Digital Bloom (+22 %) et Princeton (+30-40 %).
- Les citations d'experts nommés avec leur titre ou leur affiliation ont un effet mesurable, confirmé par Digital Bloom (+37 %).
- Le keyword stuffing est une perte de temps en GEO.
- Les résultats varient selon le secteur : tester sur ses propres contenus est indispensable.
Ce qui mérite d'être retesté sur les modèles actuels :
- L'effet de "Easy to Understand" sur les modèles 2025-2026 qui comprennent des textes complexes beaucoup mieux que ceux de 2023.
- L'effet de "Technical Terms" sur les modèles spécialisés qui sont apparus depuis (modèles médicaux, juridiques, financiers).
- L'effet de "Authoritative Tone" dans un contexte où les modèles ont été entraînés à être plus prudents et nuancés (RLHF, Constitutional AI).
Les limites de l'étude à garder en tête
L'étude est sérieuse, mais elle a des limites que tout professionnel doit avoir à l'esprit avant d'en faire une Bible.
- Corpus anglophone. Les 10 000 requêtes testées sont en anglais. Les LLMs traitent les langues différemment, et les signaux de crédibilité peuvent varier selon la langue et la culture éditoriale.
- Modèles de 2023. Les premières versions de Bing Chat et Perplexity ont depuis été largement remplacées. GPT-4o, Gemini 2.0, Claude 3.5 Sonnet et leurs successeurs ont des architectures et des données d'entraînement très différentes.
- Google AI Overviews absent. Les AIO n'existaient pas lors de l'étude. Leur fonctionnement, notamment l'overlap croissant avec le top 10 organique mesuré par BrightEdge, introduit des dynamiques que cette étude ne couvre pas.
- Mesure des effets isolés. Chaque stratégie a été testée séparément. L'effet de combinaisons de stratégies n'est pas mesuré dans cette étude. En pratique, on applique plusieurs signaux simultanément.
- Pas de test sur la durée. Le PAWC est mesuré à un instant T. L'étude ne dit rien sur la persistance des effets dans le temps, ni sur la volatilité forte que d'autres études récentes ont depuis documentée (59,3 % de citation drift mensuel sur les AI Overviews selon Digital Bloom).
Source originale
L'étude est disponible librement en accès ouvert :
- Version arxiv (novembre 2023) : arxiv.org/abs/2311.09735
- Version définitive ACM SIGKDD 2024 : dl.acm.org/doi/10.1145/3637528.3671900
La lecture du papier complet vaut le détour pour qui veut comprendre la méthodologie PAWC en détail. La section "Results and Discussion" (pages 8-14 de la version arxiv) est particulièrement instructive sur la variabilité par domaine.
- Digital Bloom (2025) : ce que les LLMs regardent vraiment pour vous citer. Confirme et approfondit les signaux identifiés par Princeton avec des données 2025.
- LLM Research Lab (2026) : les vrais facteurs de classement en GEO. Les corrélations les plus récentes entre signaux et visibilité IA.
- Guide pratique : citer ses sources pour booster sa visibilité IA. Comment appliquer la stratégie n°1 de Princeton concrètement.
- Retour au hub : toutes les études GEO