Suivi manuel des citations LLM : le protocole pas-à-pas sans outil payant

Ce qu'on retient

Les outils de tracking GEO du marché (Peec.ai, Profound, Otterly, AthenaHQ) coûtent plusieurs centaines d'euros par mois et reposent souvent sur des appels API qui ne reproduisent pas l'expérience réelle d'un utilisateur. Un protocole manuel mensuel reste utile en parallèle ou en remplacement quand le budget ne suit pas.
Le protocole tient en quatre étapes : construire une liste de 30 à 50 prompts représentatifs, choisir les engines à tester, exécuter chaque prompt et noter le résultat dans une grille standardisée, analyser les tendances mois après mois.
L'effort est de 2 à 4 heures par mois pour 40 prompts sur 4 engines. Au prix d'une demi-journée mensuelle, on obtient une vision réelle (pas via API) de sa visibilité IA et un historique exploitable.
Cette page est complémentaire aux autres ressources mesure du site : pour le tracking automatisé via outils payants voir outils de tracking GEO, pour la mesure analytique du trafic IA voir mesurer sa visibilité IA.

Pourquoi un protocole manuel reste pertinent en 2026

L'argument évident contre le manuel, c'est le temps. Pourquoi consacrer une demi-journée chaque mois à interroger ChatGPT et Perplexity quand un outil comme Peec.ai ou Profound peut le faire en automatique sur 500 prompts par jour ?

La réponse tient en trois points concrets, déjà détaillés dans notre comparatif des outils de tracking GEO : la plupart de ces outils interrogent les LLMs via leur API publique, pas via l'interface utilisateur réelle. Or l'API ChatGPT et l'interface ChatGPT.com ne donnent pas les mêmes réponses (modèles différents, prompt système différent, accès web différent). Ensuite, les outils tournent à des cadences fixes qui peuvent louper la variabilité naturelle des réponses LLM. Enfin, l'abonnement coûte entre 200 et 800 euros par mois selon la couverture, ce qui n'est pas tenable pour beaucoup de TPE et PME ou d'agences avec un portefeuille de petits clients.

Le protocole manuel ne remplace pas un outil dédié quand on suit 500 prompts pour 50 marques. Il a sa place quand on suit un site, ou quand on veut un complément de vérité terrain à un outil automatisé.

Quand préférer le protocole manuel

Vous suivez un seul site (le vôtre ou un client unique).
Votre liste de prompts cibles fait moins de 60 entrées.
Vous voulez un historique reproductible que vous comprenez de A à Z.
Le budget outil n'est pas validé ou pas une priorité court terme.
Vous voulez vérifier ponctuellement les résultats d'un outil automatisé.

Construire la liste de prompts à suivre

C'est l'étape qui détermine la qualité de tout ce qui suit. Une liste mal construite donne un suivi qui ne reflète pas la réalité du marché. Une liste bien construite fait apparaître des angles morts et des opportunités qu'on ne voyait pas.

Cibler 30 à 50 prompts, pas plus

En manuel, au-delà de 50 prompts, le temps mensuel devient prohibitif et la qualité du remplissage chute. Une liste de 40 prompts représentatifs est largement suffisante pour produire une tendance fiable mois après mois. Mieux vaut 30 prompts bien choisis qu'on suit consciencieusement que 200 prompts bâclés.

Quatre catégories de prompts à équilibrer

Pour un suivi qui couvre les vrais comportements utilisateurs, on équilibre la liste sur quatre types de requêtes. Chaque catégorie répond à une question business différente.

Catégorie	Question business	Exemple sur un site dédié au CRM
Informationnels génériques	Suis-je cité quand on demande à comprendre mon domaine ?	« Qu'est-ce qu'un CRM ? », « comment choisir un CRM pour PME »
Comparatifs	Suis-je présent dans les listes de recommandations ?	« Meilleurs CRM pour TPE en 2026 », « alternatives à Salesforce »
Transactionnels / décision	Suis-je cité quand le prospect est en phase d'achat ?	« Quel CRM choisir pour 10 commerciaux », « CRM le plus simple à prendre en main »
Branded	Comment ma marque est-elle décrite quand on me cherche ?	« Avis [marque] », « [marque] vs [concurrent] », « est-ce que [marque] est fiable »

Une répartition équilibrée fonctionne bien : 12 prompts informationnels, 12 comparatifs, 10 transactionnels, 6 branded. C'est une recette de départ, pas une vérité absolue. Sur un site très B2B avec un cycle d'achat long, on poussera plus de transactionnels. Sur un site éditorial, plus d'informationnels.

Sourcer les prompts depuis les vraies recherches

La pire erreur consiste à inventer les prompts depuis son bureau. Les vraies recherches utilisateurs ont une formulation, un vocabulaire et une longueur souvent différents de ce qu'on imagine. Trois sources fiables pour s'inspirer :

Google Search Console. Les requêtes qui amènent du trafic à votre site sont une base solide. Filtrer celles qui ont un format question ou décisionnel.
Outils de keyword research classiques (Ahrefs, SEMrush, Ubersuggest). On y trouve les volumes, mais surtout les variations naturelles d'une intention.
Forums et Reddit. Les LLMs s'entraînent dessus, et les utilisateurs y posent leurs questions exactement comme ils les poseront à un assistant IA. C'est le format le plus naturel à reproduire.
L'autocomplétion ChatGPT et Perplexity elles-mêmes : tapez le début d'une question et observez les suggestions. Elles reflètent ce que d'autres utilisateurs ont demandé.

Verrouiller la liste de prompts pour 6 mois

Une fois la liste construite, on n'y touche plus pendant au moins 6 mois. Sinon le suivi mensuel n'est plus comparable d'un mois à l'autre. Si une nouvelle catégorie de prompts émerge en cours d'année, on la suit en parallèle dans une seconde liste, sans toucher à la première. Cette discipline est ce qui transforme une mesure ponctuelle en historique exploitable.

Choisir les engines à tester

En 2026, cinq engines couvrent l'essentiel du marché grand public : ChatGPT, Perplexity, Google AI Overviews, Gemini et Claude. À cela s'ajoute Le Chat de Mistral qui prend de l'ampleur sur le marché francophone. Tester les cinq premiers est suffisant pour un suivi représentatif. Ajouter Le Chat est pertinent pour un site français visant un public francophone.

Spécificités à connaître pour le suivi manuel

Chaque engine a un comportement différent qu'il faut intégrer dans le protocole. Pour le détail des optimisations spécifiques, voir nos guides : optimiser pour ChatGPT, optimiser pour Perplexity, optimiser pour Gemini, optimiser pour AI Overviews.

Engine	Mode de test recommandé	À surveiller
ChatGPT (gpt-4 / 5 selon disponibilité)	Compte connecté, navigation web activée, conversation neuve à chaque prompt	Le modèle utilisé : noter la version exacte dans la grille
Perplexity	Mode standard, sans focus sur Reddit ou autre source spécifique	Citation systématique de 4 à 6 sources : c'est l'engine le plus généreux
Google AI Overviews	Recherche Google classique, observer si l'AI Overview s'affiche en haut de SERP	L'overview ne s'affiche pas pour toutes les requêtes : noter sa présence/absence
Gemini	Compte Google connecté, modèle par défaut, prompt en français pour un site FR	Variabilité forte des réponses : deux essais consécutifs peuvent différer
Claude (Sonnet ou Haiku)	Compte Anthropic, mode chat standard sans system prompt personnalisé	Citations moins fréquentes que Perplexity, plus argumentées quand elles arrivent
Le Chat (Mistral)	Mode standard, intéressant pour le marché francophone	Citations encore peu structurées par rapport aux engines US

Pourquoi tester en navigation privée ou compte dédié

Les LLMs grand public personnalisent leurs réponses à partir de l'historique du compte. Un compte que vous utilisez quotidiennement biaisera les résultats vers vos sujets habituels. Deux options : utiliser un compte de test dédié au protocole et l'utiliser exclusivement pour ça, ou tester en mode incognito quand l'engine le permet. Cette discipline élimine un biais qui peut sembler mineur mais qui est réel sur les requêtes spécialisées.

La grille de notation

Une feuille de calcul (Google Sheets ou Excel) suffit. Un onglet par engine, une ligne par prompt, des colonnes standardisées. La règle d'or : si la grille n'est pas remplie de façon strictement identique d'un mois sur l'autre, le suivi n'a aucune valeur comparative.

Les colonnes minimales à inclure

Colonne	Valeurs possibles	Pourquoi c'est utile
Prompt	Texte exact de la requête	Verrouillé une fois, ne change plus
Catégorie	Info / Comparatif / Transactionnel / Branded	Permet de segmenter l'analyse
Date du test	JJ/MM/AAAA	Indispensable pour la lecture historique
Modèle / version	Ex : GPT-4, GPT-5, Claude Sonnet 4.6	Les changements de modèle expliquent souvent les variations
Citation oui/non	Oui / Non	Le KPI principal : le taux de citation par catégorie
Type de mention	Lien cliquable / Mention sans lien / Source listée	Une citation sans lien a une valeur business différente
Position dans la réponse	1ʳᵉ source, 2ᵉ, 3ᵉ, etc.	Être cité en premier compte plus que d'être cité 5ᵉ
Sentiment	Positif / Neutre / Négatif	Une citation négative peut faire plus de mal que de bien
Concurrents cités	Liste des autres marques mentionnées	Calcul du share of voice par rapport à la concurrence
URL exacte citée	Lien complet de la page citée sur votre site	Identifie quelles pages sont les plus citables
Notes libres	Observations qualitatives	Capture des détails qui ne rentrent pas dans les colonnes

Conseil format

Une feuille de calcul Google Sheets avec un onglet par engine permet ensuite de produire des graphiques de tendance facilement. Coloration conditionnelle sur la colonne « Citation oui/non » pour visualiser d'un coup d'œil le taux de citation. Un onglet de synthèse qui agrège les chiffres mensuels par engine et catégorie, pour suivre les tendances. Le tout reste exportable, partageable et indépendant de tout outil payant.

Cadence et exécution

Une fois par mois, jour fixe

Le premier lundi du mois, par exemple. La régularité prime sur la fréquence. Mensuel est le meilleur compromis entre charge de travail et capacité à voir des tendances. Hebdomadaire alourdit trop, trimestriel laisse passer trop de variations.

Bloquer une plage de 2 à 4 heures

Pour 40 prompts à tester sur 4 engines, on est sur une plage typique de 2 à 4 heures. Ce n'est pas optimisable au-delà : chaque prompt demande lecture, identification de la citation, notation, capture éventuelle. Tenter de faire cela en multitâche ou en parallèle d'autres réunions dégrade la qualité.

L'ordre d'exécution recommandé

Commencer par Perplexity et AI Overviews (sources visibles immédiatement, plus rapide à noter).
Enchaîner avec ChatGPT (parfois plus lent à répondre selon la charge serveur).
Finir par Gemini et Claude (variabilité plus forte, on peut faire 2 essais sur les prompts critiques).
Sauvegarder la feuille à chaque engine terminé.

Capture d'écran systématique sur les requêtes branded

Les requêtes branded méritent une capture d'écran archivée chaque mois, pas juste une notation. La raison : si un mois on découvre que le LLM raconte quelque chose de faux ou problématique sur la marque, on a besoin de la trace exacte pour corriger. Pour les autres catégories, la capture est optionnelle et peut être réservée aux cas où une nuance ne tient pas dans la grille.

Lire les résultats

Le tableau de bord se résume à quatre indicateurs lisibles, calculés au mois et comparés sur 3 à 6 mois roulants.

Le taux de citation global

Nombre de prompts où vous êtes cité, divisé par le nombre total de prompts testés. Calculé par engine et tous engines confondus. Une cible saine au démarrage du suivi : ne pas se fixer un chiffre absolu, mais une trajectoire (en hausse mois après mois). Dans les premières mesures, beaucoup de sites découvrent qu'ils sont cités sur moins de 10 % des prompts qu'ils ciblent. C'est le point de départ, pas l'échec.

Le taux de citation par catégorie

Plus parlant que le global. Vous pouvez avoir un excellent taux sur les requêtes branded (logique, ce sont les vôtres) et un taux quasi nul sur les comparatifs ou transactionnels. Cette segmentation oriente la production de contenu : si vous êtes absent des comparatifs, c'est que vous n'avez pas (ou peu) de pages comparatives optimisées.

Le share of voice par engine

Pour chaque engine, comparer votre nombre de citations à celui de vos 3 ou 4 concurrents les plus cités sur la même liste de prompts. Cela donne une mesure relative qui résiste aux fluctuations globales du marché. Un share of voice qui monte mois après mois est un signal positif, même si le taux de citation absolu reste modeste.

L'évolution de la position dans la réponse

Être cité en première position vs en quatrième dans une réponse Perplexity n'a pas le même impact comportemental. Suivre la position moyenne (parmi les prompts où vous êtes cité) permet de détecter une amélioration qualitative même quand le taux de citation reste stable.

Ce qu'on ne lit pas dans la grille

Le protocole manuel mesure la citation, pas l'impact business. Pour mettre en regard les citations avec le trafic, le brand search lift et les conversions, il faut croiser cette grille avec GA4 et GSC. Voir notre page mesurer sa visibilité IA pour la partie analytique. Le suivi manuel et le suivi analytique se complètent, ils ne se remplacent pas.

Limites du protocole manuel

Aucune méthode n'est neutre. Les limites du protocole manuel sont à connaître pour interpréter les résultats correctement et pour décider, à terme, s'il faut basculer vers un outil automatisé.

La variabilité des réponses LLM. Deux exécutions du même prompt à 5 minutes d'intervalle peuvent donner des réponses sensiblement différentes, surtout sur Gemini et ChatGPT. Le protocole manuel ne capte qu'un instantané. Pour des prompts critiques, faire 2 essais et noter la modalité majoritaire compense partiellement.
L'effet du compte. Même en navigation privée, le LLM peut adapter ses réponses selon la géolocalisation IP, la langue système et d'autres signaux. Tester depuis le même appareil et la même connexion améliore la comparabilité, sans l'éliminer complètement.
L'évolution des modèles. Quand OpenAI passe de GPT-4 à GPT-5, ou quand Anthropic publie Claude Sonnet 4.6, les réponses changent. C'est pour ça que la colonne « Modèle/version » est obligatoire dans la grille : elle explique les ruptures de tendance.
Le biais de prompt. Une formulation un peu différente peut changer complètement la réponse. C'est une limite inhérente à toute mesure GEO, manuelle ou automatique. Verrouiller la liste de prompts mois après mois est la seule réponse opérationnelle.
L'échelle. Au-delà de 60 prompts ou de 5 marques à suivre, le manuel devient ingérable. Un outil automatisé devient nécessaire. Ce protocole se justifie sur un périmètre cadré.

Malgré ces limites, exécuté avec discipline pendant 6 à 12 mois, le protocole donne une vision réelle, reproductible et défendable de la position d'un site dans les LLMs. C'est plus qu'aucun outil n'offre actuellement à zéro euro de licence.

Sources

Search Engine Land · Generative engine optimization (GEO) : How to win AI mentions - article fondateur sur le GEO et les principes de base de la mesure de citations.
Search Engine Land · 12 new KPIs for the generative AI search era - cadre des KPIs GEO en trois niveaux.
MaximusLabs · 12 GEO KPIs : Formulas, Benchmarks, and Cadence Guide - méthodes de mesure et cadences recommandées.
Aggarwal et al. (Princeton) · GEO : Generative Engine Optimization - papier fondateur académique sur les techniques d'optimisation pour les engines génératifs.

Pages liées sur le site : outils de tracking GEO automatisés · mesurer sa visibilité IA dans GA4 et GSC · les KPIs GEO en détail · optimiser pour ChatGPT · optimiser pour Perplexity