Triangulation multi-LLM — Scoring GRADE adapte
Le business plan du bar a vin "Terres & Fondues" avance des donnees de marche qui doivent etre validees avant soumission. Pour ce faire, un prompt de recherche identique a ete soumis a 3 modeles d'IA disposant de capacites de recherche web approfondie :
| Source | Mode | Format |
|---|---|---|
| ChatGPT | Deep Research | Markdown |
| Gemini | Deep Research | Markdown / DOCX |
| Mistral | Le Chat |
Le prompt est strictement identique entre les 3 LLMs. Cela garantit que les divergences observees proviennent des capacites de recherche et des biais de chaque modele — pas de differences dans la question posee.
Les 3 rapports sont ensuite analyses selon une methode de triangulation inspiree des revues systematiques en recherche, adaptee au contexte d'un business plan scolaire.
Chaque modele d'IA presente des forces et faiblesses specifiques qui influencent la fiabilite de ses reponses selon le type de donnee recherchee.
| Source | Forces | Faiblesses |
|---|---|---|
| ChatGPT | Donnees structurees, tendances de marche, citations academiques, rapports sectoriels | Hallucination possible de sources, tendance a affirmer avec certitude meme sans preuve forte |
| Gemini | Donnees locales/geographiques (acces ecosysteme Google : Maps, Business, avis), tourisme, donnees regionales | Verbeux, peut noyer les reponses precises dans le volume, parfois redondant |
| Mistral | Contexte francais natif, donnees INSEE/regionales, comprehension fine du tissu economique local | Capacite de recherche web plus limitee, moins de sources internationales |
Les 3 "experts" sont des modeles de langage, pas des analystes humains. Ils partagent potentiellement des donnees d'entrainement communes, ce qui signifie qu'un accord 3/3 peut refleter une source unique reprise par les 3 modeles, pas 3 confirmations independantes. C'est pourquoi la tracabilite des sources primaires est centrale dans cette methode.
Le business plan contient des affirmations de nature differente. Chaque type de donnee appelle une methode de validation distincte.
| Type | Description | Exemple | Methode |
|---|---|---|---|
| A | Fait verifiable (chiffre precis) | Population Annecy = 131 272 | Consensus numerique + source primaire |
| B | Existence binaire (oui/non) | Le Bock Cafe existe-t-il ? | Majorite 2/3 minimum |
| C | Statistique sourcee (enquete, etude) | 42% des Francais vont moins au resto | Tracabilite de la source originale |
| D | Evaluation qualitative (opinion) | Le positionnement est-il differenciant ? | Synthese ponderee des arguments |
Pour un chiffre de type A, 3 LLMs qui donnent le meme nombre ne constituent qu'une seule confirmation s'ils citent tous la meme page INSEE. En revanche, pour une evaluation de type D, 3 analyses convergentes avec des arguments differents constituent une vraie triangulation.
Le systeme de confiance s'inspire du framework GRADE (Grading of Recommendations, Assessment, Development and Evaluations), standard en recherche medicale pour evaluer la qualite des preuves. Il est adapte ici au contexte d'un business plan.
| Niveau | Visuel | Criteres |
|---|---|---|
| Haute | 3/3 concordants + source primaire identifiable + donnees recentes (<2 ans) | |
| Moderee | 2/3 concordants, ou 3/3 mais sans source primaire verifiable | |
| Faible | Sources divergentes, ou 1 seule source, ou donnees >3 ans | |
| Tres faible | Aucune source, ou hallucination probable, ou chiffre manifestement invente |
Facteurs qui degradent le score :
| Facteur | Impact |
|---|---|
| Source primaire non identifiable | −1 niveau |
| Donnees de plus de 3 ans | −1 niveau |
| Un seul LLM fournit le chiffre | −1 niveau |
| Suspicion d'hallucination | −2 niveaux |
Facteurs qui ameliorent le score :
| Facteur | Impact |
|---|---|
| Source primaire consultable (INSEE, CCI, OT Annecy) | +1 niveau |
| Corrobore par une source non-LLM | +1 niveau |
Contrairement a une ponderation fixe (ou chaque source aurait toujours le meme poids), la ponderation varie selon la section analysee. Le principe : chaque LLM est plus fiable dans son domaine de force.
| Section | ChatGPT | Gemini | Mistral | Justification |
|---|---|---|---|---|
| 1. Marche bars a vin | ●●● | ●●○ | ●●● | ChatGPT et Mistral forts sur tendances sectorielles FR |
| 2. PESTEL | ●●○ | ●●○ | ●●● | Mistral meilleur pour INSEE, donnees francaises officielles |
| 3. SWOT | ●●● | ●●● | ●●○ | Gemini fort sur tourisme (Google data), ChatGPT sur rapports |
| 4. Concurrence | ●●○ | ●●● | ●●○ | Gemini a l'avantage Google Maps/Business pour commerces locaux |
| 5. Positionnement | ●●● | ●●○ | ●●● | Evaluation qualitative — poids egal ChatGPT/Mistral |
| 6. Pricing | ●●○ | ●●● | ●●● | Gemini (avis/cartes en ligne) et Mistral (contexte prix FR) dominent |
| 7. Fournisseurs | ●○○ | ●●● | ●●○ | Verification d'existence = point fort Gemini (Google Business) |
| 8. Localisation | ●○○ | ●●● | ●●○ | Donnees geographiques/distances = ecosysteme Google |
Quand les 3 sources concordent, la ponderation n'a pas d'impact (le consensus l'emporte). La ponderation intervient quand les sources divergent — on donne alors plus de credit a la source la mieux placee.
Les regles de decision varient selon le type de donnee (cf. section 3).
3/3 concordants (ecart <10%) → Valeur mediane retenue, confiance Haute
2/3 concordants → Fourchette des 2 concordants, noter le divergent
3 valeurs distinctes → Moyenne ponderee (selon section 5), confiance Faible
Outlier >50% d'ecart → Signale, exclu du consensus
3/3 d'accord → Verdict direct
2/3 d'accord → Verdict du consensus, avec reserve
1/3 ou 0/3 → NON VERIFIABLE, verification manuelle requise
On ne vote pas : on remonte la chaine jusqu'a la source primaire
Si la source primaire est identique entre les 3 → un seul point de donnees (pas 3 confirmations independantes)
Si les sources primaires different mais concordent → vraie triangulation
Nombre de sources primaires distinctes reporte dans la colonne "Sources (n)"
Pas de vote — synthese argumentee
Ponderation par pertinence de la source au sujet (cf. section 5)
Mention explicite des arguments de chaque cote
Verdict = jugement pondere, pas un decompte
Chaque affirmation du business plan recoit un verdict et une action recommandee.
| Verdict | Definition |
|---|---|
| CONFIRME | Donnee validee par le consensus des sources. Peut etre conservee telle quelle dans le business plan. |
| PARTIELLEMENT CONFIRME | Correct dans l'esprit mais chiffre a ajuster, ou vrai dans un contexte legerement different. |
| CONTREDIT | Donnee fausse, obsolete, ou contredite par la majorite des sources. |
| NON VERIFIABLE | Aucune source fiable trouvee. Donnee potentiellement inventee ou trop ancienne. |
Actions recommandees :
| Action | Signification |
|---|---|
| Aucune | Garder tel quel dans le business plan |
| Ajuster | Corriger le chiffre (nouvelle valeur proposee dans les resultats) |
| Supprimer | Retirer l'affirmation du business plan |
| Sourcer | Garder mais ajouter la reference a la source primaire |
| Approfondir | Recherche manuelle necessaire (CCI, OT, terrain) |
Par souci de transparence, voici les limites connues de cette methode de validation :
Chaque affirmation du business plan est evaluee dans un tableau avec la structure suivante :
| Colonne | Contenu |
|---|---|
| Affirmation | La donnee telle qu'elle apparait dans le business plan |
| ChatGPT | Ce que ChatGPT dit (confirme, nuance, contredit, silencieux) |
| Gemini | Ce que Gemini dit |
| Mistral | Ce que Mistral dit |
| Consensus | Verdict final (CONFIRME / PARTIELLEMENT CONFIRME / CONTREDIT / NON VERIFIABLE) |
| Confiance | Niveau GRADE (●●●● a ●○○○) |
| Sources (n) | Nombre de sources primaires distinctes identifiees |
| Sources cles | References identifiables (INSEE, CCI, OT, etc.) |
| Action | Recommandation (Aucune / Ajuster / Supprimer / Sourcer / Approfondir) |
Les resultats complets sont disponibles sur la page des resultats consolides.