Terrain
L'arrêt d'Anatole
15 juin 2025 · mis à jour le 3 mai 2026
Anatole.ai répondait bien 99 fois sur 100. Les offices de tourisme étaient convaincus. Les tests étaient concluants. Je l'ai arrêté. Voici ce que j'ai appris en choisissant de fermer un produit qui marchait presque.
Dans une startup, la règle est simple. Quand ça marche, on pousse. Quand ça ne marche pas, on pivote. On ne s'arrête pas quand le produit fonctionne et que les clients signent.
Anatole marchait. C'est pour ça que je l'ai arrêté.
Anatole était un assistant conversationnel pour offices de tourisme. Il dialoguait avec les bases de données territoriales, rédigeait des contenus, répondait aux visiteurs. Techniquement, nous étions autour de 99% de réponses jugées qualitatives par nos testeurs. Les premiers clients signaient. L'équipe croyait au produit. Moi aussi.
Et pourtant, début 2025, j'ai fermé Anatole.ai. Pas par épuisement. Pas par manque de traction. Par lucidité.
Le sable mouvant
La première raison tient à une évidence que personne ne veut regarder en face. La technologie n'est pas encore prête, et l'écart entre les modèles de base et les produits métier change tous les trois mois.
En dix-huit mois, nous avons refait Anatole trois fois. Trois refontes complètes pour suivre les évolutions de ChatGPT, de Claude, des outils de RAG. Chaque refonte, c'était des semaines de travail qu'une mise à jour du modèle de base ridiculisait en une journée.
Le 31 octobre 2024, OpenAI a intégré la recherche web à ChatGPT.[1] Du jour au lendemain, des fonctionnalités que nous avions mis des mois à construire devenaient inutiles. Nos systèmes de vérification croisée de l'information, notre RAG sur les données touristiques, notre module de citations : remplacés en une mise à jour par l'éditeur du modèle que nous utilisions.
Bâtir un produit métier sur un substrat qui bouge tous les trimestres, c'est coder dans le sable. On peut le faire une fois. On peut le faire deux fois. À la troisième, il faut se demander si ce n'est pas le sable qui n'est pas prêt à porter une maison.
Les 1% qui mentent
La deuxième raison est statistique. Elle m'obsède encore.
Une IA qui répond correctement 99% du temps est une IA qui ment une fois sur cent. Dans un contexte anodin, ce n'est rien. Dans le tourisme de montagne, c'est la différence entre un visiteur rassuré et un corps à chercher.
Un conseil sur un itinéraire de ski de randonnée qui ignore le bulletin d'avalanche du jour. Une ouverture de col indiquée comme libre alors qu'elle est fermée pour travaux. Un horaire de dernier téléphérique décalé d'une heure. Ces erreurs ne sont pas théoriques. Elles sont celles que nous rencontrions dans les tests, à bas bruit, dans la marge.
Le problème, c'est que les 99% de bonnes réponses rendent les 1% indétectables. Quand presque tout est juste, l'utilisateur baisse sa garde. Il ne vérifie plus. C'est exactement là que la rare erreur fait le plus de dégâts.
Une fiabilité élevée en contexte anodin est un bénéfice. Une fiabilité élevée en contexte critique est un piège. Ce n'est pas la même compétence qui mesure les deux.
Et deux ans plus tard, le problème n'a pas disparu. GPT-5.4, le modèle le plus récent d'OpenAI au moment où j'écris, affiche encore plus de 10% d'hallucinations factuelles sur les tâches de résumé, selon le benchmark Vectara.[2] Les modèles marketés comme les plus intelligents, ceux qui raisonnent, hallucinent davantage que les modèles simples sur les tâches factuelles de base. Le progrès est réel sur le raisonnement. Sur la factualité en contexte critique, il est beaucoup plus lent que le discours ambiant ne le laisse croire.
Qui paie quand la machine se trompe
La troisième raison est juridique, et elle est la plus glaçante.
En février 2024, un tribunal canadien a condamné Air Canada à rembourser un passager à qui le chatbot de la compagnie avait promis, à tort, un tarif deuil rétroactif.[3] La compagnie avait plaidé que le chatbot était une entité juridique distincte. Le tribunal a balayé l'argument d'une phrase : il doit être évident pour Air Canada qu'elle est responsable de toute l'information présente sur son site web, que cette information vienne d'une page statique ou d'un agent conversationnel.
Dans l'Union européenne, le cadre se durcit. La directive sur la responsabilité du fait des produits défectueux, révisée en 2024, classe désormais les logiciels d'IA comme des produits.[4] Pour obtenir réparation, une victime n'a plus à décortiquer l'algorithme. Elle doit prouver le dommage et le défaut. La charge de la preuve s'inverse. L'AI Act, entré en application par étapes depuis août 2024, ajoute ses propres obligations pour les systèmes à haut risque.[5]
Je posais la question en privé à mes équipes. Quand Anatole donnera un mauvais conseil d'itinéraire à un randonneur qui se blessera, qui sera responsable ? Le modèle d'OpenAI ? L'équipe qui a développé le RAG ? L'office de tourisme qui a signé le contrat ? Le dirigeant, c'est-à-dire moi ?
La réponse honnête, c'est que personne ne savait. Et que dans le doute, les juges regardent le dernier maillon de la chaîne qui a la surface commerciale visible. C'est-à-dire l'office de tourisme. C'est-à-dire nous.
Arrêter est une compétence
L'argument pour continuer était facile. Le marché avance, nos concurrents avancent, ceux qui partent les premiers prennent les parts. On répétait ce mantra dans les salles de levée, dans les articles, dans les keynotes. Tenir, itérer, survivre jusqu'à ce que la techno rattrape la vision.
Sauf que le vrai risque, dans un environnement qui change à cette vitesse, n'est pas d'arrêter trop tôt. C'est de continuer trop longtemps par inertie, par orgueil, par peur d'avoir investi pour rien.
J'ai fermé Anatole pour trois raisons qui tiennent en trois phrases. La technologie n'est pas prête, et nous courrions après des évolutions trop rapides. L'usage critique du tourisme de montagne n'admet pas 1% d'erreur, et nous n'avions pas de voie crédible vers le zéro. Le cadre juridique est devenu assez clair pour que je sache que la prochaine victime d'une hallucination serait notre problème, pas celui du fournisseur du modèle.
Dans les salles où je forme les professionnels du tourisme, je vois chaque semaine des dirigeants qui hésitent à lancer leur propre chatbot. Ils ont raison d'hésiter. Je ne les pousse pas. Je leur raconte Anatole.
Les valeurs que cela m'a enseignées ne sont pas des slogans. Fiabilité avant rapidité. Sécurité avant performance. Humanité avant automatisation. Elles sont nées d'un produit qui marchait et que j'ai arrêté.
La vraie compétence de l'ère de l'IA n'est pas de bâtir vite. C'est de savoir arrêter ce qui marche presque.
Sources
- OpenAI, « Introducing ChatGPT search », 31 octobre 2024.
- Vectara, « Hallucination Leaderboard, HHEM 2.1 / enterprise dataset », mise à jour mars 2026 : tous les modèles de raisonnement testés (GPT-5, Claude Sonnet 4.5, Grok-4, Gemini-3-Pro) dépassent 10% d'hallucinations sur les tâches de résumé.
- Civil Resolution Tribunal (Colombie-Britannique), Moffatt v. Air Canada, 14 février 2024. Voir Le Monde Informatique, « L'hallucination du chatbot d'Air Canada », 21 février 2024.
- Directive (UE) 2024/2853 du Parlement européen et du Conseil du 23 octobre 2024 relative à la responsabilité du fait des produits défectueux. Texte sur EUR-Lex.
- Règlement (UE) 2024/1689 du 13 juin 2024 (AI Act). Commission européenne, « Législation sur l'IA ».