
« L'IA coûte plus cher qu'un salarié » : le problème n'est pas le prix. C'est l'absence de plan.
Microsoft coupe Claude Code, Uber crame son budget IA en 4 mois. Le vrai problème n'est pas le prix, c'est l'absence de gouvernance achats.
Sur cette page
La semaine a été riche en gros titres : Microsoft coupe l'accès interne à Claude Code pour toute une division (Windows, Microsoft 365, Outlook, Teams, Surface) d'ici fin juin. Uber a cramé l'intégralité de son budget IA 2026 en quatre mois. Verdict médiatique : « l'IA est devenue plus chère que les employés. »
Sur un point, je suis d'accord. Les coûts de l'IA montent vite, et non pilotés, ils explosent, sans pour autant se transformer en gains. Ça, c'est factuel.
Mais conclure « c'est trop cher » ? Je n'achète pas.
Le contre-exemple : Spotify
Au même moment, Spotify met du code en production environ 4 500 fois par jour avec Claude dans la boucle, soit une mise en production toutes les 20 secondes environ, 24h/24, quand une entreprise « normale » de cette taille livre quelques fois par semaine. (Chiffre présenté par Niklas Gustavsson, Chief Architect de Spotify, sur scène chez Anthropic.) La différence ne tient pas à l'outil : depuis 2022, Spotify avait déjà bâti l'infrastructure et la discipline qui industrialisent ses mises en production. L'IA est devenue un multiplicateur parce qu'il y avait déjà quelque chose à multiplier.
Le vrai problème : ils ont gamifié l'usage
Voilà ce qui s'est réellement passé chez ceux qui « n'en ont plus les moyens ».
Au lieu d'un plan, ils ont organisé une compétition. Un employé de Meta a bâti un classement interne baptisé « Claudeonomics » pour suivre qui consomme le plus d'IA. Amazon a poussé ses équipes à « tokenmaxxer », c'est-à-dire à utiliser le maximum de tokens possible.
On a récompensé le volume. Pas la valeur.
Le résultat était écrit d'avance : du gaspillage à grande échelle, des coûts qui s'envolent, et aucun bénéfice réel en face. Ce n'est pas un problème de prix de l'IA. C'est un problème de gouvernance de la consommation.
D'où viennent vraiment les coûts
Le piège est en partie structurel, et il prend beaucoup d'organisations par surprise.
En abonnement (un forfait type Pro/Max, de l'ordre de 20 à 200 $/mois selon le plan), l'usage est quasi gratuit à la marge et le coût est prévisible. C'est le monde dans lequel la plupart des gens ont découvert l'IA.
En API, on bascule dans un modèle à l'usage, facturé au token. Et là, deux choses changent :
- Le coût devient proportionnel à l'usage, donc à l'efficacité. Plus vos équipes adoptent l'outil, plus la facture grimpe. Uber : 500 à 2 000 $ par ingénieur et par mois.
- L'erreur coûte cher. Un appel mal conçu (contexte surchargé inutilement, boucle d'agent non maîtrisée, mauvais modèle) peut multiplier la note sans rien produire de mieux.
Signe que le problème est systémique : en novembre, GitHub a suspendu les nouvelles inscriptions à Copilot Pro/Pro+ parce que les usages « agentiques » de clients payants dépassaient le prix de leur forfait. Et Goldman Sachs anticipe une consommation de tokens multipliée par 24 d'ici 2030.
Migrer de l'abonnement vers l'API sans plan, c'est passer d'un forfait téléphonique illimité à une facturation à la seconde, sans prévenir personne.
Le levier qu'on oublie : le bon modèle pour le bon usage
Voici la variable la plus sous-estimée. Tous les modèles ne coûtent pas la même chose, et l'écart est massif.
Configuration | Prix entrée / sortie (par M de tokens) | Contexte |
|---|---|---|
Haiku 4.5 | 1 $ / 5 $ | 200 K |
Sonnet 4.6 | 3 $ / 15 $ | 1 M |
Opus 4.7 | 5 $ / 25 $ | 1 M |
Opus 4.7 + contexte 1M + effort max | 5 $ / 25 $, mais volume de tokens démultiplié | 1 M |
Le tarif affiché ne dit pas tout. Deux amplificateurs font vraiment exploser la note :
- La taille du contexte : remplir 1M de tokens à chaque appel, c'est payer 1M de tokens à chaque appel.
- L'« effort maximal » / raisonnement étendu : les tokens de réflexion sont facturés en sortie, là où Opus coûte 25 $/M. C'est le poste qui dérape le plus vite. (Et le nouveau tokenizer d'Opus 4.7 peut générer jusqu'à 35 % de tokens en plus pour le même texte.)
Concrètement, pour une même tâche (chiffres illustratifs : ~100 K tokens en entrée, ~20 K en sortie) :
Modèle | Coût indicatif de la tâche |
|---|---|
Haiku 4.5 | ~0,20 $ |
Sonnet 4.6 | ~0,60 $ |
Opus 4.7 | ~1,00 $ |
Opus 4.7 sur-dimensionné (1M + effort max) | ~7,50 $ |
Jusqu'à 37x d'écart pour le même résultat business. La majorité des tâches (classification, extraction, résumé, routage) tournent parfaitement sur Haiku. Faire tourner Opus en effort maximal sur ces tâches-là, c'est envoyer une Rolls chercher le pain.
Et au-delà de Claude ?
Le raisonnement ne dépend pas du fournisseur. Claude, GPT, Gemini, DeepSeek : tous facturent au token, avec des écarts de prix au moins aussi grands entre fournisseurs qu'entre modèles d'une même gamme.
Prenons un cas concret, parlant pour un acheteur. Une ETI veut auditer l'ensemble de ses contrats fournisseurs sur trois ans : environ 3 300 contrats, 20 pages en moyenne. À ~750 tokens par page, on arrive à 50 millions de tokens en entrée, plus ~5 millions en sortie pour la synthèse, les écarts et les recommandations. Une tâche tout à fait réaliste pour un programme de revue contractuelle.
Voici ce que coûte cette même tâche selon le modèle choisi (ordres de grandeur, prix publics 2026) :
Modèle | Prix entrée / sortie (par M de tokens) | Coût indicatif de l'audit |
|---|---|---|
Claude Opus 4.7 | 5 $ / 25 $ | ~375 $ |
GPT-5.5 | 3 $ / 15 $ | ~225 $ |
Gemini 2.5 Pro | 1,25 $ / 10 $ | ~115 $ |
DeepSeek V3.2 | 0,27 $ / 1,10 $ | ~20 $ |
Soit un facteur d'environ 19 entre le moins cher et le plus cher pour la même tâche brute.
La bonne lecture n'est pas « prenez DeepSeek, c'est 95 % moins cher ». Si un modèle moins coûteux rate 2 % des engagements importants, le coût des risques juridiques et commerciaux qui en découlent dépasse largement les 350 $ économisés au compteur. C'est exactement l'arbitrage qualité/prix d'un acheteur : ce n'est pas le tarif unitaire qui compte, c'est le coût total à qualité comparable. La bonne question n'est jamais « quel modèle est le moins cher ? », c'est « quel modèle est juste dimensionné pour ce cas d'usage, à quel coût total ? ».
Et devinez quoi : c'est exactement une démarche achats
Choisir le bon modèle pour le bon usage, ce n'est pas une compétence d'ingénieur. C'est un réflexe acheteur. On retrouve, trait pour trait, les leviers de l'achat indirect :
- Juste dimensionnement du besoin : on n'achète pas une prestation premium pour un besoin standard. Haiku quand Haiku suffit.
- Pilotage de la demande : on gouverne qui consomme quoi, on ne récompense pas le volume.
- Coût complet : on regarde au-delà du tarif affiché : coût caché des appels ratés, du contexte gonflé, de l'effort inutile.
- Gestion de portefeuille (category management) : un portefeuille de modèles arbitré par usage, pas un modèle unique imposé partout.
L'IA non pilotée coûte cher pour la même raison qu'une catégorie d'achats laissée sans gouvernance dérape : personne n'arbitre, tout le monde sur-spécifie, et la facture arrive trois mois plus tard.
Uber et Microsoft n'ont pas un problème d'IA. Ils ont un problème d'achats indirects, appliqué à une nouvelle catégorie de dépense.
La question à poser à votre prochain comité de direction : qui, chez nous, décide quel modèle (et quel fournisseur) tourne sur quel cas d'usage, et sur quel critère de coût ? Si la réponse est « personne » ou « chaque équipe dans son coin », vous savez déjà où va atterrir votre prochaine facture. Et vous savez quelle fonction est outillée pour reprendre la main.
Sources
- Microsoft coupe l'accès interne à Claude Code : Windows Central, Windows Forum
- Uber a cramé son budget IA 2026 en quatre mois : AI Magazine, Storyboard18
- Spotify, 4 500 déploiements/jour avec Claude (Niklas Gustavsson, Anthropic) : Spotify Engineering, Code w/ Claude, session Spotify, Anthropic customer story
- Meta « Claudeonomics » et Amazon « tokenmaxxing » : Fortune, The Pragmatic Engineer
- GitHub suspend les inscriptions Copilot Pro/Pro+ : GitHub Blog, The Register, InfoWorld
- Goldman Sachs : consommation de tokens x24 d'ici 2030 : Goldman Sachs Insights
- Tarifs publics des modèles : Anthropic, OpenAI, Google AI Studio, DeepSeek
Cet article vous a parlé ? La newsletter va plus loin : la carte mensuelle, chaque premier mardi.
La carte mensuelle, chaque premier mardi à 07:30. Désabonnement en un clic.
Premier mardi de chaque mois, 07:30. Désabonnement en un clic.
Dans cette série
Vibe coder son site sans tomber dans les mêmes pièges : le mode d'emploi
Suite de mon retour d'expérience. Comment je referais le projet aujourd'hui : briques, process IA, garde-fous. Le mode d'emploi qui évite plusieurs semaines de tâtonnement.
17 mai 2026De la même sérieJ'ai refait mon site avec Claude, de WordPress à React, sans expérience technique
Notes de terrain d'un acheteur qui a migré theprocurementor.com de WordPress à une app React custom, sans écrire une ligne de code. La version honnête, pas la version LinkedIn.
17 mai 2026De la même sériePredictive Procurement : comment le process fonctionne et où l'appliquer
Le Predictive Procurement inverse la consultation : l'acheteur envoie une offre suggérée calculée par un moteur. 10 à 20% d'économies, et où passer son tour.
7 mai 2026