🇫🇷🇬🇧 Notez vos achats face à un benchmark sectoriel — gratuit, sans emailLancer l'évaluation
Project Deal d'Anthropic : pourquoi le meilleur modèle IA est un actif économique mesurable pour vos achats indirects
agentic-procurementllmrfpsourcinganthropicai-strategy

Project Deal d'Anthropic : pourquoi le meilleur modèle IA est un actif économique mesurable pour vos achats indirects

Anthropic a fait négocier 186 deals entre agents Claude. Le modèle frontier capture 10 à 25% de valeur en plus que Haiku 4.5 — et les utilisateurs ne le voient pas.

Alexandre Lio · 7 mai 2026 · 7 min de lecture

Read in English →

Sur cette page
Partager cet article
Partager sur LinkedIn

Par Alex Lio. The Procurementor. Édition spéciale "What's Changing".

Anthropic publie une étude qui démontre que leur modèle frontier (Opus 4.5) bat leur modèle léger (Haiku 4.5) en négociation. Premier réflexe légitime, surtout pour un acheteur entraîné à chercher le biais : "Bien sûr qu'ils disent ça, c'est dans leur intérêt commercial." Deuxième réflexe, après lecture du protocole : ils ont raison, et le résultat compte. 186 deals, ~4 000 $, +2,68 $ comme vendeur, –2,45 $ comme acheteur, sur des items à 12 $ médians. Le modèle frontier capture 10 à 25% de valeur en plus que le modèle léger, et les utilisateurs ne le détectent pas. Voici ce que ça change pour vos contrats agentiques, votre RFP et votre monitoring.


Le réflexe sain avant tout

Depuis 18 mois, le débat public sur l'IA en achats tourne en boucle sur deux questions mal posées : "est-ce que l'IA va remplacer les acheteurs ?" et "est-ce que c'est moins cher qu'un humain ?". Les deux passent à côté du vrai sujet.

Le vrai sujet : quand des agents IA négocient pour vous, est-ce que la qualité du modèle sous-jacent change le résultat économique, et de combien ?

Project Deal apporte une réponse empirique. Elle n'est pas neutre (Anthropic publie sur Anthropic), mais le protocole tient debout.


1. Ce qu'a fait Anthropic, en bref

En décembre 2025, Anthropic a recruté 69 de ses employés, leur a donné 100 $ de budget, et leur a demandé ce qu'ils voulaient vendre ou acheter parmi leurs affaires personnelles. Chaque participant a été interviewé par Claude pendant moins de 10 minutes pour établir : items à vendre, prix de réserve, items recherchés, budget max, style de négociation souhaité.

Chaque participant s'est ensuite vu attribuer un agent Claude personnalisé, chargé de le représenter sur un Slack-marketplace. Aucune intervention humaine pendant l'expérience : les agents postaient leurs annonces, faisaient des offres, contre-offraient, scellaient les deals, sans repasser valider côté humain.

Quatre marketplaces ont tourné en parallèle :

  • Run A et D : tous les agents en Claude Opus 4.5 (frontier).
  • Run B et C : 50/50 entre Opus 4.5 et Haiku 4.5 (modèle léger).

Une seule était "réelle" (Run A) où les biens ont été réellement échangés. Les autres tournaient pour la recherche.

Résultat brut : 186 deals conclus, ~4 000 $ de valeur transactionnelle, des participants globalement satisfaits (4/7 de fairness moyenne, soit "équitable").


2. Le résultat qui doit retenir l'attention de tout responsable achats

Sur les Runs B et C (modèle mixte), la performance des agents Opus a été objectivement supérieure à celle des agents Haiku, sur plusieurs métriques :

Métrique

Avantage Opus vs Haiku

Significativité

Nombre de deals conclus

+2,07 deals par utilisateur

p = 0,001

Prix de vente d'un même item (vendeur Opus vs Haiku)

+3,64 $ en moyenne

p = 0,011

Effet vendeur (sur tous deals)

+2,68 $

p = 0,030

Effet acheteur (sur tous deals)

–2,45 $

p = 0,015

Sur des items à 12 $ médian et 20 $ moyen, un écart de 2 à 3 $ par transaction représente 10 à 25% de la valeur. Statistiquement significatif et matériel.

[image: Le même vélo pliable cassé négocié par deux modèles différents : 38 $ avec Haiku, 65 $ avec Opus, soit +70% de valeur capturée sur la même transaction] (/wp-content/uploads/2026/05/project-deal-frontier-vs-light-model.png)

Source : Anthropic, Project Deal, avril 2026.

L'exemple le plus parlant : le même vélo pliable cassé, vendu par le même vendeur au même acheteur, est parti à 38 $ avec un agent Haiku et à 65 $ avec un agent Opus. +70% de prix de vente sur le même objet, dans la même transaction. Le seul facteur qui change, c'est le modèle qui négocie. Un rubis de laboratoire identique : 35 $ avec Haiku, 65 $ avec Opus.

Le contre-coup qui dérange

Là où ça devient intéressant : les participants n'ont pas remarqué la différence. Quand on leur a demandé de noter la qualité et la fairness perçues de leurs deals, les utilisateurs Haiku ont jugé leurs résultats à peu près aussi satisfaisants que les utilisateurs Opus. 11 participants sur 28 ont même jugé leur run Haiku meilleur que leur run Opus, alors que les chiffres montrent l'inverse.

Implication directe. Si un écart de qualité entre modèles se crée dans une économie agentique réelle, les perdants ne s'en rendront pas compte. Anthropic le formule prudemment, je le formule moins prudemment : c'est une faille systémique de gouvernance qui s'ouvre.

L'autre résultat qu'il faut noter : le prompting ne compense pas

Certains participants avaient instruit leur agent d'être agressif ("lowball at first", "négocie dur"). D'autres avaient demandé un style amical. Les deux groupes ont obtenu statistiquement les mêmes résultats. Les acheteurs agressifs n'ont pas payé moins cher, les vendeurs agressifs n'ont pas vendu plus cher (une fois neutralisé le fait qu'ils affichaient des prix de départ plus élevés).

Autrement dit : la qualité du modèle compte plus que les instructions données au modèle. Le prompt-engineering du négociateur ne rattrape pas le déficit de capacité. C'est un point central pour cadrer le choix du modèle dans tout déploiement agentique.


3. Le take-away qui doit structurer votre stratégie achats

C'est là que beaucoup de discussions actuelles sur l'IA en achats partent dans le mur.

Le réflexe économique standard ("on prend le modèle le moins cher, c'est suffisant pour notre cas d'usage") est l'erreur de cadrage typique. Les acheteurs IT qui sourcent une solution agentique aujourd'hui regardent en priorité le coût par token ou le coût par appel. C'est l'équivalent de choisir un avocat au coût horaire sans regarder son taux de succès en plaidoirie.

Project Deal apporte une preuve quantifiée : sur une tâche de négociation simple (qui n'est même pas le cas d'usage le plus exigeant pour un LLM), passer du modèle frontier au modèle léger coûte 10 à 25% de valeur transactionnelle. Et ce coût reste invisible à l'utilisateur qui ne fait pas de benchmarking actif.

Transposez ça sur un budget achats indirects de 50 M€. Même à 5% de valeur perdue par défaut de modèle, vous laissez 2,5 M€/an de marge sur la table. Pour économiser quoi ? Quelques milliers d'euros de licence LLM par an. Le ratio coût/bénéfice est limpide.


4. Implications concrètes pour les achats indirects

4.1. Le coût de la licence LLM est le mauvais KPI

Dans tout RFP agentique, la grille d'évaluation actuelle pondère lourdement le coût d'inférence (token in / token out, coût par requête). C'est intuitif, mesurable, visible sur la facture cloud. Mais c'est secondaire par rapport à l'écart de valeur capturée entre deux modèles sur le même use case.

La bonne approche : demander un benchmark comparatif sur le cas d'usage réel, avec deux modèles de générations différentes, et mesurer l'écart de résultat économique. Si l'éditeur ne peut pas fournir ce benchmark, c'est un drapeau rouge.

4.2. La routing strategy doit être négociable au contrat

Beaucoup de plateformes agentiques (Arkestro, Pactum AI, Globality, Keelvar) routent en interne entre plusieurs modèles pour optimiser leur propre marge sur l'inférence. Sans clause contractuelle, vous payez pour Opus mais on vous sert du Haiku sur les transactions où ça se voit le moins.

À inscrire dans tout contrat agentique :

  • transparence sur le modèle effectivement utilisé par transaction (logs auditables),
  • droit de spec sur le modèle minimum acceptable selon le seuil de valeur de la transaction,
  • clause d'audit semestriel sur la répartition modèles vs résultats économiques.

4.3. Le change management côté acheteur change de nature

Le résultat inattendu de Project Deal, c'est que les utilisateurs ne détectent pas la sous-performance de leur agent. L'auto-évaluation par les acheteurs opérationnels ("je suis content de mon outil") cesse d'être un signal de performance fiable. Il faut des métriques objectives en permanence : prix vs benchmark, taux d'aboutissement vs cible, valeur capturée vs prix de réserve.

La fonction achats doit donc se doter d'une capacité de monitoring continu de ses agents, indépendante du fournisseur de la solution. C'est probablement le poste le plus sous-investi des transformations achats actuelles.

4.4. Asymétrie côté fournisseurs : un nouveau front s'ouvre

Project Deal a fait négocier des Claude entre eux. Demain, vos agents Claude / GPT / Gemini vont négocier avec les agents IA de vos fournisseurs. Si vos fournisseurs sont mieux équipés que vous, l'asymétrie joue contre vous à chaque transaction, sans que personne ne le voie.

Ça redonne du sens à une question abandonnée depuis 10 ans : quel est le modèle de négociation de notre fournisseur, et avec quel outil ? C'était une question RH (formation, expérience). Ce sera demain une question techno (modèle, routing, instructions, monitoring).


5. La limite à rappeler

Project Deal reste une expérience interne de 69 personnes sur du Slack, sur des objets de seconde main à 12 $ médians, avec un échantillon biaisé (employés d'Anthropic, donc déjà acquis à l'IA). Les chiffres ne sont pas généralisables tels quels.

Et surtout, l'expérience prouve qu'entre IA, le meilleur modèle gagne. Elle ne prouve pas qu'une IA négocie mieux qu'un humain entraîné. C'est une question différente, plus importante encore pour la fonction achats en 2026, et c'est précisément la question que les éditeurs agentiques évitent. À surveiller de près.


6. Ce qu'il faut retenir

Le signal directionnel est clair, et il est probablement le plus important de l'année pour la fonction achats agentique :

  1. La qualité du modèle est un actif économique mesurable, pas un critère technique secondaire.
  2. L'écart de performance entre modèles est invisible aux utilisateurs, donc non auto-correctif.
  3. Le prompting ne compense pas un déficit de capacité. Vous ne sauverez pas un mauvais modèle avec un bon prompt.
  4. Les écarts vont s'amplifier à mesure que les agents IA prennent plus de transactions en charge, et que vos fournisseurs s'équipent.

Pour les Directions Achats indirects qui structurent leur feuille de route 2026-2027 sur l'agentic, la règle de cadrage qui en découle est simple : payez pour la qualité du modèle, négociez la transparence sur le routing, et instrumentez le monitoring de performance indépendamment du fournisseur. Tout le reste est secondaire.

La façon dont la communauté LinkedIn débat actuellement de l'IA en achats ("compute trop cher", "l'IA pas rentable", "l'humain reste moins cher") passe à côté de l'enjeu réel. L'enjeu réel : le modèle qui négocie pour vous a une valeur économique matérielle, et vous êtes en train de la sous-investir.


Sources


Vous structurez aujourd'hui votre feuille de route agentique sur les achats indirects et vous voulez la stress-tester avant de signer un RFP ? Réservons 30 minutes.

Je suis Alex Lio. 10+ ans dans les achats indirects, la transformation digitale et maintenant l'IA, au service de mes clients.

Partager cet article
Partager sur LinkedIn

L'Indirect Augmenté · mensuel

Cet article vous a parlé ? La newsletter va plus loin — la carte mensuelle, chaque premier mardi.

Premier mardi de chaque mois, 07:30. Désabonnement en un clic.

AL

Alexandre Lio

15 yrs Amazon & Cellnex · €50M+ negotiated · 5,000+ trained

Independent procurement consultant. I help CPOs, CFOs and operations leaders fix category management, deploy AI-ready sourcing stacks and build teams that actually deliver savings.

Travaillons ensemble

Votre défi mérite une analyse.

Réserver un diagnostic gratuit

S'abonner par RSS ou par e-mail.