← Insights

La crise de mesure de l'IA : ce que l'IA d'entreprise coûte vraiment, et comment savoir si elle rapporte

Les critiques les plus virulents ont raison sur un point inconfortable : la plupart des organisations ne savent pas ce que leur IA coûte, ni si elle rapporte. C'est un problème stratégique, pas une thèse d'investissement. Voici ce que les preuves primaires montrent réellement sur le fossé du ROI, l'opacité des coûts et le risque fournisseur — et l'instrumentation qui sépare le programme sur vingt environ qui passe à l'échelle de tout le reste.

Une analyse de praticien · Consulting Huber · 3 juin 2026

La provocation, prise au sérieux

Le journaliste technologique Ed Zitron passe depuis deux ans à soutenir, haut et fort, que l'industrie de l'IA repose sur des chiffres que personne ne peut fixer — que le vrai coût de l'inférence est obscurci, que les revenus restent maigres face aux dépenses, et que « l'IA n'a pas de retour sur investissement ». C'est un pamphlet, et certaines parties sont contestables. Mais sous la rhétorique se cache une affirmation plus difficile à balayer, et que cet article se propose de tester contre des sources primaires plutôt que contre des impressions : la plupart des entreprises ne savent genuinement pas ce que leur IA coûte, et ne peuvent pas démontrer ce qu'elle rapporte.

Ce n'est pas une question de marché boursier. C'est une question de stratégie. Un conseil d'administration n'a pas besoin de savoir si OpenAI est un bon investissement pour devoir savoir si son propre programme IA produit de la valeur — et en l'état des preuves publiées, la plupart des conseils ne peuvent pas répondre à la seconde question par un chiffre. Le plus frappant, c'est que ceux qui construisent l'outillage pour corriger cela sont d'accord. La FinOps Foundation — l'organisme de la Linux Foundation qui définit en pratique la discipline des coûts cloud — affirme sans détour que « mesurer et quantifier la valeur métier des initiatives IA a été identifié comme un défi majeur » par les praticiens qui gèrent les dépenses IA, et que les méthodes pour y parvenir sont encore émergentes plutôt que stabilisées.11

La critique porte donc. La question intéressante est ce qu'un opérateur sérieux en fait. Cet article parcourt les quatre endroits où la mesure se dérobe — les preuves sur le ROI, le côté coût, les économies fournisseurs, et pourquoi les pilotes stagnent — puis expose l'instrumentation que les organisations qui mesurent effectivement utilisent. Chaque graphique ci-dessous est tiré d'une enquête primaire ou d'un document de référence, et là où une source est faible ou contestée, c'est dit dans le texte, pas enfoui.

Une note sur les preuves. Les chiffres dans cet article proviennent d'enquêtes auprès de dirigeants, d'expériences de terrain et d'organismes de référence — pas d'un seul jeu de données audité, car il n'en existe pas. Les tailles d'échantillon, les dénominateurs et la différence entre « satisfaction » et « retour mesuré » comptent énormément ici, et les légendes le disent. Le chiffre le plus cité dans tout le débat — les « 95 % de pilotes qui échouent » selon le MIT — est aussi le plus contesté sur le plan méthodologique, et il est présenté ci-dessous pour ce qu'il rapporte, avec la critique attachée.

Partie I · Le retour

La satisfaction est élevée. Le retour mesuré, non.

Le constat le plus clair des enquêtes 2025 n'est pas que l'IA échoue. C'est que les adoptants en sont satisfaits et ne peuvent toujours pas montrer les chiffres. L'enquête auprès des dirigeants menée par Bain & Company au T3 2025 révèle que parmi les 59 % d'entreprises ayant adopté l'IA générative de manière significative, la technologie a répondu ou dépassé les attentes dans environ 80 % des cas, dans les fonctions où elle a été déployée. Dans la même enquête, seulement environ 23 % de l'ensemble des répondants déclarent que l'IA générative a réellement généré plus de revenus ou réduit les coûts.1 Cet écart — entre « ça fonctionne » et « nous pouvons lui attribuer de la valeur » — est la crise de mesure résumée en un seul graphique.

Le fossé entre satisfaction et attribution

IA générative en entreprise, enquête Bain auprès des dirigeants, T3 2025

A répondu ou dépassé les attentes parmi les adoptants significatifs
~80 %
A généré plus de revenus ou réduit les coûts tous les répondants
~23 %
Notez que les deux barres utilisent des dénominateurs différents : la première porte sur les adoptants significatifs, la seconde sur l'ensemble des répondants — elles ne constituent donc pas un avant/après propre. Ce qui compte, c'est la forme, pas la soustraction. L'échantillon est petit (n=197) et auto-déclaré ; lisez-le comme une enquête auprès de dirigeants, pas comme une statistique de population. Source : Bain & Company, « AI moves from pilots to production » (2025).

S'il ne s'agissait que d'une seule enquête, ce serait anecdotique. Ce n'est pas le cas. L'enquête Voice of the Enterprise de S&P Global Market Intelligence, menée auprès d'environ 1 006 professionnels IT et métier en Amérique du Nord et en Europe, révèle que la proportion d'organisations abandonnant la majorité de leurs initiatives d'IA générative avant la mise en production a plus que doublé d'une année sur l'autre — passant de 17 % à 42 % — et qu'en moyenne, 46 % des projets ont été abandonnés entre la preuve de concept et l'adoption généralisée.2

Les abandons ont plus que doublé en un an

Part des organisations abandonnant la majorité des initiatives GenAI avant la mise en production

2024
17 %
2025
42 %
Abandonnés entre PoC et adoption moyenne sur les projets
46 %
Source : S&P Global Market Intelligence, Voice of the Enterprise : IA & Machine Learning (~1 006 répondants, Amérique du Nord + Europe), « Generative AI shows rapid growth but yields mixed results ». Chiffres rapportés indépendamment par CIO Dive.

La même enquête longitudinale révèle quelque chose de plus parlant que n'importe quel chiffre d'abandon isolé : la proportion d'organisations déclarant un impact positif de l'IA générative a diminué sur chaque objectif d'entreprise mesuré, d'une année sur l'autre. Pas une réallocation, pas un plateau — un recul sur tous les fronts à la fois.

L'impact positif a reculé sur chaque objectif mesuré

Part des organisations déclarant un impact positif de la GenAI, 2024 → 2025

2024 2025
Croissance des revenus
81 %
 
76 %
Gestion des coûts
79 %
 
74 %
Gestion des risques
74 %
 
70 %
Un recul généralisé issu d'une enquête structurée d'une année sur l'autre est un résultat peu flatteur, pas un résultat marketing — ce qui contribue en partie à sa crédibilité. Source : S&P Global Market Intelligence, même enquête que ci-dessus.

Le chiffre des 95 %, et pourquoi le manier avec précaution

Aucune statistique dans ce débat ne circule plus que celle du MIT. Le rapport de l'initiative NANDA du Media Lab, The GenAI Divide : State of AI in Business 2025 — construit sur 150 entretiens avec des dirigeants, une enquête auprès de 350 salariés et une analyse de 300 déploiements publics — rapporte qu'environ 5 % des pilotes d'IA en entreprise atteignent une accélération rapide des revenus, tandis qu'environ 95 % ont peu ou pas d'impact mesurable sur le compte de résultat.3 Il rapporte également un entonnoir d'adoption abrupt pour les outils intégrés et spécifiques à une tâche, contre un chemin bien plus doux pour les chatbots génériques comme ChatGPT et Copilot.

L'entonnoir du pilote à la production

Outils d'entreprise intégrés spécifiques à une tâche vs. chatbots génériques atteignant la production

Évalués outils spécifiques à une tâche
~60 %
En phase pilote
~20 %
Atteint la production
~5 %

— pour comparaison —

Chatbots génériques pilote → mise en œuvre
~83 %
À manier avec précaution. Kevin Werbach de Wharton et d'autres chercheurs ont indiqué que le chiffre des 95 % en titre est peu documenté — qu'ils ne peuvent pas retracer comment il a été dérivé — et que l'entonnoir 60/20/5 est rapporté sans dénominateurs clairs. L'éditeur promeut également des protocoles d'IA agentique commerciaux, ce qui constitue un conflit d'intérêt potentiel. Traitez ces données comme ce que le rapport affirme, corroboré dans la direction par les résultats Bain et S&P ci-dessus, et non comme des faits établis. Source : MIT NANDA, The GenAI Divide (2025), via Fortune et le PDF du rapport.

L'intérêt de garder les trois sources simultanément en vue est qu'elles échouent de manière différente. Bain est une petite enquête auprès de dirigeants. S&P est une plus grande enquête longitudinale. Le MIT est un titre contesté. Elles ne s'accordent pas sur un chiffre — elles s'accordent sur une forme : l'adoption est large, la satisfaction est réelle, et le retour financier attribuable est rare et de plus en plus difficile à revendiquer. Cette forme est robuste même quand chaque chiffre individuel reste incertain.

Partie II · Le coût

Pourquoi « des jetons moins chers » a produit des factures plus élevées

Le côté retour est difficile à mesurer. Le côté coût est, si possible, encore pire — car la tendance de fond pointe dans le sens contraire de la facture. Les prix par jeton se sont effondrés. L'AI Index de Stanford HAI documente une baisse d'environ 280 fois du coût d'exécution d'une requête de qualité équivalente à GPT-3.5 entre novembre 2022 et octobre 2024 — de quelque 20 dollars à environ 0,07 dollar par million de jetons.8 Même sur une base conservatrice à modèle constant, les praticiens estiment la baisse à environ un ordre de grandeur sur deux ans. Et pourtant, les factures IA en entreprise augmentent, pas diminuent, car la consommation croît plus vite que les prix baissent — la dynamique classique du paradoxe de Jevons, où l'efficacité accroît l'usage plus vite qu'elle ne réduit le coût unitaire.9

↓ ~280×
Prix par jeton à qualité constante, nov. 2022 → oct. 2024 (Stanford HAI)
↑ >100×
Croissance de la consommation de jetons sur environ deux ans
↑ Net
Facture IA totale en entreprise — la consommation dépasse la baisse des prix
4–5 mois
Délai dans lequel Uber et ServiceNow auraient épuisé leur budget IA 2026 annuel complet

Ancrez le chiffre sur Stanford HAI ; le multiple « >100× » de consommation et les anecdotes d'épuisement de budget proviennent des reportages de VentureBeat et sont directionnels. Sources : Stanford HAI AI Index 2025 ; VentureBeat, « Cheaper tokens, bigger bills ».

La baisse des prix permettrait tout de même de prévoir, si l'unité était stable. Elle ne l'est pas. La raison pour laquelle le vrai coût d'une charge de travail IA est si difficile à connaître est qu'il dépend d'un trop grand nombre de variables en interaction pour raisonner de façon intuitive : quel modèle sert réellement une requête donnée, où la charge de travail s'exécute, comment la requête et le contexte sont structurés, quelle quantité de récupération est injectée dans la fenêtre, et — surtout — combien de fois un flux agentique boucle. Des analyses sectorielles de CloudZero et IDC décrivent des schémas multi-appels agentiques amplifiant la consommation de jetons de 5 à 30 fois pour une seule tâche visible par l'utilisateur. Gérer cela est, selon les mots d'un praticien, « un problème d'ingénierie qui nécessite un ajustement continu » — ce qui recadre le prompt engineering comme discipline de gouvernance des coûts, pas comme art de la formulation.9

La conséquence apparaît directement dans la précision budgétaire. Les données du State of FinOps 2026 de la FinOps Foundation indiquent que seulement environ 15 % des entreprises prévoient leurs coûts IA à ±10 % près, tandis qu'environ un quart rate ses prévisions de plus de 50 %.10 Un poste budgétaire que l'on rate de moitié n'est pas un poste sur lequel on peut construire un business case.

La plupart des entreprises ne peuvent pas prévoir leur facture IA

Précision des prévisions de coûts IA en entreprise

Prévision à ±10 % « dans la cible »
~15 %
Écart de prévision >50 % matériellement inexact
~25 %
Les prix par jeton, la facturation par étape agent et les coûts de récupération créent une volatilité que la budgétisation annuelle traditionnelle n'a jamais été conçue pour gérer. Source : FinOps Foundation, State of FinOps 2026.

C'est la partie de la critique de Zitron qui tient le mieux. Pas « l'IA ne vaut rien » — les preuves sur la productivité ci-dessous contredisent cela — mais « le vrai coût unitaire est structurellement difficile à connaître ». C'est le cas. Et une organisation qui ne peut pas énoncer son coût par unité de travail ne peut pas calculer un retour, quelle que soit la qualité du travail.

Partie III · Le fournisseur

Les économies fournisseurs — comme risque d'approvisionnement, pas comme point de vue sur l'investissement

Ce n'est pas le rôle de l'acheteur d'évaluer les fournisseurs de modèles. Mais c'est son rôle de comprendre que le prix qu'il paie aujourd'hui repose sur une structure économique qui est encore en train de trouver son équilibre — car cette structure détermine la stabilité des prix et le risque de contrepartie, qui sont des paramètres de budgétisation. Trois faits, tous tirés du reporting des propres chiffres des fournisseurs, suffisent à cadrer l'exposition.

Premièrement, les plans de dépenses d'OpenAI ont évolué de façon significative. En février 2026, CNBC a rapporté que la société avait revu à la baisse sa cible de dépenses de calcul — des environ 1,4 billion de dollars d'engagements d'infrastructure que le PDG Sam Altman avait mis en avant, à environ 600 milliards de dollars d'ici 2030 — explicitement pour lier les dépenses plus directement à la croissance des revenus attendue.5 Deuxièmement, ses résultats 2025, tels que relayés, montrent une consommation réelle de trésorerie : environ 13,1 milliards de dollars de revenus contre environ 8 milliards de dollars de trésorerie consommée.5

13,1 Md$
Revenus d'OpenAI en 2025 (au-dessus de son objectif de 10 Md$)
~8 Md$
Consommation de trésorerie 2025 (en dessous de son objectif de 9 Md$)
1,4 T$ → ~600 Md$
Cible de dépenses de calcul 2030, revue à la baisse
>280 Md$
Revenus 2030 projetés (grand public + entreprises)

Ce sont des chiffres non audités relayés via le reporting des projections internes d'une société privée — le canal le plus solide disponible, corroboré par CNBC, Reuters et Bloomberg, mais intrinsèquement non vérifiable de façon indépendante. Lisez-les comme « vise prétendument », pas comme des comptes. Source : CNBC, « OpenAI resets spend expectations » (fév. 2026).

Troisièmement, la tension est maintenant visible dans les notations de crédit des entreprises qui financent la construction des infrastructures. À mi-2025, Moody's a révisé la perspective d'Oracle à négative depuis stable — tout en confirmant sa note Baa2, en bas de la catégorie investissement — citant le risque de concentration de contrepartie lié à un contrat de calcul d'environ 300 milliards de dollars et 4,5 gigawatts avec OpenAI, que Moody's a qualifié de l'un des plus grands financements de projet au monde.6 C'était une révision de perspective, pas un abaissement de note — mais pour un acheteur en entreprise, c'est un signal concret et nommé.

Dépendre de LLM externes à grande échelle est une exposition stratégique à part entière

Sous les chiffres de prix et de contrepartie se cache un point plus large qui mérite d'être nommé clairement. Acheminer un processus métier central et à fort volume via une API de modèle externe concentre une dépendance opérationnelle hors du contrôle de l'organisation. À l'échelle d'un pilote, c'est un compromis sensé — capacité et rapidité en échange d'une dépense petite et contenue. À l'échelle de la production, quand des milliers de décisions, documents ou interactions client quotidiens transitent par un seul point de terminaison tiers, le même arrangement devient une question de résilience plutôt que de commodité. Un fournisseur qui brûle encore de la trésorerie, qui réinitialise sa propre feuille de route de dépenses et qui finance sa construction à travers des contreparties concentrées n'est pas encore une infrastructure stable ; c'est un fournisseur rapide d'une donnée d'entrée que l'entreprise a silencieusement rendue critique. Un changement de prix, une limitation du débit, une version de modèle dépréciée ou une panne n'arrive alors pas comme une inconvénience informatique mais comme une interruption d'un processus central.

La conclusion n'est pas d'éviter les modèles externes — ils sont trop capables, et construire des capacités de pointe en interne est rarement la bonne décision. C'est de traiter un fournisseur de modèles comme un opérateur sérieux traite tout fournisseur critique à source unique dès lors qu'un processus dépasse le stade de l'expérimentation, et de pouvoir répondre honnêtement à une question : que se passe-t-il pour ce processus si le prix double, si le modèle est retiré, ou si le point de terminaison est indisponible le trimestre prochain ? S'il n'y a pas de réponse, la dépendance est un risque stratégique habillé en API commode. Les couvertures concrètes qui découlent de cette question sont celles qu'un acheteur doit écrire — ci-dessous.

Ce que cela signifie pour un acheteur — pas un investisseur. Si les prix des API de modèles de pointe sont maintenus sous le coût pour conquérir le marché, alors le prix par jeton actuel est un prix promotionnel, et un business case pluriannuel prudent devrait budgéter la possibilité qu'il augmente. Trois couvertures pratiques en découlent directement : (1) éviter le verrouillage chez un seul fournisseur pour toute charge de travail suffisamment importante ; (2) intégrer les hypothèses de changement de prix et de sortie dans le business case, pas seulement dans le tarif actuel ; (3) garder un modèle plus petit ou open-weight qualifié comme solution de repli pour les tâches à haut volume et faible complexité. Rien de tout cela ne nécessite un avis sur la rentabilité future des fournisseurs. Il suffit de traiter le prix comme une variable.

Partie IV · Le fossé

Pourquoi les pilotes stagnent — et ce que les preuves disent qui fonctionne vraiment

Si la satisfaction est élevée et l'attribution rare, la question évidente est ce qui distingue les programmes qui convertissent. Les preuves s'éloignent du modèle et pointent vers deux causes structurelles : ce qui est financé, et ce qui est mesuré.

Le budget va là où c'est facile à voir, pas là où ça rapporte

Le résultat le plus exploitable du rapport MIT NANDA — plus défendable que son taux d'échec en titre — est que les budgets d'IA générative sont systématiquement mal alloués. Environ la moitié des budgets GenAI (l'abstract du rapport dit ~50 % ; le détail de l'enquête va jusqu'à ~70 %) va aux fonctions front-office de vente et de marketing, tandis que l'automatisation back-office qui produit souvent un meilleur ROI est sous-financée. La raison est en elle-même un problème de mesure : les résultats des ventes et du marketing s'articulent clairement sur les KPI au niveau du conseil et les mises à jour aux investisseurs, tandis que les gains d'efficacité en juridique, achats et finance sont réels mais plus difficiles à mettre en avant dans une conversation avec des dirigeants.3

Le budget suit la visibilité, pas le retour

Allocation du budget GenAI en entreprise par fonction

Front office ventes & marketing — KPI visibles
~50–70 %
Back office juridique, achats, finance — meilleur ROI, souvent sous-financé
reste
La répartition des dépenses a été obtenue via un exercice hypothétique d'« allocation de 100 dollars », elle est donc à lire comme directionnelle. Le point stratégique tient : la fonction la plus facile à mesurer attire le budget, même quand ce n'est pas là que se trouve le retour. Source : MIT NANDA, The GenAI Divide (2025).

La productivité est réelle — mais distribuée de façon inégale

Il serait erroné de laisser l'impression que l'IA ne fonctionne pas. Une grande expérience de terrain pré-enregistrée menée chez Microsoft, Accenture et un fabricant Fortune 100 anonyme (n=4 867 développeurs, publiée dans Management Science) a constaté que GitHub Copilot a augmenté le nombre de tâches complétées d'environ 26 %.7 Deux mises en garde comptent pour tout ROI construit sur ce chiffre. Premièrement, l'étude a mesuré le débit de tâches, pas la qualité du code ni le retour financier — les chercheurs n'avaient pas accès au code produit. Deuxièmement, et plus utile pour la stratégie : les gains ont été très inégaux selon l'expérience.

Le même outil, des gains très différents

Augmentation de la production grâce à l'assistance IA au codage, par niveau d'expérience des développeurs

Développeurs juniors / moins expérimentés
+27–39 %
Développeurs seniors
+8–13 %
Parce que le gain dépend fortement de qui utilise l'outil, le même déploiement peut générer une valeur très différente selon deux équipes — c'est précisément pourquoi un seul chiffre de « productivité IA » agrégé est trompeur au niveau du portefeuille. Mesuré en production, pas en qualité ni en ROI. Source : RCT de terrain, MIT/Princeton/Wharton/Microsoft, Management Science (2025).

Mettez les deux résultats ensemble et l'implication stratégique est nette. La valeur est réelle, mais elle est contingente — à la fonction, à la composition de la main-d'œuvre, au fait que le flux de travail a été repensé autour de l'outil. Un programme qui ne mesure pas à ce niveau de granularité verra la moyenne et ratera la distribution, financera le cas d'usage visible plutôt que le cas d'usage rentable, et déclarera « ça a répondu aux attentes » tandis que le P&L ne bouge pas. Ce n'est pas un échec du modèle. C'est un échec de l'instrumentation.

Partie V · La solution

Le playbook de mesure : du coût par jeton au coût par résultat

La bonne nouvelle est que la discipline pour corriger cela n'est pas théorique. La FinOps Foundation — l'organisme qui a standardisé la gestion des coûts cloud — a étendu son cadre à l'IA, et sa construction centrale, les économies unitaires, est la réponse primaire la plus concrète disponible. Les économies unitaires sont définies comme « des métriques qui permettent de comprendre comment l'utilisation de la technologie et les pratiques de gestion technologique d'une organisation impactent la valeur des produits, services ou activités de cette organisation », et elles relèvent directement du domaine Quantifier la valeur métier du cadre. La Fondation énonce le principe sans détour : « sans moyen de relier les coûts aux bénéfices reçus, il est difficile de savoir si les dépenses sont appropriées. »4

Le mouvement pratique est une échelle. La mesure des coûts IA est censée commencer au niveau du coût par jeton et progresser vers des métriques orientées résultat — coût par assistance, coût par action agent, coût par cas dévié — le suivi granulaire (jusqu'au niveau du jeton, du GPU et de la prédiction) alimentant les échelons supérieurs.4

Ramper Coût par jeton / heure-GPUSuivi fin. Nécessaire, mais répond à « qu'avons-nous dépensé ? », pas à « en valait-il la peine ? »
Marcher Coût par appel / fonctionnalité / prédiction IAAttribuer la dépense à un modèle, une tâche ou une charge de travail spécifique — la première vue sur laquelle un responsable produit peut agir.
Courir Coût par résultatCoût par assistance, par action agent, par cas dévié, par ticket résolu — l'échelon où le coût rencontre enfin la valeur, et où le ROI devient calculable.
Le modèle de maturité « Ramper / Marcher / Courir » de FinOps appliqué à l'IA. La plupart des organisations sont bloquées au premier échelon — c'est pourquoi elles peuvent rendre compte des dépenses mais pas du retour. Source : FinOps Foundation, capacité Économies unitaires.

L'échelle de métriques a besoin d'un propriétaire, sinon elle cale dans les finances. Le véhicule de gouvernance recommandé par la Fondation est un Conseil d'investissement IA transfonctionnel — et la valeur de cette recommandation tient dans la composition spécifique des membres, car c'est la composition transfonctionnelle qui permet au coût de rencontrer le résultat dans une même salle. Le conseil, note FinOps, fait progresser la conversation sur les économies unitaires à un niveau plus élevé dans l'organisation en définissant les résultats et KPI spécifiques que les projets IA doivent traiter.11

Conseil d'investissement IA · composition transfonctionnelle
Responsables métier & produit propriétaires du résultat / KPI
Responsable IA / technologie faisabilité, choix du modèle
Architecture d'entreprise & plateforme où ça tourne
Responsables infrastructure capacité, économies GPU
Sécurité IT & risques gouvernance, exposition Règlement IA
Finance & FinOps économies unitaires, prévisions
Achats / contrats risque fournisseur & prix
Résultats & KPI définis que chaque projet IA doit traiter objectifs de coût par résultat · attribution · go / no-go sur la même base de preuves
FinOps présente le conseil comme « l'un des moyens les plus efficaces » de conduire la discussion sur les économies unitaires — un mécanisme central recommandé, pas le seul. La composition des membres est le point essentiel : chaque fonction qui touche au coût ou à la valeur de l'IA est dans la salle quand le KPI est fixé. Source : FinOps Foundation, groupe de travail Gérer la valeur IA.

Deux qualifications honnêtes. La première est que la Fondation elle-même ne prétend pas avoir terminé le travail : elle reconnaît qu'il n'existe pas encore de méthodologie standardisée et stabilisée pour quantifier la valeur métier de l'IA — les approches sont encore émergentes. C'est précisément pour cela que la critique en ouverture de cet article porte ; la discipline qui construit la solution est franche sur le fait que la solution est incomplète. La seconde est que le langage du cadre est descriptif, pas prescriptif — il observe que les pratiques matures « s'étendent vers » des métriques de résultat, il n'oblige personne. La lecture stratégique est identique dans les deux cas : la destination est le coût par résultat, presque personne n'y est encore, et les organisations qui y arrivent les premières seront celles qui pourront prouver la valeur tandis que leurs concurrents rapportent encore de la satisfaction.

Comment lire ceci en tant qu'acheteur

Mettez les enquêtes de côté et le travail de l'opérateur se réduit à quatre situations. Le cadrage ci-dessous coupe plus vite dans le bruit que n'importe quel tableau de maturité.

Situation 1 — le conseil demande « quel est notre ROI IA ? ». La première réponse honnête est une contre-question : à quelle unité ? Si l'organisation ne peut pas énoncer un coût par résultat pour sa charge de travail IA phare — coût par ticket résolu, par document généré, par cas dévié — alors le ROI n'existe pas encore sous forme de chiffre, et tout indicateur avancé n'est que de la satisfaction habillée en finance. Le travail n'est pas de produire une meilleure présentation ; c'est d'instrumenter une charge de travail jusqu'à l'échelon du coût par résultat et d'en rendre compte.

Situation 2 — le PDG avec des pilotes au point mort. Les preuves indiquent que la cause est rarement le modèle. Vérifiez d'abord deux choses : où le budget est allé (front office pour la visibilité, ou là où se trouve le retour ?) et ce qui est mesuré (débit, ou résultat ?). Un seul cas d'usage instrumenté jusqu'au coût par résultat, avec un propriétaire métier nommé dont le P&L évolue avec lui, vaut mieux qu'un portefeuille de pilotes mesurés sur l'« engagement ». Trois mois de cela valent mieux que douze mois de pilotes.

Situation 3 — le poste de coût est volatile et personne ne peut le prévoir. C'est le problème du ±10 %, et c'est un problème d'ingénierie et de gouvernance, pas d'approvisionnement. Les solutions sont concrètes : instrumenter la consommation de jetons, de modèles et d'étapes agents par charge de travail ; traiter le design des requêtes et du contexte comme de la gouvernance des coûts ; plafonner la profondeur des boucles agentiques ; et qualifier un modèle de repli moins coûteux pour les tâches à fort volume et faible complexité. La prévisibilité est une capacité que l'on construit, pas un tarif que l'on négocie.

Situation 4 — risque fournisseur et risque de prix. Supposez que le prix actuel des jetons est promotionnel et intégrez cette hypothèse dans le business case pluriannuel. Évitez le verrouillage chez un seul fournisseur pour toute charge de travail significative, gardez un modèle open-weight ou plus petit qualifié en solution de repli, et intégrez des clauses de changement de prix et de sortie dans le contrat. Vous n'avez pas besoin d'un avis sur la rentabilité future des fournisseurs. Vous avez besoin que votre business case survive au jour où le prix change.

Et trois questions qui coupent à travers un pitch fournisseur plus vite que n'importe quel appel d'offres : « Montrez-moi le coût par résultat que vous avez mesuré sur votre dernière mission. » « Montrez-moi comment vous avez instrumenté le côté coût — jeton, modèle, étape agent. » « Montrez-moi le propriétaire métier dont les chiffres ont bougé. » Si un cabinet répond en pilotes, démos et scores de satisfaction, ce que vous achetez est de l'enablement, pas de la valeur mesurée.

Où se situe Consulting Huber

Consulting Huber est un cabinet de praticiens. Nous ne vendons pas de plateforme IA, et nous n'avons aucun intérêt à gonfler une facture de jetons ni un comptage de pilotes. Nous travaillons avec des PDG, des conseils d'administration, des directeurs de la transformation et des opérateurs private equity sur la moitié peu glamour du problème que les enquêtes pointent en permanence : rendre le coût et la valeur de l'IA mesurables, pour que la décision de passer à l'échelle ou d'arrêter repose sur un chiffre plutôt que sur une impression.

Concrètement, cela signifie instrumenter une charge de travail stratégiquement importante jusqu'à l'échelon du coût par résultat dans les premières semaines ; mettre en place la cadence transfonctionnelle — propriétaire métier, ingénierie, finance, risque — que le cadre FinOps appelle un conseil et que nous appelons simplement la salle où le KPI est fixé ; construire la prévisibilité dans le poste de coût plutôt que de la négocier ; et intégrer le risque fournisseur et de prix dans le business case. La forme complète de cette discipline de livraison se trouve dans notre analyse complémentaire sur la couche de livraison sous l'IA et dans le Playbook de création de valeur IA ; le volet réglementaire est dans notre guide de conformité au Règlement IA européen.

Si vous êtes dans l'une des quatre situations acheteur ci-dessus et souhaitez une conversation directe sur la façon de rendre vos dépenses IA mesurables, le moyen le plus rapide de commencer est notre diagnostic Delivery & IA-readiness de deux semaines, à prix fixe — un regard honnête sur la rentabilité de vos dépenses IA et digitales, livré sous forme de mémo prêt pour le comité. Ou utilisez le lien de calendrier ci-dessous.

Sources consultées

Preuves sur le ROI en entreprise

[1] Bain & Company, « AI moves from pilots to production », enquête T3 2025 auprès de dirigeants (n=197) — satisfaction ~80 % parmi les adoptants significatifs, ~23 % déclarant un impact sur les revenus ou les coûts. Corroboré par Bloomberg, « AI Delivers Less Cost Reduction Than Firms Predicted » (juin 2026). À citer comme enquête auprès de dirigeants, pas comme statistique de population.

[2] S&P Global Market Intelligence, Voice of the Enterprise : IA & Machine Learning (~1 006 répondants, Amérique du Nord + Europe) — abandons 17 %→42 % en glissement annuel ; 46 % des projets abandonnés entre PoC et adoption ; recul de l'impact positif sur les revenus (81→76), les coûts (79→74) et les risques (74→70). Chiffres rapportés indépendamment par CIO Dive.

[3] MIT Media Lab initiative NANDA, The GenAI Divide : State of AI in Business 2025 (150 entretiens de dirigeants, enquête auprès de 350 salariés, 300 déploiements publics) — ~95 % de pilotes sans impact mesurable sur le P&L ; entonnoir 60/20/5 ; ~50–70 % du budget vers les ventes & marketing. Via Fortune et le PDF du rapport. Contesté sur le plan méthodologique : Kevin Werbach de Wharton et d'autres remettent en question la dérivation du chiffre des 95 % et les dénominateurs manquants de l'entonnoir ; l'éditeur promeut des protocoles agentiques commerciaux. Présenté dans tout l'article comme ce que le rapport affirme, avec la critique attachée.

[7] Cui, Demirer, Jaffe, Musolff, Peng & Sadun et al., RCT de terrain chez Microsoft, Accenture et un fabricant Fortune 100 (n=4 867 ; pré-enregistré AEARCTR-0014530), publié dans Management Science (2025) — GitHub Copilot a augmenté les tâches complétées de ~26 % (ET ~10,3 %) ; développeurs juniors +27–39 %, seniors +8–13 %. Mesure le débit, pas la qualité du code ni le retour financier.

Opacité du coût des jetons & de l'inférence

[8] Stanford HAI, AI Index 2025 — baisse d'~280 fois du coût par jeton pour une qualité équivalente à GPT-3.5 (20 $ → 0,07 $ par million de jetons, nov. 2022 – oct. 2024). L'ancre principale pour l'ampleur de la baisse des coûts.

[9] VentureBeat, « Cheaper tokens, bigger bills : the new math of AI infrastructure » — consommation en hausse de >100× tandis que le prix baissait de ~10× (plancher à modèle constant) ; le coût est « un problème d'ingénierie qui nécessite un ajustement continu » ; Uber et ServiceNow auraient épuisé leur budget IA annuel 2026 en 4 à 5 mois. Amplification 5–30× des jetons en mode agentique corroborée par CloudZero et IDC. Source secondaire ; traitez le multiple de consommation comme directionnel.

[10] FinOps Foundation, State of FinOps 2026 — ~15 % des entreprises prévoient leur coût IA à ±10 % ; ~1 sur 4 rate la prévision de >50 %. Les prix par jeton, la facturation par étape agent et les coûts de récupération créent une volatilité que la budgétisation traditionnelle ne peut pas gérer. En évolution rapide ; vérifier avant republication.

Économies fournisseurs (comme risque acheteur)

[5] CNBC, « OpenAI resets spend expectations, targets around $600 billion by 2030 » (fév. 2026) — cible de dépenses réduite d'un prétendu 1,4 T$ à ~600 Md$ d'ici 2030 ; revenus 2025 de 13,1 Md$ contre ~8 Md$ de consommation de trésorerie ; revenus 2030 projetés >280 Md$. Corroboré par Reuters et Bloomberg. Chiffres non audités relayés depuis les projections internes d'une société privée — « vise prétendument », pas des comptes.

[6] Moody's Ratings — perspective d'Oracle révisée à négative depuis stable (Baa2 confirmée), citant le risque de concentration de contrepartie lié à un contrat de calcul d'environ 300 Md$ / 4,5 GW avec OpenAI ; qualifié de l'un des plus grands financements de projet au monde. Via Yahoo Finance ; clarifié par The Register comme révision de perspective (mi-2025), pas un abaissement de note. Pour la citation, préférer l'action de notation propre à Moody's sur ratings.moodys.com.

Le playbook de mesure

[4] FinOps Foundation, capacité Économies unitaires — le cadrage définitionnel des économies unitaires sous « Quantifier la valeur métier », et la progression Ramper/Marcher/Courir du coût par jeton vers le coût par assistance / action agent / cas dévié. Le projet Linux Foundation est l'autorité de normalisation pour la gestion des coûts cloud et IA.

[11] FinOps Foundation, groupe de travail Gérer la valeur IA — le Conseil d'investissement IA transfonctionnel et sa composition ; suivi jusqu'au niveau du jeton, du GPU et de la prédiction ; et la concession explicite que quantifier la valeur métier de l'IA est « un défi majeur » sans méthodologie stabilisée pour l'instant.

La provocation

[0] Ed Zitron, « AI Doesn't Have a Return on Investment » et essais connexes — cités comme le pamphlet de cadrage que cet article teste, pas comme source probante. L'argument selon lequel le vrai coût et le ROI de l'IA sont obscurcis est pris au sérieux ci-dessus et vérifié contre des données primaires ; les conclusions plus générales ne sont pas adoptées.

Ce que les preuves ne tranchent pas encore

Quatre questions sont restées ouvertes après cette recherche, et tout lecteur honnête doit les garder en tête : (1) le coût unitaire net agrégé d'une charge de travail agentique représentative après relances, gonflement du contexte et amplification multi-étapes — aucune source n'a quantifié la part de l'économie des « jetons moins chers » qui subsiste au niveau de la charge de travail ; (2) dans quelle mesure les prix actuels des API de modèles de pointe sont, le cas échéant, en dessous du coût — les chiffres de consommation montrent des pertes mais n'isolent pas les économies d'inférence par jeton ; (3) l'instrumentation spécifique et reproductible qui distingue les ~5 % qui passent à l'échelle, avec des données avant/après sur les résultats, au-delà des cadres ci-dessus ; (4) comment l'amortissement des GPU et les hypothèses de durée de vie utile affectent la durabilité des prix actuels. Ce sont les questions à poser à tout prestataire ou équipe interne qui prétend à la certitude.

À lire aussi : Playbook de création de valeur IA · La couche de livraison sous l'IA · Les grands frameworks IA du conseil, comparés (2026) · Stratégie Digitale & IA