La couche de livraison sous l'IA : ce qu'elle est vraiment, par l'exemple
La plupart des programmes GenAI d'entreprise ne calent pas à cause du modèle. Ils calent à cause de la couche de livraison en dessous. Cinq prérequis organisationnels, quatre disciplines d'ingénierie, et ce qu'ils donnent dans des entreprises qui ont réussi — et d'autres qui n'y sont pas arrivées.
L'expression, définie honnêtement
Le tableau en 2026 est cohérent d'une grande enquête à l'autre. Le State of AI 2025 de McKinsey place 88 % des grandes entreprises en train d'utiliser l'IA dans au moins une fonction métier. Une sur trois l'a déployée à l'échelle de l'entreprise. Deux sur cinq peuvent pointer un impact EBIT quelconque. Environ six pour cent déclarent un impact EBIT significatif — la cohorte que McKinsey appelle les AI high performers.
La plupart des programmes GenAI sont coincés sur le large palier de cet escalier, quelque part entre le pilote et la production, et l'explication habituelle est que le modèle n'est pas encore assez bon. Ce n'est presque jamais le cas. Les mêmes modèles qui propulsent les succès en production alimentent aussi les pilotes au point mort.
Sur cinq grandes enquêtes couvrant près de dix mille répondants en entreprise — McKinsey, BCG, Deloitte, IBM et MIT NANDA — aucune ne classe la qualité du modèle parmi les premières causes d'échec. Chaque raison citée en tête est structurelle. Pas de propriétaire clairement désigné. Pas de données prêtes pour la production. Pas de target operating model. Pas de gouvernance qui passe à l'échelle. Pas de capacité de change. Ou, sous chacune de ces raisons : aucune discipline d'ingénierie-livraison — pas de métriques DORA sur l'équipe IA, pas de squad pilote avant le déploiement à grande échelle, pas d'engineering manager responsable du résultat, pas de cadence qui réunit exécutif, squad et risque dans la même pièce.
Le State of DevOps 2025 de Google résume la même observation en une phrase :
"AI doesn't fix a team; it amplifies what's already there. Strong teams use AI to become even better and more efficient. Struggling teams will find that AI only highlights and intensifies their existing problems." — Google DORA, 2025 State of AI-Assisted Software Development
La couche de livraison sous l'IA est la définition opérationnelle de ce que cette phrase désigne. Ce n'est pas de la plomberie de données. Ce n'est pas une slide sur le target operating model. C'est la cadence quotidienne et hebdomadaire qui transforme l'intention de l'operating model en valeur livrée — cinq prérequis organisationnels et quatre disciplines d'ingénierie que des rapports publics permettent de vérifier, cas par cas.
Cet article définit la couche, la détaille, et l'illustre sur neuf entreprises publiques : là où la couche était absente, là où elle était visiblement en place, et une entreprise qui l'a construite, déployée au-delà de ce que les preuves justifiaient, puis publiquement corrigée.
Les cinq prérequis organisationnels
Avant que toute discipline d'ingénierie ait de l'importance, cinq éléments organisationnels doivent être en place. Chacun échoue d'une manière reconnaissable. Ces cinq éléments sont les mêmes que ceux identifiés dans notre article compagnon sur la création de valeur IA ; la question à laquelle cette section répond est ce que chacun donne quand il est absent.
1. Un business owner avec responsabilité P&L
Pas un sponsor IT. Pas un président de comité de pilotage. Pas le lab d'innovation. Un opérateur nommément désigné dont le chiffre sur un P&L trimestriel évolue avec le use case — le responsable des opérations clients, le chief credit officer, le directeur marketing. Si la seule personne qui se présente à la revue mensuelle vient de la technologie, le use case est un projet technologique, et un projet technologique produit rarement une ligne EBIT qu'un CFO peut nommer. Le pilote drive-thru IBM sur trois ans chez McDonald's est le cas d'école le plus parlant : aucun critère de succès public, aucun post-mortem, aucun owner nommé qui aurait payé pour le résultat. Après son arrêt en juillet 2024, ni McDonald's ni IBM n'ont publié de métriques. Un programme de trois ans n'a produit aucun enseignement capitalizable parce qu'aucun opérateur n'en était comptable.
2. Des données prêtes pour la production là où le use case tourne réellement
Le point dur, presque toujours. Le modèle peut être excellent et la démo soignée, mais si les données dont le workflow de production a besoin vivent dans un système que l'équipe IA ne peut pas atteindre, n'ont pas été nettoyées depuis 2019, ou résident dans une région que le use case n'a pas le droit de toucher, le pilote s'arrête au pilote. L'exemple positif est Bloomberg LP : BloombergGPT est un modèle de 50 milliards de paramètres pré-entraîné sur un corpus financier propriétaire Bloomberg de 363 milliards de tokens. L'avantage concurrentiel n'est pas le nombre de paramètres. C'est le corpus — trente ans d'archives financières propriétaires, dans une structure que le modèle peut utiliser. La plupart des entreprises ne peuvent pas égaler cela sur chaque use case. Celles qui livrent apprennent tôt à repérer quels use cases ont une couche data défendable et lesquels n'en ont pas.
3. Un target operating model dans lequel le travail IA s'intègre vraiment
Produit, data, plateforme, sécurité et change doivent se coordonner sur une cadence de livraison. Quand ce n'est pas le cas, le symptôme est reconnaissable : la performance du modèle sur un benchmark est correcte ; le workflow de production est ingérable parce que le service juridique n'a pas signé sur la classe de données, l'équipe plateforme est sur une roadmap différente, et l'équipe change-management apprend le déploiement après le communiqué de presse. L'affaire Air Canada, documentée en justice en février 2024, est exactement ce schéma. Le chatbot a inventé une politique de tarif de deuil. Le Tribunal civil de résolution de la Colombie-Britannique a tenu la compagnie aérienne pour responsable dans Moffatt v. Air Canada, rejetant l'argument de la compagnie — frappant avec le recul — selon lequel le chatbot était « une entité juridique distincte responsable de ses propres actions ». Aucun operating model ne reliait la base de connaissances du chatbot à la politique tarifaire en vigueur. Personne ne possédait cette connexion.
4. Une gouvernance qui passe à l'échelle
À compter du 2 août 2026, le Règlement (UE) 2024/1689 s'applique dans son intégralité à tout système IA à haut risque exploité sur le marché européen. Les catégories qui concernent la majorité des travaux GenAI en entreprise figurent à l'Annexe III : sélection et évaluation des employés, suivi de performance, décisions de crédit et d'assurance, workflows biométriques, évaluation scolaire. L'Article 9 exige un processus continu de gestion des risques sur l'ensemble du cycle de vie du système. L'Article 12 impose une journalisation automatique avec une durée de conservation minimale de six mois pour le déployeur. L'Article 13 exige que le système soit suffisamment interprétable pour que le déployeur puisse l'utiliser de manière appropriée. L'Article 14 exige des personnels de supervision humaine désignés, capables de reconnaître le biais d'automatisation, d'interpréter les résultats, de passer outre les décisions et d'arrêter le système. L'Article 26 impose d'informer les salariés avant le déploiement en milieu de travail et de notifier les individus concernés lorsque des décisions les concernant sont prises à l'aide du système. L'Article 99 fixe les sanctions en cas de non-conformité à hauteur de 35 millions d'euros ou 7 % du chiffre d'affaires annuel mondial total, le montant le plus élevé étant retenu, pour les violations d'IA interdite. Aucune de ces obligations n'est remplie par un modèle qui a bien scoré sur un benchmark. Elles le sont par la cadence opérationnelle en dessous — la cadence qui maintient les personnels de supervision en poste, la journalisation en fonctionnement, et le processus de notification du personnel reproductible. La transaction EEOC de 365 000 dollars d'iTutorGroup en août 2023, pour un outil IA de recrutement ayant auto-rejeté des candidats en raison de leur âge, est un avant-goût de ce que le Règlement IA intégrera dans le marché européen à partir de 2026. Le coût de l'absence de gouvernance n'est plus un risque de réputation. C'est une ligne de compte de résultat.
5. Une capacité de change
Des personnes qui utiliseront les outils, feront confiance aux sorties et réorganiseront leur travail autour d'eux. Le mode d'échec consiste à supprimer les humains avant que l'IA ait prouvé sa fiabilité sur toute la distribution des cas. NEDA, la National Eating Disorders Association, a dissous sa ligne d'assistance humaine et est passée au chatbot Tessa en mai 2023. En moins de dix jours, Tessa recommandait des restrictions caloriques et des objectifs de perte de poids à des personnes souffrant de troubles alimentaires. La couche de change — les conseillers formés qui auraient intercepté les sorties nuisibles — avait été éliminée avant la validation, et non redessinée autour de l'outil. Le schéma positif est différent. Le déploiement de My Assistant chez Walmart, lancé en 2024 par la Chief People Officer Donna Morris, est passé de 50 000 à 75 000 utilisateurs dans onze pays sur un cadre « people-led, tech-powered » qui a maintenu la supervision humaine dans l'operating model dès le premier jour.
Les quatre disciplines de livraison qui font une couche
"Organisations that already organise for bounded agency in humans are well-suited to adopting AI effectively and humanely. Team Topologies offers Agentic AI clear boundaries, stable interfaces, aligned domains and collaborative ownership — the infrastructure for agency itself." — Matthew Skelton, Team Topologies as the Infrastructure for Agency with Humans and AI, QCon London, mars 2026
Les cinq prérequis de la section précédente répondent à la question « l'organisation est-elle prête ? ». Les quatre disciplines de cette section répondent à la question « la cadence de livraison est-elle réelle ? ». La cadence est la partie qui ne survit pas à une slide. C'est la partie sur laquelle la pratique de Bernhard passe la majorité de son temps.
1. Des métriques DORA sur les équipes de livraison IA, pas des benchmarks industriels
Les quatre indicateurs DORA — fréquence de déploiement, délai de mise en production des changements, taux d'échec des changements, temps de restauration du service — ont été publiés dans Accelerate (Forsgren, Humble et Kim, 2018) et constituent depuis lors l'épine dorsale empirique de la recherche sur la livraison logicielle. Le rapport State of DevOps 2024 du programme DORA a introduit quelque chose que le domaine n'avait pas encore : une variable mesurée d'adoption de l'IA. Le constat était inconfortable. Une hausse de 25 % de l'adoption de l'IA au sein d'une équipe était corrélée à une baisse de 1,5 % du débit de livraison et de 7,2 % de la stabilité de livraison. Le rapport de suivi 2025, State of AI-Assisted Software Development, a constaté que le débit s'était redressé, mais que la stabilité restait négative. La phrase la plus citée de ce rapport est celle déjà mentionnée plus haut : « AI doesn't fix a team; it amplifies what's already there. » L'implication est structurelle. Les chiffres DORA qu'une équipe IA fait réellement bouger comptent plus que le modèle qu'elle utilise. L'autre chiffre pertinent vient de l'enquête AI Radar 2025 de BCG auprès de 1 803 dirigeants C-level : 60 % des entreprises ne définissent et ne suivent aucun KPI financier lié à la création de valeur IA. La discipline DORA sur les équipes IA commence là où ces 60 % s'arrêtent. C'est le filtre qui détecte la dégradation silencieuse avant qu'elle n'apparaisse dans les résultats métier.
2. Un squad pilote avant l'échelle
Un seul domaine produit où le leadership tient vraiment. Pas le lab d'innovation. Le schéma Lean Startup, la règle de la two-pizza team, le Skunk Works originel de Lockheed — la filiation est longue et la règle est la même. Goldman Sachs a codifié ce principe en infrastructure institutionnelle : le GS Innovation Center, créé en 2022, est le bac à sable que chaque initiative IA de GS traverse avant tout déploiement à l'échelle de la banque. L'assistant GS AI lancé à l'ensemble de la firme en janvier 2025 est passé par ce chemin. Le même schéma est visible chez JPMorgan : un déploiement interne opt-in de LLM Suite auprès du CIB avant toute exposition côté client. Le COO d'ING, Marnix van Stiphout, a été explicite sur la même discipline : « strict governance that focused all exploration in AI on five areas, and only under the control of the COO ». ING déclare que 90 % de ses pilotes atteignent la production, contre une moyenne sectorielle proche de 30 %. Ce chiffre n'est pas la conséquence de meilleurs modèles. C'est la conséquence de moins de paris simultanés.
3. Des engineering managers formés pour faire tourner le dispositif après le départ des consultants
Des cabinets extérieurs qu'on ne peut pas licencier en année trois, voilà comment les transformations finissent sans propriétaire. La discipline consiste à ancrer le travail dans la ligne de management d'ingénierie interne du client. The Manager's Path de Camille Fournier (O'Reilly, 2017) et An Elegant Puzzle de Will Larson (Stripe Press, 2019) sont les références canoniques sur ce à quoi ressemble ce rôle à l'échelle. Le schéma qui échoue est l'équipe plateforme nommée dans une slide mais sans budget. Le schéma qui réussit est nommé, responsable, et payé sur la ligne d'ingénierie du client. Le déploiement de GitHub Copilot chez Mercado Libre auprès de ses 9 000+ développeurs a été piloté par un SVP Technology nommément désigné (Sebastian Barrios), un bootcamp d'onboarding développeurs de deux mois, et GitHub Advanced Security intégré dans le pipeline CI. Voilà ce que « l'engineering manager en est propriétaire » signifie concrètement dans les rapports publics.
4. Exécutif, squad et risque dans la même pièce, sur une vraie cadence
Hebdomadaire pour la livraison. Mensuelle pour la valeur. Trimestrielle pour le plan de création de valeur lui-même. L'anti-schéma que Marty Cagan et Chris Jones ont nommé dans Empowered (Wiley, 2020) est le « Puppet Master » — des dirigeants qui imposent des solutions tout en faisant semblant d'autonomiser les équipes. Le modèle autonomisé assigne des problèmes, pas des solutions, et utilise la cadence de gouvernance pour faire respecter la responsabilité sans microgestion. L'histoire en deux phases du service client IA de Klarna illustre ce que donne une cadence opérationnelle, même lorsque le pari sous-jacent doit être partiellement corrigé. En phase un, en février 2024, un agent de service client propulsé par OpenAI a été déployé sur 23 marchés avec des résultats mesurés (67 % des chats traités sans intervention humaine, temps de résolution ramené de 11 minutes à moins de 2). En phase deux, quinze mois plus tard, la substitution a été partiellement annulée : le CEO Sebastian Siemiatkowski a déclaré à Bloomberg que la firme recrutait à nouveau des humains pour les cas complexes, de fraude et de détresse, parce que le cadre d'évaluation initial avait sur-pondéré vitesse et coût au détriment de la qualité sur les cas limites. C'est la cadence de gouvernance qui fonctionne comme prévu — y compris la partie où elle change de cap.
Cas concrets — lorsque la couche manque
Quatre cas publics, chacun ancré dans des sources primaires, chacun cartographié sur le prérequis ou la discipline structurellement absent. Le schéma est constant : dans chaque cas, le modèle était correct. La couche en dessous ne l'était pas.
Chatbot Air Canada · février 2024
Le Tribunal civil de résolution de la Colombie-Britannique a examiné l'affaire Moffatt v. Air Canada en février 2024. M. Moffatt avait interrogé le chatbot de la compagnie aérienne sur les tarifs de deuil après le décès de sa grand-mère. Le chatbot lui avait indiqué qu'il pouvait demander rétroactivement un tarif réduit dans un délai de quatre-vingt-dix jours. Cette politique n'existait pas. Air Canada a refusé le remboursement et, devant le tribunal, a soutenu que le chatbot était « une entité juridique distincte responsable de ses propres actions ». Le tribunal a rejeté cet argument, a retenu la fausse déclaration par négligence et accordé 812,02 CAD plus les frais. L'affaire est modeste en termes financiers et majeure en termes structurels. Le prérequis absent était le target operating model : personne n'était propriétaire du lien entre la base de connaissances du chatbot et la politique tarifaire en vigueur. Produit, juridique et opérations ne se coordonnaient pas sur une cadence de livraison. La discipline absente était la cadence de gouvernance : il n'existait ni parcours de révision humaine pour les requêtes politiques inédites, ni piste d'audit qui aurait pu détecter la réponse hallucinée avant qu'elle n'atteigne un client en deuil. La décision de justice rend le coût d'un operating model défaillant lisible d'une façon qu'aucune présentation de conseil ne saurait faire.
Chatbot NYC MyCity · mars 2024
L'enquête de mars 2024 de The Markup sur le chatbot officiel de New York pour les petites entreprises — un déploiement Microsoft Azure annoncé par le maire Adams en octobre 2023 — l'a trouvé en train de conseiller aux propriétaires de refuser les bons logement Section 8, aux employeurs de s'approprier les pourboires des salariés, et aux commerces de refuser les paiements en espèces. Chacune de ces réponses constitue, à première vue, une violation de la loi municipale. La ville a refusé de retirer le chatbot après la publication ; il est resté actif pendant des mois. Le prérequis absent était la gouvernance à l'échelle. Aucune revue de risque modèle appliquée au droit municipal de New York. Aucune supervision humaine des sorties avant la mise en ligne. Aucune piste d'audit. Le Département des services aux petites entreprises, le service juridique de la ville et les responsables technologiques opéraient en circuits séparés. Ce cas préfigure ce que le Règlement IA européen intégrera dans le marché à partir du 2 août 2026 — à la différence que le contribuable new-yorkais paie la facture quoi qu'il arrive, tandis que le déployeur européen la paiera au titre de l'Article 99.
Outil IA de recrutement d'iTutorGroup · transaction EEOC, août 2023
L'EEOC américaine (Equal Employment Opportunity Commission) a annoncé sa première transaction pour discrimination sur le lieu de travail impliquant l'IA en août 2023. Le système de présélection automatique d'iTutorGroup avait rejeté automatiquement plus de deux cents candidats américains sur la seule base de l'âge — les femmes à partir de 55 ans, les hommes à partir de 60 ans. La discrimination a été découverte lorsqu'un seul candidat a soumis deux dossiers identiques ne différant que par la date de naissance et a reçu des décisions différentes. La transaction : 365 000 dollars, formation obligatoire contre la discrimination, cinq ans de surveillance EEOC, et obligation de réinviter chaque candidat rejeté. Le prérequis absent était, là encore, la gouvernance à l'échelle : aucun test d'impact disparate, aucun cadre de model risk, aucune piste d'audit — aucune des diligences de droit du travail de routine qu'un processus de sélection humaine aurait emportées. La discipline absente était la cadence de gouvernance : aucun exécutif, aucun engineering manager et aucun responsable du risque juridique ne se sont jamais réunis dans la même pièce à propos du système avant son déploiement. L'affaire EEOC est désormais le modèle américain de la responsabilité pour l'IA en matière d'emploi ; à partir d'août 2026, l'Article 26 du Règlement IA exigera que les salariés soient informés avant tout déploiement en milieu de travail et que les individus concernés soient notifiés lorsque le système est utilisé pour prendre des décisions les concernant. Même défaillance, deux régulateurs, deux expositions chiffrées.
Agent service client Klarna, phase deux · recul de mai 2025
En février 2024, l'agent service client OpenAI de Klarna a été lancé sur 23 marchés, a traité 2,3 millions de conversations en son premier mois et a réduit le temps de résolution moyen de onze minutes à moins de deux. En mai 2025, le CEO Sebastian Siemiatkowski a publiquement annoncé un recul : des humains étaient réembauchés pour les cas complexes, de fraude et de détresse. La substitution était, selon ses propres mots, allée trop loin. La phase un ressemble à un succès d'école. La phase deux est le schéma d'échec. Le prérequis absent en phase un était la capacité de change. Klarna avait supprimé la main-d'œuvre humaine — la couche qui aurait détecté la dégradation sur les cas limites — avant que l'IA ait prouvé sa capacité à couvrir l'ensemble de la distribution des cas. La discipline absente était la discipline d'ingénierie-livraison de mesurer ce qui compte. Les critères d'acceptation de Klarna mesuraient le temps de résolution moyen. Ils ne mesuraient pas la satisfaction client sur les tickets complexes, émotionnels ou liés à la fraude, là précisément où l'IA s'est silencieusement dégradée. Le cas Klarna est un exemple jumelé : la phase un montre l'apparence du cas avec trois prérequis sur cinq et trois disciplines sur quatre visiblement en place, et la section suivante y revient sous cet angle. La phase deux montre ce qui arrive quand les éléments manquants rattrapent leur retard.
Trois cas supplémentaires corroborent les schémas ci-dessus sans ancrer la section. Le pilote de commande vocale au drive-thru IBM de McDonald's sur trois ans, arrêté en juin 2024, illustre le business owner absent : aucun opérateur nommé, aucun critère de succès public, aucune métrique, aucun post-mortem. Le chatbot Tessa de NEDA, retiré en juin 2023 après avoir recommandé des restrictions caloriques à des personnes souffrant de troubles alimentaires, illustre l'absence de capacité de change à l'extrême. Le chatbot de livraison britannique DPD, qui en janvier 2024 a insulté un client et écrit de la poésie dérogatoire sur son propre employeur après une mise à jour de routine du système, illustre l'absence de discipline d'ingénierie-livraison : aucune passerelle de staging, aucun test de régression, aucun red-team entre la mise à jour et le trafic en production.
Cas concrets — lorsque la couche est visiblement en place
Quatre cas publics où la couche est visiblement présente dans les rapports. Des owners nommés. Des données de production. Des squads pilotes avant l'échelle. Des engineering managers qui possèdent le résultat. Une cadence de gouvernance qui réunit exécutif, squad et risque. Les chiffres ci-dessous sont ceux que les opérateurs eux-mêmes déclarent publiquement.
ING Bank · la référence
ING est, sur la base des preuves publiques, l'exemple le plus probant de ce que la couche donne en production. Opérant depuis les Pays-Bas avec une empreinte de banque de détail et de gros à l'international, ING a fait passer l'ensemble de son portefeuille GenAI — chatbot client, KYC et due diligence client, surveillance des transactions, copilote développeur, pilote hypothécaire agentique — par une plateforme centralisée sous la responsabilité personnelle du COO. Le Chief Operating Officer Marnix van Stiphout possède le programme. Le Chief Technology Officer Daniele Tonella, cité par Computer Weekly, résume le principe opérationnel en une phrase : « strict governance that focused all exploration in AI on five areas, and only under the control of the COO ». La règle des cinq domaines est la discipline du squad pilote institutionnalisée — pas cinq cents expériences, cinq. Le chiffre résultat principal est celui qui devrait faire s'arrêter tout CFO et tout opérateur private equity : 90 % des pilotes d'ING atteignent la production, contre une moyenne sectorielle proche de 30 %. Les chiffres d'appui sont cohérents. 75 % des requêtes clients traitées de façon autonome sur l'ensemble du parc du chatbot retail. Le KYC compressé de jours ou semaines à quelques secondes. 10 000 alertes quotidiennes de surveillance des transactions filtrées à environ 500 pertinentes pour les analystes compliance. Cinq mille salariés formés à la littéracie des données et au GenAI. 140 risques IA distincts validés dans un cadre de conformité au Règlement IA qui anticipe déjà la date butoir du 2 août 2026. ING est le cas public le plus proche du schéma de la section précédente. Chaque case est pourvue.
BBVA · déploiement progressif vers 120 000 salariés
Le déploiement GenAI de BBVA est le schéma pilote-vers-échelle de référence. La banque espagnole a démarré en mai 2024 avec 3 300 licences ChatGPT Enterprise. Fin 2024, le déploiement était à 11 000. En décembre 2025, la banque annonçait l'extension à l'ensemble de ses quelque 120 000 salariés, Bloomberg corroborant indépendamment. Le programme est piloté par Elena Alfaro en tant que Global Head of AI Adoption, avec Ricardo Martín Manjón comme Global Head of Data et le président Carlos Torres Vila signataire de l'alliance stratégique OpenAI. Les métriques de résultat ont le niveau de précision que les conseils voient rarement : 83 % des titulaires de licence engagés chaque semaine selon le suivi AI Adoption de BBVA, 2,8 à 3 heures économisées par salarié et par semaine, plus de 4 800 GPT personnalisés construits par des salariés dont environ 700 référencés dans un GPT Store interne. Le chiffre le plus précis concerne une seule fonction : le GPT de Legal Services de BBVA a automatisé plus de 9 000 requêtes de bastanteo par an et a fourni 26 % du KPI d'économies annuelles de la direction des affaires juridiques. Ce niveau de précision dans l'attribution d'un KPI arrive rarement dans un communiqué de presse. Quand c'est le cas, c'est parce que l'operating model l'a produit — pas le modèle.
JPMorgan Chase LLM Suite
JPMorgan Chase a mis son travail GenAI sur la place publique dans la lettre du rapport annuel 2025 de Jamie Dimon et dans un long entretien McKinsey avec le Chief Analytics Officer Derek Waldron. LLM Suite, la plateforme GenAI interne agnostique au modèle de la banque, gère plus de 450 use cases en production contre un budget technologique annuel d'environ 18 milliards de dollars. La plateforme a atteint plus de 65 000 utilisateurs CIB actifs et quelque 200 000 salariés à l'échelle de la firme en huit mois — déploiement opt-in, côté salariés avant toute exposition client, gouverné sous une architecture à trois piliers (usine ML OmniAI + LLM Suite + recherche fondamentale). La discipline visible dans les rapports publics est le CAO nommément désigné comme propriétaire du programme, la philosophie de dérisquage avant mise à l'échelle, et l'adoption progressive par les salariés qui a fait émerger ses propres use cases. Le chiffre de productivité qu'avancent les opérateurs : une présentation bancaire d'investissement construite en environ trente secondes qui prenait auparavant des heures, avec trois à six heures économisées par utilisateur CIB et par semaine.
Goldman Sachs · GS AI Platform et Innovation Center
La discipline de Goldman est institutionnelle. Le Chief Information Officer Marco Argenti est publiquement le propriétaire nommément désigné. Le GS Innovation Center, créé en 2022, est le squad pilote avant l'échelle — chaque initiative IA de GS le traverse avant tout déploiement à l'échelle de la banque. GitHub Copilot a été déployé auprès de l'ensemble des 12 000 développeurs de la firme ; le chiffre de productivité public cité par Argenti — repris par American Banker et Fortune — est d'environ 20 %, l'équivalent de 2 400 développeurs supplémentaires. En janvier 2025, GS AI, un assistant agnostique au modèle couvrant GPT, Gemini et Claude, a été étendu à l'ensemble des 46 000 salariés. À mi-2025, la banque déclarait environ un million de prompts par mois à l'échelle de la firme. Les contrôles de gouvernance sont documentés publiquement : surveillance automatisée, réduction des hallucinations, garde-fous de protection de l'information, signalement du contenu des prompts, IA benchmarkée par rapport à la performance humaine plutôt qu'en précision absolue. L'essentiel n'est pas que ces contrôles soient exotiques. L'essentiel est qu'ils soient publics, nommés et permanents.
Trois cas supplémentaires corroborent les schémas ci-dessus. L'étude de productivité GitHub Copilot évaluée par les pairs — Communications of the ACM, mars 2024, n = 95 développeurs professionnels — reste l'evidence de référence du domaine : les utilisateurs de Copilot ont accompli une tâche identique 55,8 % plus vite que le groupe de contrôle, avec un taux de complétion de 78 % contre 70 %. Le déploiement de GitHub Copilot en Amérique latine par Mercado Libre auprès de ses 9 000+ développeurs illustre la discipline de propriété de l'engineering manager (SVP Technology nommé Sebastian Barrios), un bootcamp de deux mois, GitHub Advanced Security intégré dans le pipeline CI, et quelque 100 000 pull requests par jour comme proxy DORA de fréquence de déploiement. BloombergGPT, un modèle de 50 milliards de paramètres pré-entraîné sur un corpus financier propriétaire Bloomberg de 363 milliards de tokens, est l'exemple le plus net du prérequis données prêtes pour la production transformé en avantage concurrentiel durable. Vingt ans d'archives financières structurées constituent la couche data. Le modèle est la couche qui repose dessus.
Klarna appartient aussi à cette section. La phase un de son IA de service client — la période de février 2024 au début 2025 — portait visiblement quatre des cinq prérequis : un opérateur CEO nommé sur le P&L, des données de production dans un workflow réel, un operating model intégrant l'IA dans les remboursements et retours transactionnels, et une cadence de gouvernance qui a finalement détecté et agi sur la dégradation qualité. Les deux éléments manquants étaient la discipline d'ingénierie-livraison qui aurait capté la dégradation sur les cas limites plus tôt (la mauvaise métrique d'acceptation était surveillée), et le tampon de capacité de change qui aurait dû être préservé pendant la montée en charge. La phase deux illustre l'apparence d'une cadence de gouvernance honnête lorsque ces lacunes remontent à la surface. La correction de cap a été publique, rapide et documentée. C'est plus proche d'un succès que d'un échec même lorsque le résultat affiché s'inverse, parce que l'operating model a produit le changement.
Le diagnostic : cinq conditions, quatre disciplines
Le tableau ci-dessous cartographie les huit cas concrets sur les neuf éléments structurels. Lire ligne par ligne : un point plein vert signifie que l'élément était visiblement présent dans les rapports publics ; un cercle en pointillé vide signifie qu'il était visiblement absent ou que le cas repose sur son absence ; une marque mi-teintée signifie partiel. La légende figure sous le tableau.
| Cas | Cinq prérequis organisationnels | Quatre disciplines de livraison | |||||||
|---|---|---|---|---|---|---|---|---|---|
| Owner | Data | Op model | Gov | Change | DORA | Pilote | EM | Cadence | |
| Air Canada chatbot | ~ | ~ | ○ | ○ | ~ | ○ | ~ | ○ | ○ |
| NYC MyCity | ○ | ~ | ○ | ○ | ○ | ○ | ○ | ○ | ○ |
| iTutorGroup AI hiring | ○ | ~ | ~ | ○ | ~ | ○ | ○ | ○ | ○ |
| Klarna AI · recul phase 2 | ● | ● | ● | ~ | ○ | ○ | ~ | ~ | ● |
| ING Bank | ● | ● | ● | ● | ● | ● | ● | ● | ● |
| BBVA | ● | ● | ● | ● | ● | ~ | ● | ● | ● |
| JPMorgan LLM Suite | ● | ● | ● | ~ | ● | ~ | ● | ● | ● |
| Goldman Sachs GS AI | ● | ● | ● | ● | ● | ~ | ● | ● | ● |
Trois observations à retenir. Premièrement, les cas d'échec se concentrent sur la partie droite du tableau, pas la gauche. Dans chaque cas d'échec, au moins une des quatre disciplines de livraison est absente — généralement la cadence de gouvernance, l'engineering manager propriétaire, ou les deux. Le modèle n'était pas le problème. La cadence l'était. Deuxièmement, les cas de succès ne sont pas parfaits. JPMorgan, BBVA et Goldman portent tous une marque partielle sur les métriques DORA appliquées aux équipes IA — les rapports publics ne montrent pas encore de tableaux de bord DORA formels pour leur travail IA, même si le reste de la couche est visiblement en place. C'est la frontière actuelle du domaine ; ce n'est pas un échec de ces programmes, c'est une lacune dans la pratique. Troisièmement, ING est le seul cas du tableau avec les neuf cases remplies. D'autres programmes méritent probablement de figurer dans la colonne de droite. ING est celui dont le Chief Operating Officer a mis le principe opérationnel sur la place publique — cinq domaines autorisés, uniquement sous le contrôle du COO — et dont le taux de 90 % de pilotes atteignant la production est publiquement vérifiable.
Comment appliquer le tableau à votre propre programme. Prenez le use case GenAI le plus important stratégiquement actuellement en cours. Pour chacune des neuf colonnes, répondez à une question : y a-t-il un humain nommé, sur le record, qui possède cette colonne pour ce use case ? Owner : l'opérateur dont le chiffre sur le P&L bougera. Data : l'ingénieur responsable de la fraîcheur, de la classification et des droits d'accès aux données dont le modèle a besoin en production. Op model : la personne qui peut convoquer produit, data, plateforme, sécurité et change dans la même pièce la semaine prochaine. Gouvernance : le responsable juridique et risque qui a lu les Articles 9, 12, 13, 14 et 26 du Règlement (UE) 2024/1689 et les a validés. Change : le responsable du change management qui n'a pas été dissous. DORA : l'ingénieur capable de citer le lead time et le taux d'échec des changements de votre équipe IA ce matin. Pilote : le squad qui possède la cible de production avant que quiconque d'autre n'obtienne le système. EM : l'engineering manager qui sera encore aux commandes dans deux ans quand les consultants seront partis. Cadence : la revue hebdomadaire de livraison, la revue mensuelle de valeur et la revue trimestrielle du plan de création de valeur, avec la liste de présence.
La note de passage, selon notre expérience, est d'environ quatre sur neuf pour lancer un programme sérieux et sept sur neuf pour attendre de la valeur en production à l'échelle. En dessous de quatre sur neuf, le travail n'est pas encore un problème de livraison ; c'est un problème de leadership — et une couche de livraison n'est pas la première chose dont l'organisation a besoin.
Comment lire cela si vous êtes l'acheteur
Si vous êtes CEO, membre d'un conseil, directeur de la transformation ou opérateur private equity, le débat sur le GenAI s'est scindé en quatre situations d'acheteur distinctes. Le cadrage ci-dessous coupe à travers le bruit plus vite que n'importe quelle grille de notation.
Situation 1 — le conseil demande « sur quel modèle devons-nous miser ? ». C'est presque toujours la mauvaise question. La bonne est : quel use case dispose de la couche en dessous ? Un conseil qui passe une réunion sur Claude versus GPT versus Gemini consacre une heure à la partie la moins décisive. La même heure sur les quatre disciplines de livraison — qui possède les métriques DORA, où se trouve le squad pilote, quel engineering manager le fait tourner après le départ des consultants, quand exécutif, squad et risque se réunissent dans la même pièce — déplacera l'investissement IA plus que n'importe quelle sélection de modèle. La réponse à la question du modèle est : « ça change tous les trimestres, et ça n'a pas d'importance ; choisissez celui qui correspond à la couche data que vous avez déjà ».
Situation 2 — CEO avec des pilotes au point mort. Le tableau ci-dessus est l'ordre de diagnostic. Commencez par les quatre colonnes de droite (les disciplines), pas les cinq de gauche (les prérequis). Si les disciplines sont absentes, aucune correction des prérequis ne produira de valeur en production — les prérequis s'accumulent en déclarations de disponibilité et le travail n'est pas livré. Si les disciplines sont en place mais pas les prérequis, le travail est livré dans le vide — déploiement en production sans opérateur propriétaire du P&L, sans gouvernance qui résiste à un audit, sans couche de change qui utilise le résultat. Trois mois de cadence disciplinée sur un seul use case vaut mieux que douze mois de pilotes sur six.
Situation 3 — due diligence private equity. L'évaluation commerciale et technologique a désormais besoin d'une section sur la livraison IA. Trois questions coupent à travers le deck de management. Premièrement, nommez la charge de travail GenAI en production qui a déplacé une ligne sur le dernier P&L trimestriel ; si elle n'existe pas, la revendication IA est du théâtre. Deuxièmement, nommez l'opérateur qui en est propriétaire ; si la réponse est un DSI ou un Chief Innovation Officer plutôt qu'un responsable de P&L, la charge de travail est de la technologie, pas de la valeur. Troisièmement, demandez à voir le tableau de bord DORA de l'équipe IA des six derniers mois — si ce tableau de bord n'existe pas, la couche de livraison disciplinée n'est pas en place et la thèse de création de valeur IA sur la période de détention doit être décotée. Une réponse propre aux trois questions ajoute des tours de visibilité EBITDA ; une réponse impropre devrait réévaluer l'actif à la baisse.
Situation 4 — intégration post-fusion. Deux portefeuilles IA, presque toujours, avec des use cases qui se chevauchent et des operating models déconnectés. La tentation est de fusionner les outils. La bonne décision est de fusionner la couche. Un business owner par use case consolidé. Un responsable d'operating model par fonction intégrée. Une cadence de gouvernance unique sur le nouveau périmètre, cartographiée sur l'Article 26 du Règlement IA si l'une ou l'autre entité opère sur le marché européen. Les questions de modèle et d'outillage peuvent attendre six mois ; la couche ne peut pas.
Trois questions coupent à travers un pitch fournisseur plus vite que n'importe quelle grille d'appel d'offres. « Montrez-moi l'opérateur nommé qui possèdera ce use case lundi. » « Montrez-moi l'engineering manager côté client qui le fera encore tourner dans deux ans. » « Montrez-moi les métriques DORA de l'équipe IA de votre dernière mission. » Si un cabinet ne peut pas répondre aux trois, ce que vous achetez est de l'enablement, pas de la livraison.
Où se situe Consulting Huber
Consulting Huber est un cabinet de praticiens. Nous ne rivalisons pas sur la taille d'un banc SAFe-certifié d'un Big Four, sur le dispositif de livraison mondial d'un MBB, ni sur le volume de cas phares nommés que permet une masse salariale de mille consultants. Nous nous positionnons sur le problème opposé : des CEO, conseils, directeurs de la transformation et opérateurs private equity qui veulent la couche de livraison d'un grand cabinet, délivrée directement par des praticiens seniors, avec la compétence transférée au management d'ingénierie interne du client à la fin de la mission.
Concrètement, cela signifie : un business owner nommé pour chaque use case avant que la première ligne de code soit écrite ; les métriques DORA installées sur l'équipe de livraison IA dans les six premières semaines ; le squad pilote placé dans le domaine produit où le leadership tient vraiment ; l'engineering manager qui le fera tourner après notre départ nommé dès le premier jour et accompagné tout au long de la mission ; une cadence de gouvernance qui réunit exécutif, squad et risque dans la même pièce chaque semaine, chaque mois et chaque trimestre. Le modèle n'est pas une dépendance à une plateforme. C'est l'inverse. Nous travaillons à nous rendre inutiles à la fin de la mission, et nous laissons au client le droit de nous remercier à la fin de chaque cycle. Le cadre complet de ce travail — discipline d'ingénierie, design d'équipe, métriques de livraison — est présenté dans notre pratique d'agile engineering et de delivery.
Si vous êtes un opérateur confronté à l'une des quatre situations décrites ci-dessus et souhaitez une conversation directe sur la façon dont la couche s'installerait dans votre contexte spécifique, le lien de calendrier ci-dessous est le moyen le plus rapide de commencer.
Sources consultées
Les fondements de la couche de livraison
Forsgren, Humble & Kim, Accelerate: The Science of Lean Software and DevOps (IT Revolution, 2018 ; 2e éd. 2025), ISBN 978-1-942788-33-1, itrevolution.com/product/accelerate · Google DORA, Accelerate State of DevOps 2024 · Google DORA, 2025 State of AI-Assisted Software Development · Skelton & Pais, Team Topologies (IT Revolution, 2019 ; 2e éd. 2025), ISBN 978-1-942788-81-2, itrevolution.com/product/team-topologies · Matthew Skelton, Team Topologies as the Infrastructure for Agency with Humans and AI, QCon London, mars 2026 · Fournier, The Manager's Path (O'Reilly, 2017), ISBN 978-1-491973-89-9 · Larson, An Elegant Puzzle (Stripe Press, 2019), ISBN 978-1-732265-18-9 · Cagan & Jones, Empowered (Wiley, 2020), ISBN 978-1-119691-29-7 · CNCF, Platforms White Paper et Platform Engineering Maturity Model · Humanitec, State of Platform Engineering Vol. 3 (2024).
Du pilote au P&L et la base de preuves sur les taux d'échec
McKinsey QuantumBlack, State of AI: How Organizations Are Rewiring to Capture Value (mars 2025, n = 1 993) · BCG, AI Radar 2025 : Closing the AI Impact Gap (n = 1 803) · BCG, The Widening AI Value Gap (septembre 2025) · IBM Institute for Business Value, 2025 CEO Study (mai 2025, n = 2 000) · Deloitte, State of Generative AI in the Enterprise Q4 2024 (n = 2 773) · MIT NANDA, The GenAI Divide: State of AI in Business 2025 (juillet 2025, utilisé comme fourchette directionnelle aux côtés de McKinsey) · RAND Corporation, Why AI Projects Fail and How They Can Succeed (août 2024).
Réglementation
Parlement européen et Conseil, Règlement (UE) 2024/1689 (le Règlement IA) · artificialintelligenceact.eu explorateur article par article · Articles 5, 6, 9, 10, 12, 13, 14, 26, 50, 51, 53, 55, 99, 113 et Annexe III cités au §2.
Cas d'échec (sources primaires)
Moffatt v. Air Canada, 2024 BCCRT 149 — décision intégrale CanLII · EEOC v. iTutorGroup, Inc., 1:22-cv-02565 (E.D.N.Y.) — communiqué EEOC et dossier de l'affaire · The Markup, « NYC's AI Chatbot Tells Businesses to Break the Law » (mars 2024) · Communiqué Klarna, « AI assistant handles two-thirds of customer service chats » (fév. 2024) · Fortune, « Klarna AI humans return on investment » (mai 2025) · Restaurant Dive, « McDonald's ends IBM drive-thru voice order test » (juin 2024) · NPR, couverture Tessa NEDA (juin 2023) · Fox Business, couverture chatbot DPD (janvier 2024).
Cas de succès (sources primaires)
ING : Computer Weekly, « How ING reaps benefits of centralising AI » ; McKinsey, entretien avec le COO Marnix van Stiphout. BBVA : annonce de l'alliance stratégique BBVA-OpenAI (déc. 2025) ; couverture Bloomberg. JPMorgan : Rapport annuel 2025 ; entretien McKinsey avec le CAO Derek Waldron. Goldman Sachs : CNBC lancement firme entière (janvier 2025) ; entretien Fortune avec le CIO Marco Argenti. GitHub Copilot : Peng et al., arXiv:2302.06590 (février 2023) ; Communications of the ACM (mars 2024) ; témoignage client Mercado Libre. BloombergGPT : Wu et al., arXiv:2303.17564 (mars 2023) ; communiqué Bloomberg.
À lire aussi : Playbook de création de valeur IA · Les grands frameworks IA du conseil, comparés (2026) · The Big Consulting Agile Frameworks, Compared (2026) · Stratégie digitale & IA