← Digital- & KI-Strategie

Die Delivery-Ebene unter der KI: was sie wirklich ist, an Beispielen

Die meisten Enterprise-GenAI-Programme stagnieren nicht wegen des Modells, sondern wegen der Delivery-Ebene darunter. Fünf organisatorische Voraussetzungen, vier Engineering-Disziplinen — und wie sie in der Praxis aussehen: Unternehmen, die es richtig gemacht haben, und solche, die es nicht haben.

Ein Praktiker-Deep-Dive · Consulting Huber · 2026

Bernhard Huber

Interim Executive & Innovation Leader · CV · LinkedIn

Der Begriff, ehrlich definiert

Das Bild im Jahr 2026 ist konsistent über alle grossen Studien hinweg. McKinseys State of AI 2025 verzeichnet 88 % der Grossunternehmen, die KI in mindestens einer Geschäftsfunktion einsetzen. Jedes dritte hat sie unternehmensweit skaliert. Zwei von fünf können auf irgendeinen EBIT-Effekt zeigen. Rund sechs Prozent berichten von einem messbaren EBIT-Beitrag — die Kohorte, die McKinsey als KI-Hochleister bezeichnet.

Die meisten GenAI-Programme stehen auf der breiten Stufe dieser Treppe, irgendwo zwischen Pilot und Produktion — und die Standarderklärung lautet, das Modell sei noch nicht gut genug. Das stimmt fast nie. Die gleichen Modelle, die produktive Erfolge antreiben, treiben auch die stagnierenden Piloten an.

Über fünf primäre Studien mit fast zehntausend befragten Enterprise-Entscheidern — McKinsey, BCG, Deloitte, IBM und MIT NANDA — listet keine einzige Modellqualität als häufigsten Misserfolgsgrund. Jeder Spitzengrund ist strukturell. Kein klarer Eigentümer. Keine produktionsreifen Daten. Kein Target Operating Model. Keine skalierbare Governance. Keine Change-Kapazität. Oder, als Fundament von alldem: keinerlei Engineering-Delivery-Disziplin — keine DORA-Metriken auf dem KI-Team, kein Pilot-Squad vor der Skalierung, kein Engineering Manager, dem das Ergebnis gehört, keine Kadenz, die Exec, Squad und Risk in einen Raum bringt.

Googles State of DevOps 2025 bringt dieselbe Beobachtung auf einen Satz:

"AI doesn't fix a team; it amplifies what's already there. Strong teams use AI to become even better and more efficient. Struggling teams will find that AI only highlights and intensifies their existing problems." — Google DORA, 2025 State of AI-Assisted Software Development

Die Delivery-Ebene unter der KI ist die Arbeitsdefinition dessen, was dieser Satz benennt. Sie ist kein Daten-Plumbing. Sie ist keine Target-Operating-Model-Folie. Sie ist die tägliche und wöchentliche Kadenz, die Operating-Model-Intent in ausgelieferten Wert verwandelt — fünf organisatorische Voraussetzungen und vier Engineering-Disziplinen, die öffentliche Berichte Fall für Fall belegen können.

Dieser Beitrag definiert die Ebene, durchleuchtet sie und zeigt sie an neun öffentlichen Unternehmen: wo die Ebene fehlte, wo sie sichtbar vorhanden war, und eines, das sie aufgebaut, weiter skaliert hat, als die Belege es trugen, und dann öffentlich einen Schritt zurückging.

Die fünf organisatorischen Voraussetzungen

Bevor irgendeine Engineering-Disziplin greift, müssen fünf organisatorische Elemente vorhanden sein. Jedes scheitert auf eine erkennbare Weise. Die Bezeichnungen sind dieselben fünf, die unser Begleitartikel zur KI-Wertschöpfung identifiziert; die Frage, die dieser Abschnitt beantwortet, ist, wie jedes dieser Elemente aussieht, wenn es fehlt.

1. Ein Business Owner mit P&L-Verantwortung

Nicht ein Sponsor aus IT. Nicht der Vorsitz eines Steering Committee. Nicht das Innovationslabor. Ein namentlich benannter Operator, dessen Zahl auf einer quartalsweisen G+V mit dem Use Case verknüpft ist — der Leiter Customer Operations, der Chief Credit Officer, der Marketingleiter. Wenn zur monatlichen Review nur jemand aus der Technologie erscheint, ist der Use Case ein IT-Projekt — und ein IT-Projekt produziert selten eine EBIT-Zeile, die ein CFO benennen kann. McDonalds dreijähriger IBM-Drive-through-Pilot ist das anschaulichste Warnsignal: keine öffentlichen Erfolgskriterien, keine Post-mortem-Analyse, kein namentlicher Eigentümer, der für das Ergebnis einstand. Nachdem er im Juli 2024 abgeschaltet wurde, veröffentlichte weder McDonald's noch IBM Kennzahlen. Ein dreijähriges Programm hat kein lernbares Ergebnis hinterlassen, weil kein Operator auf dem Spiel stand.

2. Produktionsreife Daten genau dort, wo der Use Case läuft

Fast immer der harte Teil. Das Modell kann exzellent sein und die Demo poliert, aber wenn die Daten, die der Produktions-Workflow benötigt, in einem System liegen, das das KI-Team nicht erreichen kann, zuletzt 2019 bereinigt wurden oder in einer Region liegen, die der Use Case nicht nutzen darf, endet der Pilot beim Pilot. Das positive Gegenbeispiel ist Bloomberg LP: BloombergGPT ist ein 50-Milliarden-Parameter-Modell, das auf einem 363-Milliarden-Token-Korpus aus Bloomberg-eigenen Quellen trainiert wurde. Der Wettbewerbsvorteil liegt nicht in der Parameteranzahl. Er liegt im Korpus — dreissig Jahre proprietäres Finanzarchiv in einer Struktur, die das Modell nutzen kann. Die meisten Unternehmen können das nicht für jeden Use Case replizieren. Die, die liefern, lernen früh zu erkennen, welche Use Cases eine belastbare Datenschicht haben — und welche nicht.

3. Ein Target Operating Model, in das die KI-Arbeit wirklich passt

Produkt, Daten, Plattform, Security und Change müssen auf einer gemeinsamen Lieferkadenz koordinieren. Fehlt das, ist das Symptom vertraut: die Modellperformance auf dem Benchmark ist gut; der Produktions-Workflow ist nicht baubar, weil Legal die Datenklasse nicht freigegeben hat, das Plattform-Team auf einer anderen Roadmap fährt und das Change-Management-Team erst nach der Pressemitteilung von der Einführung erfährt. Der gerichtlich dokumentierte Air-Canada-Chatbot-Fall vom Februar 2024 folgt genau diesem Muster. Der Chatbot erfand eine Trauertarif-Richtlinie. Das British Columbia Civil Resolution Tribunal befand die Airline im Fall Moffatt v. Air Canada für haftbar und wies das — im Nachhinein bemerkenswerte — Argument der Airline zurück, der Chatbot sei "eine separate juristische Person, die für ihre eigenen Handlungen verantwortlich ist". Kein Operating Model verknüpfte die Wissensbasis des Chatbots mit den gültigen Tarifen. Niemand besass diese Verbindung.

4. Governance, die skaliert

Ab dem 2. August 2026 gilt die Verordnung (EU) 2024/1689 vollumfänglich für jedes Hochrisiko-KI-System, das auf dem europäischen Markt betrieben wird. Die Kategorien, die den grössten Teil der Enterprise-GenAI-Arbeit erfassen, stehen in Anhang III: Personalauswahl, Leistungsüberwachung, Kredit- und Versicherungsrisikoentscheidungen, biometrische Workflows, Bildungsbewertung. Artikel 9 fordert einen kontinuierlichen Risikomanagementprozess über den gesamten Systemlebenszyklus. Artikel 12 verlangt eine automatische Protokollierung mit einer Aufbewahrungspflicht des Deployers von mindestens sechs Monaten. Artikel 13 fordert, dass das System hinreichend interpretierbar ist, damit der Deployer es sachgerecht einsetzen kann. Artikel 14 schreibt benannte Aufsichtspersonen vor, die Automatisierungsverzerrungen erkennen, Ausgaben interpretieren, Entscheidungen übersteuern und das System anhalten können. Artikel 26 verlangt, dass Beschäftigte vor dem Einsatz am Arbeitsplatz informiert werden und betroffene Personen benachrichtigt werden, wenn Entscheidungen über sie mithilfe des Systems getroffen werden. Artikel 99 bewertet Verstösse gegen verbotene KI-Praktiken mit bis zu 35 Millionen Euro oder 7 % des weltweiten Jahresumsatzes, je nachdem, welcher Betrag höher ist. Keine dieser Pflichten wird durch ein Modell erfüllt, das auf einem Benchmark gut abschneidet. Sie werden durch die operative Kadenz darunter erfüllt — die Kadenz, die die Aufsichtspersonen besetzt, die Protokollierung am Laufen hält und den Benachrichtigungsprozess für Beschäftigte wiederholbar macht. iTutorGroups 365.000-Dollar-EEOC-Vergleich vom August 2023 für ein KI-Recruiting-Tool, das Bewerber automatisch nach einem benannten Alter aussortierte, ist ein Vorgeschmack darauf, was der AI Act ab 2026 auf dem europäischen Markt bepreisen wird. Die Kosten des fehlenden Governance-Layers sind kein Reputationsrisiko mehr. Sie sind ein Bilanzposten.

5. Change-Kapazität

Menschen, die die Werkzeuge nutzen, den Ergebnissen vertrauen und ihre Arbeit darum herum neu aufstellen. Das Scheitermuster besteht darin, die Menschen abzubauen, bevor die KI den Randbereich der Fallverteilung bewiesen hat. NEDA, die National Eating Disorders Association, löste ihre menschliche Helpline auf und wechselte im Mai 2023 zum Tessa-Chatbot. Innerhalb von zehn Tagen empfahl Tessa Essstörungsbetroffenen Kalorienreduktion und Abnehm-Ziele. Die Change-Ebene — die ausgebildeten Berater, die schädliche Ausgaben abgefangen hätten — war vor der Validierung eliminiert worden, nicht um das Werkzeug herum neu konzipiert. Das positive Muster sieht anders aus. Walmarts My-Assistant-Rollout, 2024 von Chief People Officer Donna Morris lanciert, skalierte von 50.000 auf 75.000 Nutzer in elf Ländern auf Basis eines "people-led, tech-powered"-Ansatzes, der menschliche Aufsicht vom ersten Tag an im Operating Model verankerte.

Die vier Delivery-Disziplinen, die eine Ebene ausmachen

"Organisations that already organise for bounded agency in humans are well-suited to adopting AI effectively and humanely. Team Topologies offers Agentic AI clear boundaries, stable interfaces, aligned domains and collaborative ownership — the infrastructure for agency itself." — Matthew Skelton, Team Topologies as the Infrastructure for Agency with Humans and AI, QCon London, März 2026

Die fünf Voraussetzungen im vorigen Abschnitt beantworten die Frage „Ist die Organisation bereit?". Die vier Disziplinen in diesem Abschnitt beantworten die Frage „Ist die Lieferkadenz real?". Die Kadenz ist der Teil, der auf einer Folie nicht überlebt. Sie ist der Teil, auf den Bernhards Praxis den grössten Teil ihrer Zeit verwendet.

Operating-Model-Intent These · Werthebel · Ambition

Fünf organisatorische Voraussetzungen

Business Owner mit P&L-Verantwortung

Produktionsreife Daten, wo der Use Case läuft

Target Operating Model · Produkt · Daten · Plattform · Security · Change

Governance, die skaliert · EU AI Act · Model Risk · Audit

Change-Kapazität · Menschen, die nutzen, vertrauen, neu gestalten

Die Delivery-Ebene · vier Engineering-Disziplinen

DORA-Metriken auf den KI-Delivery-Teams

Ein Pilot-Squad vor der Skalierung

Engineering Manager zum Betrieb befähigt

Exec / Squad / Risk in einem Raum

Ausgelieferter KI-Wert EBIT-Beitrag, den ein CFO benennen kann

Die Delivery-Ebene unter der KI. Operating-Model-Intent trifft auf die Realität erst, nachdem er fünf organisatorische Voraussetzungen und vier Engineering-Disziplinen durchlaufen hat.

1. DORA-Metriken auf den KI-Delivery-Teams — nicht Branchen-Benchmarks

Die vier DORA-Kennzahlen — Deployment Frequency, Lead Time for Changes, Change Failure Rate, Time to Restore Service — wurden in Accelerate (Forsgren, Humble und Kim, 2018) veröffentlicht und sind seitdem das empirische Rückgrat der Software-Delivery-Forschung. Der DORA-Bericht State of DevOps 2024 führte etwas ein, das das Feld bisher nicht kannte: eine gemessene KI-Adoptionsvariable. Der Befund war unbequem. Ein Anstieg der KI-Adoption um 25 % auf einem Team korrelierte mit einem Rückgang des Delivery-Durchsatzes um 1,5 % und einem Rückgang der Delivery-Stabilität um 7,2 %. Der Folgebericht State of AI-Assisted Software Development 2025 stellte fest, dass sich der Durchsatz erholt hatte, die Stabilität aber weiterhin negativ blieb. Der meistzitierte Satz aus diesem Bericht ist der bereits zitierte: „AI doesn't fix a team; it amplifies what's already there." Die strukturelle Konsequenz: Die DORA-Zahlen, die ein KI-Team tatsächlich bewegt, sind entscheidender als das Modell, das es einsetzt. Die andere relevante Zahl stammt aus BCGs AI Radar 2025-Umfrage unter 1.803 C-Level-Führungskräften: 60 % der Unternehmen definieren und überwachen keinerlei finanzielle KPIs zur KI-Wertschöpfung. Die DORA-auf-KI-Teams-Disziplin beginnt genau dort, wo diese 60 % aufhören. Sie ist das Gate, das stillen Verfall abfängt, bevor er in den Geschäftszahlen sichtbar wird.

2. Ein Pilot-Squad vor der Skalierung

Ein einziger Produktbereich, an dem die Führung wirklich hängt. Nicht das Innovationslabor. Das Lean-Startup-Muster, die Two-Pizza-Team-Regel, das ursprüngliche Lockheed Skunk Works — die Ahnenreihe ist lang und die Regel dieselbe. Goldman Sachs hat es als institutionelle Infrastruktur kodifiziert: das 2022 gegründete GS Innovation Center ist der Sandbox, den jede GS-KI-Initiative vor dem bankweiten Rollout durchläuft. Der firmenweit ausgerollte GS AI Assistant vom Januar 2025 hat diesen Pfad genommen. Das Muster ist auch bei JPMorgan erkennbar: ein Opt-in-interner Rollout von LLM Suite an das CIB vor jeder kundenseitigen Exposition. INGs COO Marnix van Stiphout hat dieselbe Disziplin explizit benannt: "strict governance that focused all exploration in AI on five areas, and only under the control of the COO". ING meldet, dass 90 % seiner Piloten die Produktion erreichen, gegenüber einem Branchendurchschnitt von rund 30 %. Die Zahl ist keine Funktion besserer Modelle. Sie ist eine Funktion weniger gleichzeitiger Wetten.

3. Engineering Manager, die es nach dem Abzug der Berater betreiben

Externe Firmen, die ab Jahr drei nicht mehr kündbar sind, sorgen dafür, dass Transformationen am Ende niemandem gehören. Die Disziplin besteht darin, die Arbeit in der eigenen Engineering-Management-Linie des Klienten zu verankern. Camille Fourniers The Manager's Path (O'Reilly, 2017) und Will Larsons An Elegant Puzzle (Stripe Press, 2019) sind die kanonischen Referenzen dafür, wie diese Rolle in der Skalierung aussieht. Das Scheitermuster ist das Plattform-Team, das auf einer Folie steht, aber im Budget nicht finanziert ist. Das Erfolgsmuster ist namentlich benannt, verantwortlich und aus der eigenen Engineering-Linie des Klienten bezahlt. Mercado Libres GitHub-Copilot-Rollout an seine 9.000+ Entwickler lief über einen namentlich benannten SVP of Technology (Sebastian Barrios), ein zweimonatiges Developer-Onboarding-Bootcamp und GitHub Advanced Security, das in die CI-Pipeline verdrahtet war. Das ist, wie "der Engineering Manager besitzt es" in öffentlichen Berichten aussieht.

4. Exec, Squad und Risk in einem Raum — auf einer echten Kadenz

Wöchentlich für Delivery. Monatlich für Wert. Quartalsweise für den Wertschöpfungsplan selbst. Das Anti-Muster, das Marty Cagan und Chris Jones in Empowered (Wiley, 2020) benannt haben, ist der "Puppet Master" — Führungskräfte, die Lösungen aufzwingen und dabei vorgeben, Teams zu ermächtigen. Das ermächtigte Modell überträgt Probleme, nicht Lösungen, und nutzt die Governance-Kadenz, um Accountability ohne Mikromanagement durchzusetzen. Klarnas zweiphasige Kundenservice-KI-Geschichte zeigt, wie eine funktionierende Kadenz aussieht — selbst wenn die zugrunde liegende Wette teilweise revidiert werden muss. Phase eins, im Februar 2024, skalierte einen OpenAI-gestützten Kundenservice-Agenten über 23 Märkte mit messbaren Ergebnissen (67 % der Chats ohne menschlichen Eingriff bewältigt, Lösungszeit von 11 Minuten auf unter 2 gesenkt). Phase zwei, fünfzehn Monate später, korrigierte die Substitution teilweise: CEO Sebastian Siemiatkowski erklärte gegenüber Bloomberg, das Unternehmen stelle für komplexe, betrugsbezogene und Härtefall-Anfragen wieder Menschen ein, weil das ursprüngliche Bewertungsrahmen Geschwindigkeit und Kosten gegenüber der Qualität bei Randfällen übergewichtet hatte. Das ist die Governance-Kadenz, die wie vorgesehen funktioniert — einschliesslich des Teils, in dem sie den Kurs ändert.

Beispielfälle — wenn die Ebene fehlt

Vier öffentliche Fälle, jeder an primäre Quellenberichte gebunden, jeder der fehlenden Voraussetzung oder Disziplin zugeordnet. Das Muster ist konsistent: in jedem Fall war das Modell in Ordnung. Die Ebene darunter nicht.

Air-Canada-Chatbot · Februar 2024

Das British Columbia Civil Resolution Tribunal verhandelte Moffatt v. Air Canada im Februar 2024. Herr Moffatt hatte den Chatbot der Airline nach Trauertarifen gefragt, nachdem seine Grossmutter gestorben war. Der Chatbot teilte ihm mit, er könne rückwirkend innerhalb von neunzig Tagen einen Nachlass beantragen. Eine solche Richtlinie existierte nicht. Air Canada verweigerte die Rückerstattung und argumentierte vor dem Tribunal — im Nachhinein bemerkenswert —, der Chatbot sei "eine separate juristische Person, die für ihre eigenen Handlungen verantwortlich ist". Das Tribunal widersprach, stellte fahrlässige Falschdarstellung fest und sprach CAD 812,02 plus Kosten zu. Der Fall ist klein in Dollar, gross in struktureller Bedeutung. Die fehlende Voraussetzung war das Target Operating Model. Niemand besass die Verbindung zwischen der Wissensbasis des Chatbots und den gültigen Tarifen. Produkt, Legal und Operations koordinierten auf keiner gemeinsamen Lieferkadenz. Die fehlende Disziplin war die Governance-Kadenz: es gab keinen menschlichen Prüfpfad für neuartige Tarifanfragen und keinen Audit-Trail, der die halluzinierte Antwort hätte abfangen können, bevor sie einen trauernden Kunden erreichte. Das Gerichtsurteil macht die Kosten eines fehlenden Operating Models auf eine Weise greifbar, wie es kein Consulting-Deck je könnte.

NYC MyCity-Chatbot · März 2024

The Markups Untersuchung vom März 2024 des offiziellen Kleinunternehmer-Chatbots der Stadt New York — ein Microsoft-Azure-Deployment, das Bürgermeister Adams im Oktober 2023 angekündigt hatte — fand ihn dabei, Vermietern zu raten, Section-8-Wohnungsgutscheine abzulehnen, Arbeitgebern, Trinkgelder einzubehalten, und Unternehmen, Barzahlungen zu verweigern. Jede dieser Antworten ist dem Anschein nach ein Verstoss gegen das Stadtrecht. Die Stadt lehnte es ab, den Chatbot nach der Berichterstattung abzuschalten; er blieb monatelang aktiv. Die fehlende Voraussetzung war Governance, die skaliert. Kein Model-Risk-Review gegen das geltende Stadtrecht. Keine menschliche Aufsicht über Ausgaben vor dem Go-Live. Kein Audit-Trail. Das Department of Small Business Services, das juristische Team der Stadt und die Technologieverantwortlichen fuhren in getrennten Spuren. Der Fall ist ein Vorgeschmack darauf, was der EU AI Act ab dem 2. August 2026 auf dem europäischen Markt bepreisen wird — mit dem Unterschied, dass der New Yorker Steuerzahler die Rechnung so oder so bezahlt, während der europäische Deployer sie unter Artikel 99 zahlen wird.

iTutorGroup-KI-Hiring-Tool · EEOC-Vergleich, August 2023

Die US Equal Employment Opportunity Commission gab im August 2023 ihren ersten KI-Arbeitsplatzdiskriminierungs-Vergleich bekannt. iTutorGroups automatisierter Recruiting-Screener hatte über zweihundert US-amerikanische Bewerber allein aufgrund des Alters abgelehnt — Frauen ab 55, Männer ab 60. Die Diskriminierung wurde entdeckt, als ein einzelner Bewerber zwei identische Bewerbungen einreichte, die sich nur im Geburtsdatum unterschieden, und unterschiedliche Ergebnisse erhielt. Der Vergleich: 365.000 Dollar, Pflichtschulungen zur Antidiskriminierung, fünfjährige EEOC-Überwachung und die Verpflichtung, jeden abgelehnten Bewerber erneut einzuladen. Die fehlende Voraussetzung war erneut Governance, die skaliert: kein Disparate-Impact-Testing, kein Model-Risk-Framework, kein Audit-Trail — keines der routinemässigen arbeitsrechtlichen Sorgfaltsprüfungen, die ein menschlicher Screening-Prozess mitbrächte. Die fehlende Disziplin war die Governance-Kadenz: Exec, Engineering Manager und Legal-Risk-Verantwortliche haben sich vor der Einführung nie gemeinsam mit dem System befasst. Der EEOC-Fall ist nun die US-amerikanische Vorlage für KI-Beschäftigungshaftung; ab August 2026 verpflichtet Artikel 26 des AI Acts, Beschäftigte vor dem Einsatz am Arbeitsplatz zu informieren und betroffene Personen zu benachrichtigen, wenn das System für Entscheidungen über sie verwendet wird. Dasselbe Versagen, zwei Aufsichtsbehörden, zwei bepreiste Risiken.

Klarna-Kundenservice-Agent, Phase zwei · Rollback Mai 2025

Im Februar 2024 ging Klarnas OpenAI-gestützter Kundenservice-Agent über 23 Märkte live, bewältigte 2,3 Millionen Gespräche im ersten Monat und senkte die durchschnittliche Lösungszeit von elf Minuten auf unter zwei. Im Mai 2025 rollte CEO Sebastian Siemiatkowski die Einführung öffentlich teilweise zurück: Menschen wurden für komplexe, betrugsbezogene und Härtefälle wieder eingestellt. Die Substitution sei, mit seinen Worten, zu weit gegangen. Phase eins sieht wie ein Lehrbucherfolg aus. Phase zwei ist das Scheitermuster. Die in Phase eins fehlende Voraussetzung war Change-Kapazität. Klarna hatte die menschliche Belegschaft — die Ebene, die Randfallverschlechterung abgefangen hätte — eliminiert, bevor die KI bewiesen hatte, dass sie die gesamte Fallverteilung bewältigen konnte. Die fehlende Disziplin war die Engineering-Delivery-Disziplin, das Richtige zu messen. Klarnas Abnahmekriterien massen die durchschnittliche Lösungszeit. Sie massen nicht die Kundenzufriedenheit bei komplexen emotionalen oder betrugsbezogenen Anfragen — genau dort, wo die KI still verrottete. Der Klarna-Fall ist ein Paar von Beispielen: Phase eins zeigt, wie der Fall aussieht, wenn drei der Voraussetzungen und drei der Disziplinen sichtbar vorhanden sind; der nächste Abschnitt kehrt aus diesem Blickwinkel dazu zurück. Phase zwei zeigt, was passiert, wenn die fehlenden Teile aufholen.

Drei weitere Fälle stützen die obigen Muster, ohne den Abschnitt zu verankern. McDonalds dreijähriger IBM Drive-through Voice AI, im Juni 2024 eingestellt, illustriert den fehlenden Business Owner: kein namentlicher Operator, keine öffentlichen Erfolgskriterien, keine Kennzahlen, keine Post-mortem-Analyse. NEDAs Tessa-Chatbot, im Juni 2023 abgeschaltet, nachdem er Essstörungsbetroffenen Kalorienreduktion empfohlen hatte, illustriert die fehlende Change-Kapazität in extremer Form. DPDs britischer Lieferchatbot, der im Januar 2024 einen Kunden beschimpfte und abwertende Reime über seinen eigenen Arbeitgeber verfasste, nachdem ein routinemässiges System-Update eingespielt worden war, illustriert die fehlende Engineering-Delivery-Disziplin: kein Staging Gate, kein Regressionstest, kein Red-Team zwischen Update und Live-Betrieb.

Beispielfälle — wenn die Ebene sichtbar steht

Vier öffentliche Fälle, bei denen die Ebene in den Berichten sichtbar vorhanden ist. Namentliche Eigentümer. Produktionsdaten. Pilot-Squads vor der Skalierung. Engineering Manager, denen das Ergebnis gehört. Governance-Kadenz, die Exec, Squad und Risk in einen Raum bringt. Die unten genannten Zahlen sind die, die die Operatoren selbst offiziell berichten.

ING Bank · das Paradebeispiel

ING ist, gemessen an den öffentlichen Belegen, derzeit das sauberste Beispiel dafür, wie die Ebene in Produktion aussieht. Mit Sitz in den Niederlanden und globalem Retail- und Wholesale-Footprint hat ING sein gesamtes GenAI-Portfolio — den Kundenchatbot, KYC und Customer Due Diligence, Transaction Monitoring, den Developer Copilot, den agentischen Hypotheken-Piloten — über eine zentralisierte Plattform unter persönlicher COO-Verantwortung geleitet. Chief Operating Officer Marnix van Stiphout verantwortet das Programm. Chief Technology Officer Daniele Tonella beschreibt das Betriebsprinzip gegenüber Computer Weekly in einem Satz: "strict governance that focused all exploration in AI on five areas, and only under the control of the COO". Die Fünf-Bereiche-Regel ist die Pilot-Squad-Disziplin als institutionelle Praxis — nicht fünfhundert Experimente, sondern fünf. Die Kernkennzahl ist die, bei der jeder CFO und PE-Operator aufhorchen sollte: 90 % von INGs Piloten erreichen die Produktion, gegenüber einem Branchendurchschnitt von rund 30 %. Die begleitenden Zahlen sind konsistent. 75 % der Kundenanfragen werden über den Retail-Chatbot-Footprint autonom bewältigt. KYC komprimiert von Tagen oder Wochen auf Sekunden. 10.000 tägliche Transaction-Monitoring-Alerts auf rund 500 relevante für Compliance-Analysten gefiltert. Fünftausend Mitarbeiter in Data Fluency und GenAI geschult. 140 verschiedene KI-Risiken unter einem EU-AI-Act-Compliance-Framework geprüft, das bereits auf die Frist vom 2. August 2026 ausgerichtet ist. ING ist der öffentliche Fall, der dem Diagramm im vorigen Abschnitt am nächsten kommt. Jedes Feld ist besetzt.

BBVA · Phased Rollout auf 120.000 Mitarbeiter

BBVAs GenAI-Rollout ist das Lehrbuchbeispiel des stufenweisen Pilot-to-Scale-Musters. Die spanische Bank startete im Mai 2024 mit 3.300 ChatGPT-Enterprise-Lizenzen. Ende 2024 lag der Rollout bei 11.000. Im Dezember 2025 gab die Bank die Ausweitung auf ihre rund 120.000 Mitarbeiter umfassende Belegschaft bekannt, von Bloomberg unabhängig bestätigt. Das Programm wird von Elena Alfaro als Global Head of AI Adoption verantwortet, mit Ricardo Martín Manjón als Global Head of Data und Chairman Carlos Torres Vila, der die strategische OpenAI-Allianz unterzeichnete. Die Ergebniskennzahlen bieten die Art von Spezifität, die Aufsichtsräten selten begegnet: 83 % der Lizenzinhaber wöchentlich aktiv gemäss BBVAs eigenem AI-Adoption-Tracking, 2,8 bis 3 Stunden pro Mitarbeiter pro Woche eingespart, mehr als 4.800 von Mitarbeitern erstellte Custom GPTs, davon rund 700 in einem internen GPT-Store kuratiert. Die präziseste Einzelzahl stammt aus einer Funktion: BBVAs Legal-Services-GPT automatisierte mehr als 9.000 bastanteo-Anfragen jährlich und lieferte 26 % der jährlichen Einspar-KPI der Rechtsabteilung. Diese Art von KPI-Attribution gelangt selten in eine Pressemitteilung. Wenn sie es tut, hat das Operating Model sie produziert — nicht das Modell.

JPMorgan Chase LLM Suite

JPMorgan Chase hat seine GenAI-Arbeit in Jamie Dimons Jahresberichtsbrief 2025 und einem ausführlichen McKinsey-Interview mit Chief Analytics Officer Derek Waldron öffentlich gemacht. LLM Suite, die modellunabhängige interne GenAI-Plattform der Bank, betreibt mehr als 450 Use Cases in Produktion gegen ein jährliches Technologiebudget von rund 18 Milliarden Dollar. Die Plattform erreichte in acht Monaten mehr als 65.000 aktive CIB-Nutzer und rund 200.000 Mitarbeiter firmenweit — Opt-in-Rollout, mitarbeiterorientiert vor jeder kundenseitigen Exposition, unter einer Drei-Säulen-Architektur (OmniAI-ML-Factory plus LLM Suite plus Grundlagenforschung) gesteuert. Die Disziplin, die aus den öffentlichen Berichten sichtbar wird, ist der namentliche CAO, dem das Programm gehört, die Philosophie Derisking-vor-Skalierung und die stufenweise Mitarbeiteradoption, die ihre eigenen Use Cases generierte. Die Produktivitätskennzahl, die Operatoren offiziell zitieren: Investment-Banker-Pitchdecks in rund dreissig Sekunden erstellt, für die früher Stunden benötigt wurden, drei bis sechs Stunden pro CIB-Nutzer pro Woche eingespart.

Goldman Sachs · GS AI Platform und das Innovation Center

Goldmans Disziplin ist institutionell. Chief Information Officer Marco Argenti ist öffentlich der namentliche Eigentümer. Das 2022 gegründete GS Innovation Center ist der Pilot-Squad-vor-der-Skalierung — jede GS-KI-Initiative durchläuft es vor dem bankweiten Rollout. GitHub Copilot wurde an alle 12.000 Entwickler der Firma ausgerollt; die öffentliche Produktivitätszahl von Argenti, von American Banker und Fortune zitiert, liegt bei rund 20 % — gleichbedeutend mit dem Hinzufügen von 2.400 Entwicklern zur bestehenden Belegschaft. Im Januar 2025 wurde GS AI, ein modellunabhängiger Assistent für GPT, Gemini und Claude, auf die gesamte 46.000-Mitarbeiter-Belegschaft ausgeweitet. Bis Mitte 2025 meldete die Bank rund eine Million Prompts pro Monat firmenweit. Die Governance-Kontrollen sind öffentlich dokumentiert: automatisiertes Monitoring, Halluzinationsreduktion, Informationsschutz-Guardrails, Prompt-Content-Flagging, KI an menschlicher Leistung statt absolutem Genauigkeitsmasstab gemessen. Der Punkt ist nicht, dass diese Kontrollen exotisch sind. Der Punkt ist, dass sie öffentlich, namentlich benannt und dauerhaft eingerichtet sind.

Drei weitere Fälle stützen die obigen Muster. Die peer-reviewed GitHub-Copilot-Produktivitätsstudie — Communications of the ACM, März 2024, n=95 professionelle Entwickler — bleibt der Gold-Standard des Feldes: Copilot-Nutzer erledigten eine identische Aufgabe 55,8 % schneller als die Kontrollgruppe, mit 78 % gegenüber 70 % Aufgabenabschluss. Mercado Libres lateinamerikanischer GitHub-Copilot-Rollout an seine 9.000+ Entwickler illustriert die Engineering-Manager-Ownership-Disziplin (namentlicher SVP Sebastian Barrios), ein zweimonatiges Bootcamp, GitHub Advanced Security in die CI-Pipeline verdrahtet, und rund 100.000 Pull Requests pro Tag als DORA-Deployment-Frequency-Proxy. BloombergGPT, ein 50-Milliarden-Parameter-Modell, auf einem 363-Milliarden-Token-Bloomberg-proprietären Finanzkorpus vortrainiert, ist das sauberste Beispiel für die produktionsreife-Daten-Voraussetzung aus dem vorigen Abschnitt als Wettbewerbsmoat. Zwanzig Jahre strukturiertes Finanzarchiv ist die Datenschicht. Das Modell ist die Schicht, die darauf sitzt.

Klarna gehört auch in diesen Abschnitt. Phase eins seines Kundenservice-KI — der Zeitraum von Februar 2024 bis Anfang 2025 — trug sichtbar vier der fünf Voraussetzungen: ein namentlicher CEO-Operator auf dem G+V, Produktionsdaten in einem echten Workflow, ein Operating Model, das KI in transaktionale Rückerstattungs- und Rücksendeprozesse integrierte, und eine Governance-Kadenz, die die Qualitätsverschlechterung schliesslich erkannte und handelte. Die zwei fehlenden Elemente waren die Engineering-Delivery-Disziplin, die die Randfallverschlechterung früher abgefangen hätte (die falsche Abnahmekennzahl wurde beobachtet), und der Change-Kapazitätspuffer, der während der Skalierung hätte erhalten werden sollen. Phase zwei zeigt, wie eine ehrliche Governance-Kadenz aussieht, wenn diese Lücken auftauchen. Die Kurskorrektur war öffentlich, schnell und offiziell dokumentiert. Das ist näher an Erfolg als Misserfolg, auch wenn das Headline-Ergebnis revidiert wird — denn das Operating Model hat die Änderung herbeigeführt.

Die Diagnose: fünf Bedingungen, vier Disziplinen

Das folgende Raster ordnet die acht behandelten Fälle den neun Strukturelementen zu. Lesen Sie jede Zeile quer: ein gefüllter dunkelgrüner Punkt bedeutet, das Element war in den öffentlichen Berichten sichtbar vorhanden; ein leerer gestrichelter Kreis bedeutet, es war sichtbar abwesend oder der Fall drehte sich um sein Fehlen; eine halb-schattierte Markierung bedeutet partiell. Die Legende steht unterhalb des Rasters.

Fall	Fünf organisatorische Voraussetzungen					Vier Delivery-Disziplinen
Fall	Owner	Daten	Op Model	Gov	Change	DORA	Pilot	EM	Kadenz
Air-Canada-ChatbotFeb 2024 · BCCRT 149	~	~	○	○	~	○	~	○	○
NYC MyCityMär 2024 · The Markup	○	~	○	○	○	○	○	○	○
iTutorGroup KI-HiringAug 2023 · EEOC-Vergleich	○	~	~	○	~	○	○	○	○
Klarna KI · Phase-2-RollbackMai 2025 Kurskorrektur	●	●	●	~	○	○	~	~	●
ING Bank2024–2026 · COO-owned	●	●	●	●	●	●	●	●	●
BBVA2024–2025 · stufenweise auf 120k	●	●	●	●	●	~	●	●	●
JPMorgan LLM Suite2024–2026 · CAO-owned	●	●	●	~	●	~	●	●	●
Goldman Sachs GS AI2022– · Innovation Center	●	●	●	●	●	~	●	●	●

●In öffentlichen Berichten sichtbar vorhanden ~Partiell · in Berichten mehrdeutig ○Fehlend · oder Fall drehte sich um sein Fehlen

Drei Dinge fallen auf. Erstens häufen sich die Misserfolge auf der rechten Seite des Rasters, nicht der linken. In jedem Misserfolgsfall fehlt mindestens eine der vier Delivery-Disziplinen — meist die Governance-Kadenz, der Engineering-Manager-Eigentümer oder beides. Das Modell war nicht das Problem. Die Kadenz war es. Zweitens sind die Erfolgsfälle nicht perfekt. JPMorgan, BBVA und Goldman tragen alle eine Teil-Markierung bei DORA-auf-KI-Teams — die öffentlichen Berichte zeigen noch keine formellen DORA-Dashboards für ihre KI-Arbeit, auch wenn der Rest der Ebene sichtbar vorhanden ist. Das ist die aktuelle Frontier des Feldes; es ist kein Versagen dieser Programme, sondern eine Lücke in der Praxis. Drittens ist ING der einzige Fall im Raster mit allen neun Feldern besetzt. Es gibt andere Programme, die wahrscheinlich auf die rechte Seite dieses Vergleichs gehören. ING ist das, dessen Chief Operating Officer das Betriebsprinzip öffentlich gemacht hat — fünf authorisierte Bereiche, nur unter Kontrolle des COO — und dessen 90 %-Pilot-to-Production-Rate öffentlich überprüfbar ist.

So wenden Sie das Raster auf Ihr eigenes Programm an. Nehmen Sie den strategisch wichtigsten GenAI-Use-Case, der heute im Gange ist. Beantworten Sie für jede der neun Spalten eine Frage. Gibt es einen namentlichen Menschen, der offiziell diese Spalte für diesen Use Case verantwortet? Owner: der Operator, dessen G+V-Zahl sich bewegt. Daten: der Ingenieur, der für Aktualität, Klassifizierung und Zugang der Daten verantwortlich ist, die das Modell in Produktion benötigt. Op Model: die Person, die Produkt, Daten, Plattform, Security und Change nächste Woche in einen Raum holen kann. Governance: der Legal-und-Risk-Eigentümer, der Artikel 9, 12, 13, 14 und 26 der Verordnung (EU) 2024/1689 gelesen und dagegen abgezeichnet hat. Change: der Change-Management-Eigentümer, der nicht aufgelöst wurde. DORA: der Ingenieur, der heute Morgen Lead Time und Change Failure Rate seines KI-Teams zitieren kann. Pilot: das Squad, dem das Produktionsziel gehört, bevor sonst jemand das System erhält. EM: der Engineering Manager, der das in zwei Jahren noch betreibt, wenn die Berater gegangen sind. Kadenz: der wöchentliche Delivery-Review, der monatliche Value-Review und der quartalsweise Wertschöpfungsplan-Review, mit Anwesenheitsliste.

Die Bestehensnote liegt nach unserer Erfahrung bei ungefähr vier von neun, um ein ernsthaftes Programm zu starten, und sieben von neun, um in der Skalierung Produktionswert zu erwarten. Unter vier von neun ist die Arbeit noch kein Delivery-Problem; sie ist ein Führungsproblem — und eine Delivery-Ebene ist nicht das Erste, was die Organisation braucht.

Wie Sie das lesen, wenn Sie der Käufer sind

Wenn Sie CEO, Aufsichtsratsmitglied, Transformation Officer oder Private-Equity-Operator sind, hat sich die GenAI-Debatte in vier verschiedene Käufersituationen aufgespalten. Das folgende Framing schneidet durch das Rauschen schneller als jede Scoring-Matrix.

Situation 1 — der Aufsichtsrat fragt: „Auf welches Modell sollen wir setzen?". Das ist fast immer die falsche Frage. Die richtige lautet: Welcher Use Case hat die Ebene darunter? Ein Aufsichtsrat, der ein Meeting mit Claude versus GPT versus Gemini verbringt, verbringt eine Stunde mit dem Teil, der am wenigsten entscheidend ist. Dieselbe Stunde auf die vier Delivery-Disziplinen verwendet — wem gehören die DORA-Zahlen, wo sitzt der Pilot-Squad, welcher Engineering Manager betreibt es nach dem Abzug der Berater, wann treffen Exec, Squad und Risk zusammen — bewegt die KI-Investition mehr als jede Modellselektion. Die Antwort auf die Modellfrage lautet: "Sie wechselt jedes Quartal, und sie ist nicht entscheidend; nehmen Sie das, das zur Datenschicht passt, die Sie bereits haben."

Situation 2 — CEO mit stagnierten Piloten. Das obige Raster ist die diagnostische Reihenfolge. Beginnen Sie mit den vier Spalten ganz rechts (die Disziplinen), nicht den fünf ganz links (die Voraussetzungen). Fehlen die Disziplinen, produziert keine Menge Arbeit an den Voraussetzungen Produktionswert — die Voraussetzungen stapeln sich als Readiness-Statements und die Arbeit wird nicht ausgeliefert. Sind die Disziplinen vorhanden, fehlen aber die Voraussetzungen, wird die Arbeit in ein Vakuum ausgeliefert — Produktionsdeployment ohne Operator, dem die G+V gehört, ohne Governance, die einen Audit übersteht, ohne Change-Ebene, die den Output nutzt. Drei Monate disziplinierter Kadenz auf einem Use Case schlägt zwölf Monate Piloten auf sechs.

Situation 3 — Private-Equity-Due-Diligence. Das Commercial- und Tech-Assessment braucht jetzt einen KI-Delivery-Abschnitt. Drei Fragen schneiden durch das Management-Deck. Erstens: Nennen Sie die produktive GenAI-Arbeitslast, die eine Zeile im letzten Quartalsergebnis bewegt hat; existiert sie nicht, ist die KI-Behauptung Kulisse. Zweitens: Nennen Sie den Operator, dem sie gehört; ist die Antwort ein CIO oder Chief Innovation Officer statt einem G+V-Verantwortlichen, ist die Arbeitslast Technologie, kein Wert. Drittens: Zeigen Sie das DORA-Dashboard des KI-Teams für die letzten sechs Monate — existiert es nicht, ist die disziplinierte Delivery-Ebene nicht vorhanden und die Wertschöpfungsthese zu KI im Haltezeitraum sollte diskontiert werden. Saubere Antworten auf alle drei Fragen addieren Turns an EBITDA-Sichtbarkeit; unsaubere Antworten sollten das Asset neu bepreisen.

Situation 4 — Post-Merger-Integration. Zwei KI-Portfolios, fast immer mit überlappenden Use Cases und getrennten Operating Models. Die Versuchung ist, Tooling zu fusionieren. Die richtige Massnahme ist, die Ebene zu fusionieren. Ein Business Owner pro konsolidiertem Use Case. Ein Operating-Model-Eigentümer pro integrierter Funktion. Eine Governance-Kadenz über den neuen Perimeter hinweg, auf Artikel 26 des EU AI Acts ausgerichtet, wenn eine der Einheiten auf dem europäischen Markt tätig ist. Die Modell- und Tooling-Fragen können sechs Monate warten; die Ebene nicht.

Drei Fragen schneiden durch einen Vendor-Pitch schneller als jedes RFP-Scorecard. „Zeigen Sie mir den namentlichen Operator, dem dieser Use Case am Montag gehört." „Zeigen Sie mir den Engineering Manager auf Kundenseite, der das in zwei Jahren noch betreibt." „Zeigen Sie mir die DORA-Zahlen des KI-Teams aus Ihrem letzten Engagement." Kann ein Unternehmen alle drei nicht beantworten, kaufen Sie Enablement, nicht Delivery.

Wo Consulting Huber ansetzt

Consulting Huber ist eine Praktiker-Firma. Wir konkurrieren nicht auf der SAFe-zertifizierten Bank-Grösse einer Big Four, dem globalen Delivery-Footprint eines MBB oder dem Volumen namentlicher Flagship-Fälle, das mit einem tausendköpfigen Berater-Payroll kommt. Wir konkurrieren auf dem entgegengesetzten Problem: CEOs, Aufsichtsräte, Transformation Officers und PE-Operatoren, die die Delivery-Ebene einer grossen Firma wollen — direkt von Senior-Praktikern geliefert, mit der Fähigkeit, die am Ende des Engagements beim eigenen Engineering Management des Klienten verbleibt.

In der Praxis bedeutet das: ein namentlicher Business Owner für jeden Use Case, identifiziert bevor Code geschrieben wird; DORA-Metriken auf dem KI-Delivery-Team in den ersten sechs Wochen installiert; der Pilot-Squad im Produktbereich platziert, an dem die Führung wirklich hängt; der Engineering Manager, der es nach unserem Abzug betreiben wird, an Tag eins namentlich benannt und über das gesamte Engagement hinweg entwickelt; eine Governance-Kadenz, die Exec, Squad und Risk jede Woche, jeden Monat und jedes Quartal in einen Raum bringt. Das Modell ist kein Plattform-Lock-in. Es ist das Gegenteil. Wir arbeiten daran, am Ende des Engagements überflüssig zu sein, und lassen dem Klienten das Recht, uns am Ende jedes Zyklus zu entlassen. Den vollständigen Rahmen dieser Arbeit — Engineering-Disziplin, Team-Design, Delivery-Metriken — beschreibt unsere Agile-Engineering- und Delivery-Praxis.

Wenn Sie als Operator in einer der vier oben beschriebenen Käufersituationen ein direktes Gespräch darüber führen möchten, wie die Ebene in Ihrem konkreten Fall landen würde, ist der Kalender-Link unten der schnellste Weg, um anzufangen.

Konsultierte Quellen

Die Grundlagen der Delivery-Ebene

Forsgren, Humble & Kim, Accelerate: The Science of Lean Software and DevOps (IT Revolution, 2018; 2. Aufl. 2025), ISBN 978-1-942788-33-1, itrevolution.com/product/accelerate · Google DORA, Accelerate State of DevOps 2024 · Google DORA, 2025 State of AI-Assisted Software Development · Skelton & Pais, Team Topologies (IT Revolution, 2019; 2. Aufl. 2025), ISBN 978-1-942788-81-2, itrevolution.com/product/team-topologies · Matthew Skelton, Team Topologies as the Infrastructure for Agency with Humans and AI, QCon London, März 2026 · Fournier, The Manager's Path (O'Reilly, 2017), ISBN 978-1-491973-89-9 · Larson, An Elegant Puzzle (Stripe Press, 2019), ISBN 978-1-732265-18-9 · Cagan & Jones, Empowered (Wiley, 2020), ISBN 978-1-119691-29-7 · CNCF, Platforms White Paper und Platform Engineering Maturity Model · Humanitec, State of Platform Engineering Vol. 3 (2024).

Pilot-to-P&L und die Evidenzbasis zur Ausfallrate

McKinsey QuantumBlack, State of AI: How Organizations Are Rewiring to Capture Value (März 2025, n=1.993) · BCG, AI Radar 2025: Closing the AI Impact Gap (n=1.803) · BCG, The Widening AI Value Gap (September 2025) · IBM Institute for Business Value, 2025 CEO Study (Mai 2025, n=2.000) · Deloitte, State of Generative AI in the Enterprise Q4 2024 (n=2.773) · MIT NANDA, The GenAI Divide: State of AI in Business 2025 (Juli 2025) · RAND Corporation, Why AI Projects Fail and How They Can Succeed (August 2024).

Regulierung

Europäisches Parlament und Rat, Verordnung (EU) 2024/1689 (der AI Act) · artificialintelligenceact.eu Artikel-Explorer · Artikel 5, 6, 9, 10, 12, 13, 14, 26, 50, 51, 53, 55, 99, 113 und Anhang III, zitiert in Abschnitt 2.

Misserfolgs-Fälle (Primärquellen)

Moffatt v. Air Canada, 2024 BCCRT 149 — CanLII Vollurteil · EEOC v. iTutorGroup, Inc., 1:22-cv-02565 (E.D.N.Y.) — EEOC-Pressemitteilung und Fallakte · The Markup, "NYC's AI Chatbot Tells Businesses to Break the Law" (März 2024) · Klarna Pressemitteilung, "AI assistant handles two-thirds of customer service chats" (Feb 2024) · Fortune, "Klarna AI humans return on investment" (Mai 2025) · Restaurant Dive, "McDonald's ends IBM drive-thru voice order test" (Juni 2024) · NPR, NEDA Tessa Berichterstattung (Juni 2023) · Fox Business, DPD-Chatbot-Berichterstattung (Januar 2024).

Erfolgs-Fälle (Primärquellen)

ING: Computer Weekly, "How ING reaps benefits of centralising AI"; McKinsey, Interview mit COO Marnix van Stiphout. BBVA: BBVA-OpenAI-Strategieallianz-Ankündigung (Dez 2025); Bloomberg-Berichterstattung. JPMorgan: Jahresbericht 2025; McKinsey-Interview mit CAO Derek Waldron. Goldman Sachs: CNBC firmweiter Launch (Januar 2025); Fortune-Interview mit CIO Marco Argenti. GitHub Copilot: Peng et al., arXiv:2302.06590 (Februar 2023); Communications of the ACM (März 2024); Mercado Libre Customer Story. BloombergGPT: Wu et al., arXiv:2303.17564 (März 2023); Bloomberg Pressemitteilung.

30-Min-Gespräch buchen Oder schildern Sie uns Ihre Lage