Warum skalieren die meisten KI-Piloten im Unternehmen nicht?

Die Belege zeigen, dass die Ursache selten das Modell ist. Zwei strukturelle Gründe dominieren: Das Budget folgt der Sichtbarkeit statt der Rendite (etwa 50–70 % des GenAI-Budgets fließen in den Front-Office-Bereich Vertrieb und Marketing, wo KPIs sichtbar sind, während Back-Office-Arbeit mit besserem ROI unterfinanziert bleibt), und Programme messen Durchsatz statt Ergebnis. Ein einzelner Use Case, instrumentiert auf Kosten-pro-Ergebnis-Ebene, mit einem namentlich benannten Business Owner, dessen G+V davon abhängt, schlägt ein Portfolio von Piloten, die an Engagement gemessen werden.

Warum steigen Enterprise-KI-Rechnungen, obwohl Token-Preise fallen?

Die Stückpreise für konstante Qualität sind zwischen Ende 2022 und Ende 2024 um etwa das 280-Fache gesunken, aber die Gesamtkosten steigen, weil der Verbrauch schneller wächst als der Preis fällt – die Jevons-Paradox-Dynamik. Agentische Workflows mit mehreren Aufrufen multiplizieren den Token-Verbrauch für einen einzelnen sichtbaren Nutzervorgang um das 5- bis 30-Fache, weshalb nur etwa 15 % der Unternehmen ihre KI-Kosten auf ±10 % genau vorhersagen.

Wie sollte ein Käufer mit dem Anbieter- und Preisrisiko bei KI umgehen?

Gehen Sie davon aus, dass der heutige Token-Preis ein Einführungspreis ist, und verankern Sie diese Annahme im mehrjährigen Business Case. Vermeiden Sie Single-Provider-Lock-in für jede wesentliche Arbeitslast, halten Sie ein Open-Weight- oder kleineres Modell als Fallback für hochvolumige, wenig komplexe Aufgaben bereit, und verankern Sie Preisänderungs- und Exit-Konditionen im Vertrag. Sie brauchen keine Meinung dazu, ob die Anbieter profitabel sein werden – Sie brauchen einen Business Case, der den Tag übersteht, an dem sich der Preis ändert.

← Insights

Die KI-Messkrise: was Enterprise-KI wirklich kostet und woran man erkennt, ob sie sich rechnet

Q: Wie misst man den ROI eines KI-Programms im Unternehmen?

Die erste Gegenfrage lautet: auf welcher Einheit? Kann eine Organisation keine Kosten pro Ergebnis für ihre wichtigste KI-Arbeitslast benennen – Kosten pro gelöstem Ticket, pro erstelltem Dokument, pro abgewendetem Fall – dann existiert der ROI noch nicht als Zahl, und jede präsentierte Kennzahl ist Zufriedenheit im Finanzgewand. Die Aufgabe besteht darin, eine Arbeitslast eine Crawl/Walk/Run-Leiter hochzuinstrumentieren – von Kosten pro Token zu Kosten pro Aufruf zu Kosten pro Ergebnis – und genau das zu berichten.

Q: Welche Fragen sollte ich einem KI-Berater oder Anbieter stellen?

Drei Fragen schneiden durch einen Pitch schneller als jedes RFP: Zeigen Sie mir die Kosten pro Ergebnis, die Sie im letzten Engagement gemessen haben; zeigen Sie mir, wie Sie die Kostenseite instrumentiert haben – Token, Modell, Agentenschritt; und zeigen Sie mir den Business Owner, dessen Zahl sich bewegt hat. Antwortet eine Firma in Piloten, Demos und Zufriedenheitswerten, kaufen Sie Enablement, keinen messbaren Wert.

Die lautesten Kritiker haben in einem unbequemen Punkt recht: Die meisten Organisationen können weder sagen, was ihre KI kostet, noch ob sie sich rechnet. Das ist ein Strategieproblem, kein Investmentthese-Problem. Hier steht, was die primären Belege zur ROI-Lücke, zur Kostenopazität und zum Anbieterrisiko tatsächlich zeigen – und welche Messinstrumente die rund eine von zwanzig Organisationen einsetzen, deren Programme skalieren.

Ein Praktiker-Deep-Dive · Consulting Huber · 3. Juni 2026

Bernhard Huber

Interim Executive & Innovation Leader · CV · LinkedIn

Die Provokation, ernst genommen

Der Technologieautor Ed Zitron argumentiert seit zwei Jahren lautstark, dass die KI-Branche auf Zahlen läuft, die niemand festnageln kann – dass die wahren Inferenzkosten verschleiert werden, dass die Erlöse gemessen am Aufwand dünn sind und dass „KI keinen Return on Investment hat". Das ist eine Polemik, und Teile davon sind anfechtbar. Unter der Rhetorik steckt jedoch eine Behauptung, die sich schwerer wegwischen lässt und die dieser Beitrag anhand von Primärquellen statt anhand von Bauchgefühlen überprüfen will: Die meisten Unternehmen können schlicht nicht messen, was ihre KI kostet, und können nicht belegen, was sie zurückbringt.

Das ist keine Börsenfrage. Es ist eine Strategiefrage. Ein Aufsichtsrat muss nicht wissen, ob OpenAI eine gute Investition ist, um zu wissen, ob das eigene KI-Programm Wert produziert – und nach den vorliegenden Belegen können die meisten Boards die zweite Frage derzeit nicht mit einer Zahl beantworten. Das Verblüffende ist, dass selbst die Leute, die das Handwerkszeug zur Behebung dieses Problems aufbauen, das so sehen. Die FinOps Foundation – das Linux-Foundation-Gremium, das faktisch den Standard für Cloud-Kostendisziplin setzt – stellt unverblümt fest, dass die Fachleute, die KI-Ausgaben verwalten, „die Messung und Quantifizierung des Geschäftswerts von KI-Initiativen als eine wesentliche Herausforderung" benennen und dass die dafür nötigen Methoden noch im Entstehen sind und nicht als gesettelt gelten können.¹¹

Die Kritik trifft also. Die interessante Frage ist, was ein ernsthafter Operator dagegen tut. Dieser Beitrag beschreibt die vier Stellen, an denen die Messung bricht – die ROI-Evidenz, die Kostenseite, die Anbieterökonomie und warum Piloten stagnieren –, und legt anschließend die Messinstrumente vor, die die Organisationen, die tatsächlich messen, einsetzen. Jedes Diagramm unten ist aus einer Primärerhebung oder einem Framework-Dokument abgeleitet, und wo eine Quelle schwach oder umstritten ist, wird das im Text gesagt und nicht begraben.

Ein Hinweis zur Evidenzlage. Die Zahlen in diesem Beitrag stammen aus Führungskräftebefragungen, Feldexperimenten und Framework-Gremien – nicht aus einem einzigen geprüften Datensatz, denn einen solchen gibt es nicht. Stichprobengrößen, Nenner und der Unterschied zwischen „Zufriedenheit" und „gemessener Rendite" sind hier von zentraler Bedeutung, und die Bildunterschriften sagen das. Die meistzitierte Zahl der gesamten Debatte – MITs „95 % der Piloten scheitern" – ist zugleich die methodisch umstrittenste; sie wird unten so dargestellt, wie der Bericht sie berichtet, mit der Kritik daran.

Teil I · Die Rendite

Zufriedenheit ist hoch. Gemessene Rendite nicht.

Das klarste Ergebnis aus den Erhebungen von 2025 ist nicht, dass KI scheitert. Es ist, dass die Anwender damit zufrieden sind und dennoch kein Geld vorweisen können. Bain & Companys Führungskräftebefragung aus Q3 2025 ergab, dass unter den 59 % der Unternehmen, die Generative KI substanziell einsetzen, die Technologie in rund 80 % der Fälle die Erwartungen erfüllte oder übertraf. In derselben Befragung gaben nur etwa 23 % aller Befragten an, dass Generative KI tatsächlich mehr Umsatz gebracht oder Kosten gesenkt hatte.¹ Diese Lücke – zwischen „es funktioniert" und „wir können den Wert zurechnen" – ist die Messkrise in einem einzigen Diagramm.

Die Lücke zwischen Zufriedenheit und Attributierung

Enterprise Generative KI, Bain-Führungskräftebefragung, Q3 2025

Erwartungen erfüllt oder übertroffen unter substanziellen Anwendern

~80%

Mehr Umsatz oder niedrigere Kosten erzielt alle Befragten

~23%

Die beiden Balken benutzen unterschiedliche Nenner: der erste bezieht sich auf substanzielle Anwender, der zweite auf alle Befragten – sie sind also kein sauberes Vorher/Nachher. Der Punkt ist die Form, nicht die Subtraktion. Die Stichprobe ist klein (n=197) und selbstberichtet; als Führungskräftebefragung zu lesen, nicht als Bevölkerungsstatistik. Quelle: Bain & Company, „AI moves from pilots to production" (2025).

Wäre das eine einzelne Erhebung, wäre es ein Einzelfall. Das ist es nicht. S&P Global Market Intelligences Voice of the Enterprise-Befragung unter rund 1.006 IT- und Fachbereichsfachleuten in Nordamerika und Europa ergab, dass der Anteil der Organisationen, die die Mehrheit ihrer Generative-KI-Initiativen vor der Produktion aufgaben, innerhalb eines Jahres mehr als verdoppelte – von 17 % auf 42 % – und dass im Durchschnitt 46 % der Projekte irgendwo zwischen Proof of Concept und breiter Einführung gestrichen wurden.²

Abbruchrate mehr als verdoppelt innerhalb eines Jahres

Anteil der Organisationen, die die Mehrheit ihrer GenAI-Initiativen vor der Produktion aufgaben

2024

17%

2025

42%

Zwischen PoC und Einführung gestrichen Durchschnitt über alle Projekte

46%

Quelle: S&P Global Market Intelligence, Voice of the Enterprise: AI & Machine Learning (~1.006 Befragte, Nordamerika + Europa), „Generative AI shows rapid growth but yields mixed results". Zahlen unabhängig von CIO Dive berichtet.

Dieselbe Längsschnitterhebung fand etwas Aussagekräftigeres als jede einzelne Abbruchzahl: Der Anteil der Organisationen, die einen positiven Einfluss von Generativer KI berichteten, sank im Jahresvergleich bei jedem gemessenen Unternehmensziel. Keine Umverteilung, kein Plateau – ein Rückgang auf allen drei Fronten gleichzeitig.

Positiver Einfluss sank bei jedem gemessenen Ziel

Anteil der Organisationen mit positivem GenAI-Einfluss, 2024 → 2025

2024 2025

Umsatzwachstum

81%

76%

Kostenmanagement

79%

74%

Risikomanagement

74%

70%

Ein Rückgang-auf-allen-Fronten-Muster aus einer strukturierten Jahresvergleichserhebung ist ein unschmeichelhafter Befund, kein Marketingbefund – was ein Teil seiner Glaubwürdigkeit ausmacht. Quelle: S&P Global Market Intelligence, dieselbe Erhebung wie oben.

Die 95-%-Zahl – und warum man sie mit Vorsicht handhaben sollte

Keine Statistik in dieser Debatte kursiert weiter als MITs. Der Bericht der NANDA-Initiative des MIT Media Lab, The GenAI Divide: State of AI in Business 2025 – aufgebaut auf 150 Führungskräfteinterviews, einer Mitarbeiterbefragung mit 350 Teilnehmern und einer Analyse von 300 öffentlichen Deployments – berichtet, dass rund 5 % der KI-Piloten im Unternehmen eine rasche Umsatzbeschleunigung erzielen, während rund 95 % wenig oder keinen messbaren Einfluss auf die Gewinn-und-Verlust-Rechnung haben.³ Zudem berichtet er einen steilen Einführungstrichter für aufgabenspezifische, eingebettete Tools, gegenüber einem deutlich sanfteren Pfad für generische Chatbots wie ChatGPT und Copilot.

Der Pilot-zu-Produktion-Trichter

Aufgabenspezifische, eingebettete Enterprise-Tools vs. generische Chatbots auf dem Weg zur Produktion

Evaluiert aufgabenspezifische Tools

~60%

Pilotiert

~20%

Produktion erreicht

~5%

– zum Vergleich –

Generische Chatbots Pilot → Implementierung

~83%

Mit Vorsicht zu handhaben. Whartons Kevin Werbach und andere Forscher haben gesagt, die 95-%-Schlagzeile sei undokumentiert – sie können nicht nachvollziehen, wie sie abgeleitet wurde – und der 60/20/5-Trichter wird ohne klare Nenner berichtet. Der Herausgeber bewirbt zudem kommerzielle agentische KI-Protokolle, was einen potenziellen Interessenkonflikt darstellt. Zu behandeln als das, was der Bericht behauptet, in der Richtung durch die Bain- und S&P-Befunde oben gestützt, aber nicht als gesicherter Befund. Quelle: MIT NANDA, The GenAI Divide (2025), via Fortune und das Bericht-PDF.

Der Grund, alle drei Quellen gleichzeitig im Blick zu behalten, ist, dass sie auf unterschiedliche Weise versagen. Bain ist eine kleine Führungskräftebefragung. S&P ist eine größere Längsschnitterhebung. MIT ist eine umstrittene Schlagzeile. Sie stimmen nicht bei einer Zahl überein – sie stimmen bei einer Form überein: Die Einführung ist breit, die Zufriedenheit ist real, und ein zurechenbarer finanzieller Rückfluss ist selten und wird immer schwerer zu behaupten. Diese Form ist robust, auch wenn jede einzelne Zahl unsicher ist.

Teil II · Die Kosten

Warum „billigere Token" zu höheren Rechnungen geführt haben

Die Renditeseite ist schwer zu messen. Die Kostenseite ist, wenn überhaupt, noch schlimmer – weil der Haupttrend in die falsche Richtung zur Rechnung zeigt. Die Token-Preise sind eingebrochen. Stanford HAIs AI Index dokumentiert einen Rückgang der Kosten für eine GPT-3.5-äquivalente Anfrage um rund das 280-Fache zwischen November 2022 und Oktober 2024 – von etwa 20 US-Dollar auf etwa 0,07 US-Dollar pro Million Token.⁸ Selbst auf einer konservativen modellgleichen Basis schätzen Praktiker den Rückgang auf etwa eine Größenordnung über zwei Jahre. Und dennoch steigen die Enterprise-KI-Rechnungen, weil der Verbrauch schneller wächst als der Preis fällt – die klassische Jevons-Paradox-Dynamik, bei der Effizienz den Verbrauch schneller ausdehnt, als sie die Stückkosten senkt.⁹

↓ ~280×

Token-Preis bei konstanter Qualität, Nov. 2022 → Okt. 2024 (Stanford HAI)

↑ >100×

Wachstum des Token-Verbrauchs über rund zwei Jahre

↑ Netto

Gesamte Enterprise-KI-Rechnung – der Verbrauch übersteigt den Preisrückgang

4–5 Mo.

Zeit, in der Uber und ServiceNow laut Berichten ihr KI-Jahresbudget 2026 aufgebraucht haben

Ankerpunkt ist Stanford HAI; die „>100×"-Verbrauchszahl und die Budget-Erschöpfungs-Anekdoten stammen aus VentureBeats Berichterstattung und sind als Größenordnung zu verstehen. Quellen: Stanford HAI AI Index 2025; VentureBeat, „Cheaper tokens, bigger bills".

Sinkende Preise würden eine Prognose dennoch ermöglichen, wenn die Einheit stabil wäre. Das ist sie nicht. Der Grund, warum die wahren Kosten einer KI-Arbeitslast so schwer zu kennen sind, liegt darin, dass sie von zu vielen wechselwirkenden Variablen abhängen, um sie intuitiv zu erfassen: welches Modell eine gegebene Anfrage tatsächlich bedient, wo die Arbeitslast ausgeführt wird, wie Prompt und Kontext strukturiert sind, wie viel Retrieval in das Kontextfenster gestopft wird – und vor allem – wie oft ein agentischer Workflow schleift. Branchenanalysen von CloudZero und IDC beschreiben agentische Multi-Call-Muster, die den Token-Verbrauch für einen einzigen sichtbaren Nutzervorgang um das 5- bis 30-Fache verstärken. Das zu managen ist, in den Worten eines Praktikers, „ein Engineering-Problem, das kontinuierliche Abstimmung erfordert" – was Prompt-Engineering als Kostenkontroll-Disziplin neu einrahmt, nicht als handwerkliche Prompt-Gestaltung.⁹

Die Konsequenz zeigt sich direkt in der Budgetierungsgenauigkeit. Die Daten der FinOps Foundation aus dem State of FinOps 2026 zeigen, dass nur etwa 15 % der Unternehmen ihre KI-Kosten auf ±10 % genau vorhersagen, während rund einer von vier seine Prognose um mehr als 50 % verfehlt.¹⁰ Eine Budgetposition, die man um die Hälfte verfehlt, ist keine Position, auf der man einen Business Case aufbauen kann.

Die meisten Unternehmen können ihre KI-Rechnung nicht vorhersagen

Genauigkeit der KI-Kostenprognosen im Unternehmen

Prognose innerhalb ±10 % „auf Kurs"

~15%

Prognose um >50 % verfehlt wesentlich falsch

~25%

Token-Preisgestaltung, Abrechnung nach Agentenschritten und Retrieval-Kosten erzeugen eine Volatilität, für die klassische Jahresbudgetierung nie ausgelegt war. Quelle: FinOps Foundation, State of FinOps 2026.

Das ist der Teil von Zitrons Kritik, der am besten standhält. Nicht „KI ist wertlos" – die weiter unten zitierten Produktivitätsbelege widersprechen dem –, sondern „die wahren Stückkosten sind strukturell schwer zu kennen". Das stimmt. Und eine Organisation, die ihre Kosten pro Arbeitseinheit nicht benennen kann, kann keine Rendite berechnen, so gut die Arbeit auch sein mag.

Teil III · Der Anbieter

Anbieterökonomie – als Beschaffungsrisiko, nicht als Investmentperspektive

Es ist nicht Aufgabe des Käufers, die Modellanbieter zu bewerten. Aber es ist Aufgabe des Käufers zu verstehen, dass der Preis, den er heute zahlt, auf einer Wirtschaftsstruktur ruht, die noch ihren Gleichgewichtspunkt sucht – weil diese Struktur Preisbeständigkeit und Gegenparteirisiko bestimmt, die Budgetierungseingaben sind. Drei Fakten, alle aus der Berichterstattung über die eigenen Zahlen der Anbieter, genügen, um die Exposition einzurahmen.

Erstens haben sich OpenAIs Ausgabenpläne um ein Ausmaß verschoben, das ins Gewicht fällt. Im Februar 2026 berichtete CNBC, dass das Unternehmen sein Rechnerausgabenziel nach unten korrigiert hatte – von den rund 1,4 Billionen US-Dollar an Infrastrukturverpflichtungen, mit denen CEO Sam Altman geworben hatte, auf rund 600 Milliarden US-Dollar bis 2030 –, ausdrücklich um die Ausgaben enger an das erwartete Umsatzwachstum zu knüpfen.⁵ Zweitens zeigen seine 2025er Ergebnisse, wie berichtet, realen Mittelabfluss: rund 13,1 Milliarden US-Dollar Umsatz gegen rund 8 Milliarden US-Dollar verbranntes Kapital.⁵

$13,1 Mrd.

OpenAI-Umsatz 2025 (über dem eigenen $10-Mrd.-Ziel)

~$8 Mrd.

Cash-Burn 2025 (unter dem eigenen $9-Mrd.-Ziel)

$1,4 Bio. → ~$600 Mrd.

Rechnerausgabenziel bis 2030, nach unten korrigiert

>$280 Mrd.

Prognostizierter Umsatz 2030 (Privatkunden + Enterprise)

Das sind ungeprüfte Zahlen, die über die Berichterstattung zu den internen Projektionen eines privaten Unternehmens weitergegeben werden – die stärkste verfügbare Quelle, von CNBC, Reuters und Bloomberg bestätigt, aber inhärent nicht unabhängig überprüfbar. Als „laut Berichten angestrebt" zu lesen, nicht als Jahresabschluss. Quelle: CNBC, „OpenAI resets spend expectations" (Feb. 2026).

Drittens ist die Belastung nun in den Kreditratings der Unternehmen sichtbar, die den Aufbau finanzieren. Mitte 2025 stufte Moody's den Ausblick für Oracle von „stabil" auf negativ zurück – bei bestätigtem Baa2-Rating, dem unteren Ende von Investment Grade –, und nannte dabei das Gegenparteikonzentrationsrisiko aus einem rund 300-Milliarden-Dollar, 4,5-Gigawatt-Rechenvertrag mit OpenAI, den Moody's als eine der weltweit größten Projektfinanzierungen charakterisierte.⁶ Das war eine Ausblickkorrektur, keine Herabstufung – aber für einen Unternehmenskäufer ist es ein konkretes, namentlich benanntes Signal.

Die Abhängigkeit von externen LLMs in der Skalierung ist ein eigenständiges strategisches Risiko

Unterhalb der Preis- und Gegenparteizahlen liegt ein größerer Punkt, der klar benannt werden sollte. Einen zentralen, hochvolumigen Geschäftsprozess über eine externe Modell-API zu führen, konzentriert eine operative Abhängigkeit außerhalb des Einflussbereichs der Organisation. Im Pilotmaßstab ist das ein vernünftiger Tausch – Fähigkeit und Geschwindigkeit gegen einen kleinen, abgegrenzten Aufwand. Im Produktionsmaßstab, wenn Tausende von täglichen Entscheidungen, Dokumenten oder Kundeninteraktionen über einen einzigen Drittanbieter-Endpunkt laufen, wird dieselbe Anordnung zu einer Frage der Resilienz, nicht der Bequemlichkeit. Ein Anbieter, der noch Kapital verbrennt, seinen eigenen Ausgaben-Fahrplan zurücksetzt und seinen Aufbau über konzentrierte Gegenparteien finanziert, ist noch kein stabiles Versorgungsunternehmen; er ist ein schnell beweglicher Lieferant eines Inputs, den das Unternehmen still zu einer tragenden Säule gemacht hat. Eine Preisänderung, ein Rate-Limit, eine veraltete Modellversion oder ein Ausfall landet dann nicht als IT-Unannehmlichkeit, sondern als Unterbrechung eines Kernprozesses.

Die Schlussfolgerung lautet nicht, externe Modelle zu meiden – sie sind zu leistungsfähig, und Frontier-Fähigkeiten intern aufzubauen ist selten der richtige Weg. Die Schlussfolgerung lautet, einen Modellanbieter so zu behandeln, wie ein ernsthafter Operator jeden kritischen Einzellieferanten behandelt, sobald ein Prozess den Experimentierstatus überschreitet, und eine ehrliche Frage beantworten zu können: Was passiert mit diesem Prozess, wenn sich der Preis verdoppelt, das Modell eingestellt wird oder der Endpunkt nächstes Quartal nicht verfügbar ist? Gibt es keine Antwort, ist die Abhängigkeit ein strategisches Risiko im Kostüm einer praktischen API. Die konkreten Absicherungen, die sich aus dieser Frage ergeben, sind diejenigen, die ein Käufer aufschreiben sollte – weiter unten.

Was das für einen Käufer bedeutet – nicht für einen Investor. Wenn Frontier-Modell-API-Preise unter Kosten gehalten werden, um den Markt zu gewinnen, ist der heutige Token-Preis ein Einführungspreis, und ein umsichtiger mehrjähriger Business Case sollte mit der Möglichkeit rechnen, dass er steigt. Drei praktische Absicherungen folgen unmittelbar: (1) Single-Provider-Lock-in für jede wesentliche Arbeitslast vermeiden; (2) Preisänderungs- und Exit-Annahmen in den Business Case schreiben, nicht nur in die aktuelle Preisliste; (3) ein kleineres oder Open-Weight-Modell als Fallback für hochvolumige, wenig komplexe Aufgaben qualifizieren. Das alles erfordert keine Meinung dazu, ob die Anbieter profitabel sein werden. Es erfordert nur, den Preis als variabel zu behandeln.

Teil IV · Die Lücke

Warum Piloten stagnieren – und was die Evidenz zeigt, was tatsächlich funktioniert

Wenn die Zufriedenheit hoch und die Attributierung selten ist, lautet die naheliegende Frage: Was unterscheidet die Programme, die konvertieren? Die Evidenz verweist weg vom Modell hin zu zwei strukturellen Ursachen: was gefördert wird und was gemessen wird.

Das Budget folgt der Sichtbarkeit, nicht der Rendite

Der umsetzbarste Befund des MIT-NANDA-Berichts – vertretbarer als seine Kernausfallquote – ist, dass GenAI-Budgets systematisch falsch zugeteilt werden. Rund die Hälfte der GenAI-Budgets (das Abstract des Berichts nennt ~50 %; das Umfragedetail reicht bis zu ~70 %) fließt in Front-Office-Bereiche wie Vertrieb und Marketing, während Back-Office-Automatisierung, die oft besseren ROI erzielt, unterfinanziert bleibt. Der Grund ist selbst ein Messproblem: Vertriebs- und Marketingergebnisse lassen sich sauber auf Vorstandsebene-KPIs und Investoreninformationen abbilden, während die Effizienzgewinne in Recht, Einkauf und Finanzen real, aber schwerer in einem Führungsgespräch herauszustellen sind.³

Budget folgt Sichtbarkeit, nicht Rendite

Verteilung des Enterprise-GenAI-Budgets nach Funktion

Front Office Vertrieb & Marketing – sichtbare KPIs

~50–70%

Back Office Recht, Einkauf, Finanzen – oft besserer ROI, oft unterfinanziert

Rest

Die Ausgaben wurden über eine hypothetische „100-€-Zuteilungs"-Übung erhoben; die Aufteilung ist daher als Richtungsangabe zu lesen. Der strategische Punkt bleibt bestehen: Die Funktion, die am einfachsten zu messen ist, zieht das Budget an, auch wenn dort die Rendite nicht liegt. Quelle: MIT NANDA, The GenAI Divide (2025).

Die Produktivität ist real – aber ungleich verteilt

Es wäre falsch, den Eindruck zu hinterlassen, KI funktioniere nicht. Ein großes, vorregistriertes Feldexperiment über Microsoft, Accenture und einen anonymen Fortune-100-Hersteller (n=4.867 Entwickler, veröffentlicht in Management Science) ergab, dass GitHub Copilot die Anzahl abgeschlossener Aufgaben um rund 26 % steigerte.⁷ Zwei Vorbehalte sind für jeden ROI, der auf dieser Zahl aufgebaut wird, wichtig. Erstens maß die Studie Durchsatz von Aufgaben, nicht Codequalität oder finanziellen Rückfluss – die Forscher hatten keinen Zugang zum erzeugten Code. Zweitens, und für die Strategie hilfreicher: Die Gewinne waren nach Erfahrungsstand stark ungleich.

Dasselbe Tool, sehr unterschiedliche Gewinne

Output-Steigerung durch KI-gestützte Programmierung nach Entwicklererfahrung

Junioren / wenig erfahrene Entwickler

+27–39%

Senior-Entwickler

+8–13%

Da der Gewinn so stark davon abhängt, wer das Tool benutzt, kann dasselbe Deployment über zwei Teams hinweg sehr unterschiedlichen Wert zurückbringen – was genau der Grund ist, warum eine einzige gemittelte „KI-Produktivitäts"-Zahl auf Portfolioebene irreführend ist. Gemessen als Output, nicht als Qualität oder ROI. Quelle: Feldexperiment (RCT), MIT/Princeton/Wharton/Microsoft, Management Science (2025).

Verbindet man die beiden Befunde, ist die strategische Implikation scharf. Der Wert ist real, aber er ist kontingent – abhängig von der Funktion, von der Zusammensetzung der Belegschaft, davon, ob der Workflow um das Tool herum neu gestaltet wurde. Ein Programm, das nicht auf dieser Granularitätsstufe misst, sieht den Durchschnitt und verpasst die Verteilung, fördert den sichtbaren Use Case statt des wertvollen, berichtet „es hat die Erwartungen erfüllt" während sich die G+V nicht bewegt. Das ist kein Modellversagen. Es ist ein Instrumentierungsversagen.

Teil V · Die Lösung

Das Mess-Playbook: von Kosten pro Token zu Kosten pro Ergebnis

Die gute Nachricht ist, dass die Disziplin zur Behebung dieses Problems nicht theoretisch ist. Die FinOps Foundation – das Gremium, das Cloud-Kostenmanagement standardisiert hat – hat ihr Framework auf KI ausgeweitet, und ihr Kernkonstrukt, Unit Economics, ist die konkreteste verfügbare Primärantwort. Unit Economics wird definiert als „Metriken, die ein Verständnis davon vermitteln, wie der Technologieeinsatz und die Technologiemanagement-Praktiken einer Organisation den Wert ihrer Produkte, Dienstleistungen oder Aktivitäten beeinflussen", und fällt direkt unter den Domänenbereich Quantify Business Value des Frameworks. Die Foundation formuliert das Prinzip unverblümt: „Ohne eine Möglichkeit, Kosten mit erhaltenen Nutzen in Beziehung zu setzen, ist es schwierig zu verstehen, ob die Ausgaben angemessen sind."⁴

Der praktische Schritt ist eine Leiter. Die KI-Kostenmessung soll auf der Stufe der Kosten pro Token beginnen und auf ergebnisorientierte Metriken hinaufklettern – Kosten pro Unterstützungsleistung, pro Agentenschritt, pro abgewendetem Fall – wobei die granulare Nachverfolgung (bis auf Token-, GPU- und Vorhersageebene) die darüberliegenden Sprossen speist.⁴

Crawl Kosten pro Token / GPU-StundeFeinkörnige Nachverfolgung. Notwendig, beantwortet aber „Was haben wir ausgegeben?", nicht „War es das wert?"

Walk Kosten pro Aufruf / Feature / KI-VorhersageAusgaben einem bestimmten Modell, einer Aufgabe oder Arbeitslast zurechnen – die erste Sicht, auf die ein Product Owner handeln kann.

Run Kosten pro ErgebnisKosten pro Unterstützungsleistung, pro Agentenschritt, pro abgewendetem Fall, pro gelöstem Ticket – die Sprosse, auf der Kosten endlich auf Wert treffen und ROI berechenbar wird.

Das FinOps-Crawl/Walk/Run-Reifemodell, angewandt auf KI. Die meisten Organisationen stecken auf der untersten Sprosse fest – weshalb sie Ausgaben berichten können, aber keine Rendite. Quelle: FinOps Foundation, Unit-Economics-Capability.

Die Metrik-Leiter braucht einen Owner, sonst stagniert sie im Finanzbereich. Das von der Foundation empfohlene Governance-Vehikel ist ein funktionsübergreifender KI-Investment-Council – und der Wert der Empfehlung liegt in der konkreten Zusammensetzung, denn sie ist es, die Kosten und Ergebnis in einem Raum zusammenbringt. Der Council, so die FinOps Foundation, treibt die Unit-Economics-Diskussion auf höhere Organisationsebenen, indem er die konkreten Ergebnisse und KPIs definiert, die KI-Projekte adressieren müssen.¹¹

KI-Investment-Council · funktionsübergreifende Zusammensetzung

Business- & Produkt-Owner verantworten Ergebnis / KPI

KI- / Technologieleitung Machbarkeit, Modellwahl

Enterprise Architecture & Plattform wo es läuft

Infrastrukturverantwortliche Kapazität, GPU-Ökonomie

IT-Sicherheit & Risiko Governance, KI-Verordnungs-Exposure

Finance & FinOps Unit Economics, Prognose

Einkauf / Verträge Anbieter- & Preisrisiko

Definierte Ergebnisse & KPIs, die jedes KI-Projekt adressieren muss Kosten-pro-Ergebnis-Ziele · Attributierung · Go / No-Go auf derselben Evidenzbasis

FinOps bezeichnet den Council als „einen der effektivsten Wege", die Unit-Economics-Diskussion anzutreiben – einen zentralen empfohlenen Mechanismus, nicht den einzigen. Die Zusammensetzung ist der entscheidende Punkt: Jede Funktion, die KI-Kosten oder -Wert berührt, sitzt im Raum, wenn der KPI gesetzt wird. Quelle: FinOps Foundation, Managing AI Value Working Group.

Zwei ehrliche Einschränkungen. Erstens beansprucht die Foundation selbst nicht, die Aufgabe erledigt zu haben: Sie räumt ein, dass es noch keine gesettelte, standardisierte Methodik zur Quantifizierung des KI-Geschäftswerts gibt – die Ansätze entstehen gerade erst. Das ist genau der Grund, warum die Kritik am Anfang dieses Beitrags trifft; die Disziplin, die die Lösung aufbaut, ist offen dafür, dass die Lösung unvollständig ist. Zweitens ist die Sprache des Frameworks deskriptiv, kein Mandat – es stellt fest, dass ausgereifte Praktiken „in Richtung" Outcome-Metriken expandieren, es ordnet niemanden dazu an. Die strategische Lesart ist dieselbe: Das Ziel ist Kosten-pro-Ergebnis, fast niemand ist dort angelangt, und die Organisationen, die am frühesten ankommen, werden diejenigen sein, die Wert nachweisen können, während ihre Mitbewerber noch Zufriedenheit berichten.

Wie Sie diesen Beitrag als Auftraggeber lesen

Blendet man die Erhebungen aus, läuft die Aufgabe eines Operators auf vier Situationen hinaus. Die folgende Einrahmung schneidet durch das Rauschen schneller als jedes Reifegrad-Scorecard.

Situation 1 – der Aufsichtsrat fragt: „Was ist unser KI-ROI?" Die ehrlichste erste Antwort ist eine Gegenfrage: auf welcher Einheit? Kann die Organisation keine Kosten pro Ergebnis für ihre wichtigste KI-Arbeitslast benennen – Kosten pro gelöstem Ticket, pro erstelltem Dokument, pro abgewendetem Fall –, dann existiert der ROI noch nicht als Zahl, und jede präsentierte Kennzahl ist Zufriedenheit im Finanzgewand. Die Aufgabe ist nicht, eine bessere Folie zu produzieren; es ist, eine Arbeitslast auf die Kosten-pro-Ergebnis-Sprosse zu instrumentieren und das zu berichten.

Situation 2 – der CEO mit stagnierten Piloten. Die Evidenz sagt, die Ursache ist selten das Modell. Prüfen Sie zuerst zwei Dinge: Wohin das Budget geflossen ist (Front Office nach Sichtbarkeit, oder dorthin, wo die Rendite liegt?) und was gemessen wird (Durchsatz oder Ergebnis?). Ein einzelner Use Case, instrumentiert auf Kosten-pro-Ergebnis, mit einem namentlich benannten Business Owner, dessen G+V davon abhängt, schlägt ein Portfolio von Piloten, die an „Engagement" gemessen werden. Drei Monate davon schlagen zwölf Monate Piloten.

Situation 3 – die Kostenlinie ist volatil und niemand kann sie vorhersagen. Das ist das ±10%-Problem, und es ist ein Engineering-und-Governance-Problem, kein Beschaffungsproblem. Die Lösungen sind konkret: Token-, Modell- und Agentenschritt-Verbrauch pro Arbeitslast instrumentieren; Prompt- und Kontextgestaltung als Kostenkontrolle behandeln; agentische Schleifentiefe begrenzen; und ein günstigeres Fallback-Modell für hochvolumige, wenig komplexe Aufgaben qualifizieren. Prognosefähigkeit ist eine Kompetenz, die man aufbaut, kein Tarif, den man verhandelt.

Situation 4 – Anbieter- und Preisrisiko. Gehen Sie davon aus, dass der heutige Token-Preis ein Einführungspreis ist, und verankern Sie diese Annahme im mehrjährigen Business Case. Single-Provider-Lock-in für jede wesentliche Arbeitslast vermeiden, ein Open-Weight- oder kleineres Modell als Fallback qualifiziert halten, und Preisänderungs- und Exit-Konditionen im Vertrag verankern. Sie brauchen keine Meinung dazu, ob die Anbieter profitabel sein werden. Sie brauchen einen Business Case, der den Tag übersteht, an dem sich der Preis ändert.

Und drei Fragen, die durch einen Anbieter-Pitch schneller schneiden als jedes RFP: „Zeigen Sie mir die Kosten pro Ergebnis, die Sie im letzten Engagement gemessen haben." „Zeigen Sie mir, wie Sie die Kostenseite instrumentiert haben – Token, Modell, Agentenschritt." „Zeigen Sie mir den Business Owner, dessen Zahl sich bewegt hat." Antwortet eine Firma in Piloten, Demos und Zufriedenheitswerten, kaufen Sie Enablement, keinen messbaren Wert.

Wo Consulting Huber ansetzt

Consulting Huber ist eine Praktiker-Firma. Wir verkaufen keine KI-Plattform, und wir haben keinen Anreiz, eine Token-Rechnung oder eine Pilotanzahl aufzublähen. Wir arbeiten mit CEOs, Aufsichtsräten, Transformationsverantwortlichen und PE-Operatoren an der unattraktiven Hälfte des Problems, auf das die Erhebungen immer wieder zeigen: KI-Kosten und KI-Wert messbar zu machen, damit die Entscheidung zu skalieren oder zu stoppen auf einer Zahl beruht, nicht auf einem Bauchgefühl.

In der Praxis bedeutet das: eine strategisch wichtige Arbeitslast in den ersten Wochen auf die Kosten-pro-Ergebnis-Sprosse instrumentieren; die funktionsübergreifende Kadenz aufstellen – Business Owner, Engineering, Finance, Risiko –, die das FinOps-Framework als Council bezeichnet und die wir schlicht den Raum nennen, in dem der KPI gesetzt wird; Prognosefähigkeit in die Kostenlinie bauen statt sie zu verhandeln; und Anbieter- und Preisrisiko in den Business Case schreiben. Die vollständige Form dieser Delivery-Disziplin beschreibt unser Begleit-Deep-Dive zur Delivery-Ebene unter der KI und das KI-Wertschöpfungs-Playbook; die regulatorische Seite steht in unserem EU-KI-Verordnung-Compliance-Leitfaden.

Wenn Sie sich in einer der vier Käufersituationen oben befinden und ein direktes Gespräch darüber führen möchten, wie Sie Ihre KI-Ausgaben messbar machen können, ist der schnellste Einstieg unsere zweiwöchige Delivery- & KI-Readiness-Diagnose zum Festpreis — ein ehrlicher Blick darauf, ob sich Ihre KI- und Digitalausgaben rechnen, geliefert als IC-fähiges Memo. Oder nutzen Sie den Kalender-Link unten.

Herangezogene Quellen

Enterprise-ROI-Evidenz

[1] Bain & Company, „AI moves from pilots to production", Führungskräftebefragung Q3 2025 (n=197) – Zufriedenheit ~80 % unter substanziellen Anwendern, ~23 % berichten Umsatz- oder Kosteneffekt. Bestätigt durch Bloomberg, „AI Delivers Less Cost Reduction Than Firms Predicted" (Juni 2026). Als Führungskräftebefragung zu zitieren, nicht als Bevölkerungsstatistik.

[2] S&P Global Market Intelligence, Voice of the Enterprise: AI & Machine Learning (~1.006 Befragte, Nordamerika + Europa) – Abbruchrate 17 % → 42 % im Jahresvergleich; 46 % der Projekte zwischen PoC und Einführung gestrichen; Rückgang des positiven Einflusses bei Umsatz (81→76), Kosten (79→74) und Risiko (74→70). Zahlen unabhängig von CIO Dive berichtet.

[3] MIT Media Lab NANDA-Initiative, The GenAI Divide: State of AI in Business 2025 (150 Führungskräfteinterviews, 350-Personen-Mitarbeiterbefragung, 300 öffentliche Deployments) – ~95 % der Piloten ohne messbaren G+V-Einfluss; 60/20/5-Trichter; ~50–70 % des Budgets für Vertrieb & Marketing. Via Fortune und das Bericht-PDF. Methodisch umstritten: Whartons Kevin Werbach und andere hinterfragen die Herleitung der 95-%-Zahl und die fehlenden Trichternenner; der Herausgeber bewirbt kommerzielle agentische Protokolle. Im gesamten Beitrag als das behandelt, was der Bericht berichtet, mit der beigefügten Kritik.

[7] Cui, Demirer, Jaffe, Musolff, Peng & Sadun et al., Feld-RCT über Microsoft, Accenture und einen Fortune-100-Hersteller (n=4.867; vorregistriert AEARCTR-0014530), veröffentlicht in Management Science (2025) – GitHub Copilot steigerte abgeschlossene Aufgaben um ~26 % (SE ~10,3 %); Junioren +27–39 %, Seniors +8–13 %. Misst Durchsatz, nicht Codequalität oder finanziellen Rückfluss.

Token- & Inferenzkostenopazität

[8] Stanford HAI, AI Index 2025 – ~280-facher Rückgang der Token-Kosten für GPT-3.5-äquivalente Qualität ($20 → $0,07 pro Million Token, Nov. 2022 – Okt. 2024). Der primäre Ankerpunkt für die Größenordnung des Kostenrückgangs.

[9] VentureBeat, „Cheaper tokens, bigger bills: the new math of AI infrastructure" – Verbrauch um >100× gestiegen, während Preis ~10× fiel (modellgleiche Untergrenze); Kosten sind „ein Engineering-Problem, das kontinuierliche Abstimmung erfordert"; Uber und ServiceNow haben ihr KI-Jahresbudget 2026 laut Berichten in 4–5 Monaten aufgebraucht. Agentisches 5–30×-Token-Verstärkungsmuster durch CloudZero und IDC bestätigt. Sekundärquelle; Verbrauchsmultiplikator als Größenordnung zu behandeln.

[10] FinOps Foundation, State of FinOps 2026 – ~15 % der Unternehmen prognostizieren KI-Kosten auf ±10 % genau; ~1 von 4 verfehlt die Prognose um >50 %. Token-Preisgestaltung, Abrechnung nach Agentenschritten und Retrieval-Kosten erzeugen eine Volatilität, die klassisches Jahresbudget nicht handhaben kann. Schnelllebig; vor Weiterverwertung verifizieren.

Anbieterökonomie (als Käuferrisiko)

[5] CNBC, „OpenAI resets spend expectations, targets around $600 billion by 2030" (Feb. 2026) – Ausgabenziel von angepeilten $1,4 Bio. auf ~$600 Mrd. bis 2030 korrigiert; 2025-Umsatz $13,1 Mrd. gegen ~$8 Mrd. Cash-Burn; prognostizierter Umsatz 2030 >$280 Mrd. Durch Reuters und Bloomberg bestätigt. Ungeprüfte Zahlen aus den internen Projektionen eines privaten Unternehmens – „laut Berichten angestrebt", nicht Jahresabschluss.

[6] Moody's Ratings – Oracle-Ausblick von „stabil" auf negativ korrigiert (Baa2 bestätigt), unter Verweis auf Gegenparteikonzentrationsrisiko aus einem ~$300-Mrd. / 4,5-GW-OpenAI-Rechenvertrag; als eine der weltgrößten Projektfinanzierungen charakterisiert. Via Yahoo Finance; von The Register als Ausblickkorrektur (Mitte 2025) klargestellt, keine Herabstufung. Für Zitationszwecke die eigene Ratingmeldung von Moody's unter ratings.moodys.com bevorzugen.

Das Mess-Playbook

[4] FinOps Foundation, Unit-Economics-Capability – die definitorische Einrahmung von Unit Economics unter „Quantify Business Value" und die Crawl/Walk/Run-Progression von Kosten pro Token hin zu Kosten pro Unterstützungsleistung / Agentenschritt / abgewendetem Fall. Das Linux-Foundation-Projekt ist die Standards-Autorität für Cloud- und KI-Kostenmanagement.

[11] FinOps Foundation, Managing AI Value Working Group – der funktionsübergreifende KI-Investment-Council und seine Zusammensetzung; Nachverfolgung auf Token-, GPU- und Vorhersageebene; und das explizite Eingeständnis, dass die Quantifizierung des KI-Geschäftswerts „eine wesentliche Herausforderung" ist, für die noch keine gesettelte Methodik existiert.

Die Provokation

[0] Ed Zitron, „AI Doesn't Have a Return on Investment" und verwandte Essays – zitiert als das Rahmen-Pamphlet, das dieser Beitrag überprüft, nicht als Evidenzquelle. Das Argument, dass wahre KI-Kosten und KI-ROI verschleiert werden, wird oben ernst genommen und gegen Primärdaten geprüft; die weitergehenden Schlussfolgerungen werden nicht übernommen.

Was die Evidenz noch nicht klärt

Vier Fragen blieben nach dieser Recherche offen, und ein ehrlicher Leser sollte sie im Kopf behalten: (1) die netto gemischten Stückkosten einer repräsentativen agentischen Arbeitslast nach Wiederholungen, Kontextaufblähung und mehrstufiger Verstärkung – keine Quelle hat quantifiziert, wie viel der „günstigere Token"-Einsparung auf Arbeitslastebene überlebt; (2) wie weit unter den Kosten, falls überhaupt, die aktuellen Frontier-Modell-API-Preise liegen – Burn-Zahlen zeigen Verluste, isolieren aber keine Token-Inferenzökonomie pro Einheit; (3) die konkrete, wiederholbare Instrumentierung, die die ~5 %, die skalieren, von anderen unterscheidet, mit Vorher/Nachher-Ergebnisdaten jenseits der obigen Frameworks; (4) wie GPU-Abschreibung und Nutzlebensdauerannahmen die Dauerhaftigkeit der heutigen Preisgestaltung beeinflussen. Das sind die Fragen, die man jedem Anbieter oder internen Team stellen sollte, das Gewissheit beansprucht.

30-Min-Gespräch buchen Oder schildern Sie uns Ihre Lage