Die KI-Messkrise: was Enterprise-KI wirklich kostet und woran man erkennt, ob sie sich rechnet
Die lautesten Kritiker haben in einem unbequemen Punkt recht: Die meisten Organisationen können weder sagen, was ihre KI kostet, noch ob sie sich rechnet. Das ist ein Strategieproblem, kein Investmentthese-Problem. Hier steht, was die primären Belege zur ROI-Lücke, zur Kostenopazität und zum Anbieterrisiko tatsächlich zeigen – und welche Messinstrumente die rund eine von zwanzig Organisationen einsetzen, deren Programme skalieren.
Die Provokation, ernst genommen
Der Technologieautor Ed Zitron argumentiert seit zwei Jahren lautstark, dass die KI-Branche auf Zahlen läuft, die niemand festnageln kann – dass die wahren Inferenzkosten verschleiert werden, dass die Erlöse gemessen am Aufwand dünn sind und dass „KI keinen Return on Investment hat". Das ist eine Polemik, und Teile davon sind anfechtbar. Unter der Rhetorik steckt jedoch eine Behauptung, die sich schwerer wegwischen lässt und die dieser Beitrag anhand von Primärquellen statt anhand von Bauchgefühlen überprüfen will: Die meisten Unternehmen können schlicht nicht messen, was ihre KI kostet, und können nicht belegen, was sie zurückbringt.
Das ist keine Börsenfrage. Es ist eine Strategiefrage. Ein Aufsichtsrat muss nicht wissen, ob OpenAI eine gute Investition ist, um zu wissen, ob das eigene KI-Programm Wert produziert – und nach den vorliegenden Belegen können die meisten Boards die zweite Frage derzeit nicht mit einer Zahl beantworten. Das Verblüffende ist, dass selbst die Leute, die das Handwerkszeug zur Behebung dieses Problems aufbauen, das so sehen. Die FinOps Foundation – das Linux-Foundation-Gremium, das faktisch den Standard für Cloud-Kostendisziplin setzt – stellt unverblümt fest, dass die Fachleute, die KI-Ausgaben verwalten, „die Messung und Quantifizierung des Geschäftswerts von KI-Initiativen als eine wesentliche Herausforderung" benennen und dass die dafür nötigen Methoden noch im Entstehen sind und nicht als gesettelt gelten können.11
Die Kritik trifft also. Die interessante Frage ist, was ein ernsthafter Operator dagegen tut. Dieser Beitrag beschreibt die vier Stellen, an denen die Messung bricht – die ROI-Evidenz, die Kostenseite, die Anbieterökonomie und warum Piloten stagnieren –, und legt anschließend die Messinstrumente vor, die die Organisationen, die tatsächlich messen, einsetzen. Jedes Diagramm unten ist aus einer Primärerhebung oder einem Framework-Dokument abgeleitet, und wo eine Quelle schwach oder umstritten ist, wird das im Text gesagt und nicht begraben.
Teil I · Die Rendite
Zufriedenheit ist hoch. Gemessene Rendite nicht.
Das klarste Ergebnis aus den Erhebungen von 2025 ist nicht, dass KI scheitert. Es ist, dass die Anwender damit zufrieden sind und dennoch kein Geld vorweisen können. Bain & Companys Führungskräftebefragung aus Q3 2025 ergab, dass unter den 59 % der Unternehmen, die Generative KI substanziell einsetzen, die Technologie in rund 80 % der Fälle die Erwartungen erfüllte oder übertraf. In derselben Befragung gaben nur etwa 23 % aller Befragten an, dass Generative KI tatsächlich mehr Umsatz gebracht oder Kosten gesenkt hatte.1 Diese Lücke – zwischen „es funktioniert" und „wir können den Wert zurechnen" – ist die Messkrise in einem einzigen Diagramm.
Die Lücke zwischen Zufriedenheit und Attributierung
Enterprise Generative KI, Bain-Führungskräftebefragung, Q3 2025
Wäre das eine einzelne Erhebung, wäre es ein Einzelfall. Das ist es nicht. S&P Global Market Intelligences Voice of the Enterprise-Befragung unter rund 1.006 IT- und Fachbereichsfachleuten in Nordamerika und Europa ergab, dass der Anteil der Organisationen, die die Mehrheit ihrer Generative-KI-Initiativen vor der Produktion aufgaben, innerhalb eines Jahres mehr als verdoppelte – von 17 % auf 42 % – und dass im Durchschnitt 46 % der Projekte irgendwo zwischen Proof of Concept und breiter Einführung gestrichen wurden.2
Abbruchrate mehr als verdoppelt innerhalb eines Jahres
Anteil der Organisationen, die die Mehrheit ihrer GenAI-Initiativen vor der Produktion aufgaben
Dieselbe Längsschnitterhebung fand etwas Aussagekräftigeres als jede einzelne Abbruchzahl: Der Anteil der Organisationen, die einen positiven Einfluss von Generativer KI berichteten, sank im Jahresvergleich bei jedem gemessenen Unternehmensziel. Keine Umverteilung, kein Plateau – ein Rückgang auf allen drei Fronten gleichzeitig.
Positiver Einfluss sank bei jedem gemessenen Ziel
Anteil der Organisationen mit positivem GenAI-Einfluss, 2024 → 2025
Die 95-%-Zahl – und warum man sie mit Vorsicht handhaben sollte
Keine Statistik in dieser Debatte kursiert weiter als MITs. Der Bericht der NANDA-Initiative des MIT Media Lab, The GenAI Divide: State of AI in Business 2025 – aufgebaut auf 150 Führungskräfteinterviews, einer Mitarbeiterbefragung mit 350 Teilnehmern und einer Analyse von 300 öffentlichen Deployments – berichtet, dass rund 5 % der KI-Piloten im Unternehmen eine rasche Umsatzbeschleunigung erzielen, während rund 95 % wenig oder keinen messbaren Einfluss auf die Gewinn-und-Verlust-Rechnung haben.3 Zudem berichtet er einen steilen Einführungstrichter für aufgabenspezifische, eingebettete Tools, gegenüber einem deutlich sanfteren Pfad für generische Chatbots wie ChatGPT und Copilot.
Der Pilot-zu-Produktion-Trichter
Aufgabenspezifische, eingebettete Enterprise-Tools vs. generische Chatbots auf dem Weg zur Produktion
– zum Vergleich –
Der Grund, alle drei Quellen gleichzeitig im Blick zu behalten, ist, dass sie auf unterschiedliche Weise versagen. Bain ist eine kleine Führungskräftebefragung. S&P ist eine größere Längsschnitterhebung. MIT ist eine umstrittene Schlagzeile. Sie stimmen nicht bei einer Zahl überein – sie stimmen bei einer Form überein: Die Einführung ist breit, die Zufriedenheit ist real, und ein zurechenbarer finanzieller Rückfluss ist selten und wird immer schwerer zu behaupten. Diese Form ist robust, auch wenn jede einzelne Zahl unsicher ist.
Teil II · Die Kosten
Warum „billigere Token" zu höheren Rechnungen geführt haben
Die Renditeseite ist schwer zu messen. Die Kostenseite ist, wenn überhaupt, noch schlimmer – weil der Haupttrend in die falsche Richtung zur Rechnung zeigt. Die Token-Preise sind eingebrochen. Stanford HAIs AI Index dokumentiert einen Rückgang der Kosten für eine GPT-3.5-äquivalente Anfrage um rund das 280-Fache zwischen November 2022 und Oktober 2024 – von etwa 20 US-Dollar auf etwa 0,07 US-Dollar pro Million Token.8 Selbst auf einer konservativen modellgleichen Basis schätzen Praktiker den Rückgang auf etwa eine Größenordnung über zwei Jahre. Und dennoch steigen die Enterprise-KI-Rechnungen, weil der Verbrauch schneller wächst als der Preis fällt – die klassische Jevons-Paradox-Dynamik, bei der Effizienz den Verbrauch schneller ausdehnt, als sie die Stückkosten senkt.9
Ankerpunkt ist Stanford HAI; die „>100×"-Verbrauchszahl und die Budget-Erschöpfungs-Anekdoten stammen aus VentureBeats Berichterstattung und sind als Größenordnung zu verstehen. Quellen: Stanford HAI AI Index 2025; VentureBeat, „Cheaper tokens, bigger bills".
Sinkende Preise würden eine Prognose dennoch ermöglichen, wenn die Einheit stabil wäre. Das ist sie nicht. Der Grund, warum die wahren Kosten einer KI-Arbeitslast so schwer zu kennen sind, liegt darin, dass sie von zu vielen wechselwirkenden Variablen abhängen, um sie intuitiv zu erfassen: welches Modell eine gegebene Anfrage tatsächlich bedient, wo die Arbeitslast ausgeführt wird, wie Prompt und Kontext strukturiert sind, wie viel Retrieval in das Kontextfenster gestopft wird – und vor allem – wie oft ein agentischer Workflow schleift. Branchenanalysen von CloudZero und IDC beschreiben agentische Multi-Call-Muster, die den Token-Verbrauch für einen einzigen sichtbaren Nutzervorgang um das 5- bis 30-Fache verstärken. Das zu managen ist, in den Worten eines Praktikers, „ein Engineering-Problem, das kontinuierliche Abstimmung erfordert" – was Prompt-Engineering als Kostenkontroll-Disziplin neu einrahmt, nicht als handwerkliche Prompt-Gestaltung.9
Die Konsequenz zeigt sich direkt in der Budgetierungsgenauigkeit. Die Daten der FinOps Foundation aus dem State of FinOps 2026 zeigen, dass nur etwa 15 % der Unternehmen ihre KI-Kosten auf ±10 % genau vorhersagen, während rund einer von vier seine Prognose um mehr als 50 % verfehlt.10 Eine Budgetposition, die man um die Hälfte verfehlt, ist keine Position, auf der man einen Business Case aufbauen kann.
Die meisten Unternehmen können ihre KI-Rechnung nicht vorhersagen
Genauigkeit der KI-Kostenprognosen im Unternehmen
Das ist der Teil von Zitrons Kritik, der am besten standhält. Nicht „KI ist wertlos" – die weiter unten zitierten Produktivitätsbelege widersprechen dem –, sondern „die wahren Stückkosten sind strukturell schwer zu kennen". Das stimmt. Und eine Organisation, die ihre Kosten pro Arbeitseinheit nicht benennen kann, kann keine Rendite berechnen, so gut die Arbeit auch sein mag.
Teil III · Der Anbieter
Anbieterökonomie – als Beschaffungsrisiko, nicht als Investmentperspektive
Es ist nicht Aufgabe des Käufers, die Modellanbieter zu bewerten. Aber es ist Aufgabe des Käufers zu verstehen, dass der Preis, den er heute zahlt, auf einer Wirtschaftsstruktur ruht, die noch ihren Gleichgewichtspunkt sucht – weil diese Struktur Preisbeständigkeit und Gegenparteirisiko bestimmt, die Budgetierungseingaben sind. Drei Fakten, alle aus der Berichterstattung über die eigenen Zahlen der Anbieter, genügen, um die Exposition einzurahmen.
Erstens haben sich OpenAIs Ausgabenpläne um ein Ausmaß verschoben, das ins Gewicht fällt. Im Februar 2026 berichtete CNBC, dass das Unternehmen sein Rechnerausgabenziel nach unten korrigiert hatte – von den rund 1,4 Billionen US-Dollar an Infrastrukturverpflichtungen, mit denen CEO Sam Altman geworben hatte, auf rund 600 Milliarden US-Dollar bis 2030 –, ausdrücklich um die Ausgaben enger an das erwartete Umsatzwachstum zu knüpfen.5 Zweitens zeigen seine 2025er Ergebnisse, wie berichtet, realen Mittelabfluss: rund 13,1 Milliarden US-Dollar Umsatz gegen rund 8 Milliarden US-Dollar verbranntes Kapital.5
Das sind ungeprüfte Zahlen, die über die Berichterstattung zu den internen Projektionen eines privaten Unternehmens weitergegeben werden – die stärkste verfügbare Quelle, von CNBC, Reuters und Bloomberg bestätigt, aber inhärent nicht unabhängig überprüfbar. Als „laut Berichten angestrebt" zu lesen, nicht als Jahresabschluss. Quelle: CNBC, „OpenAI resets spend expectations" (Feb. 2026).
Drittens ist die Belastung nun in den Kreditratings der Unternehmen sichtbar, die den Aufbau finanzieren. Mitte 2025 stufte Moody's den Ausblick für Oracle von „stabil" auf negativ zurück – bei bestätigtem Baa2-Rating, dem unteren Ende von Investment Grade –, und nannte dabei das Gegenparteikonzentrationsrisiko aus einem rund 300-Milliarden-Dollar, 4,5-Gigawatt-Rechenvertrag mit OpenAI, den Moody's als eine der weltweit größten Projektfinanzierungen charakterisierte.6 Das war eine Ausblickkorrektur, keine Herabstufung – aber für einen Unternehmenskäufer ist es ein konkretes, namentlich benanntes Signal.
Die Abhängigkeit von externen LLMs in der Skalierung ist ein eigenständiges strategisches Risiko
Unterhalb der Preis- und Gegenparteizahlen liegt ein größerer Punkt, der klar benannt werden sollte. Einen zentralen, hochvolumigen Geschäftsprozess über eine externe Modell-API zu führen, konzentriert eine operative Abhängigkeit außerhalb des Einflussbereichs der Organisation. Im Pilotmaßstab ist das ein vernünftiger Tausch – Fähigkeit und Geschwindigkeit gegen einen kleinen, abgegrenzten Aufwand. Im Produktionsmaßstab, wenn Tausende von täglichen Entscheidungen, Dokumenten oder Kundeninteraktionen über einen einzigen Drittanbieter-Endpunkt laufen, wird dieselbe Anordnung zu einer Frage der Resilienz, nicht der Bequemlichkeit. Ein Anbieter, der noch Kapital verbrennt, seinen eigenen Ausgaben-Fahrplan zurücksetzt und seinen Aufbau über konzentrierte Gegenparteien finanziert, ist noch kein stabiles Versorgungsunternehmen; er ist ein schnell beweglicher Lieferant eines Inputs, den das Unternehmen still zu einer tragenden Säule gemacht hat. Eine Preisänderung, ein Rate-Limit, eine veraltete Modellversion oder ein Ausfall landet dann nicht als IT-Unannehmlichkeit, sondern als Unterbrechung eines Kernprozesses.
Die Schlussfolgerung lautet nicht, externe Modelle zu meiden – sie sind zu leistungsfähig, und Frontier-Fähigkeiten intern aufzubauen ist selten der richtige Weg. Die Schlussfolgerung lautet, einen Modellanbieter so zu behandeln, wie ein ernsthafter Operator jeden kritischen Einzellieferanten behandelt, sobald ein Prozess den Experimentierstatus überschreitet, und eine ehrliche Frage beantworten zu können: Was passiert mit diesem Prozess, wenn sich der Preis verdoppelt, das Modell eingestellt wird oder der Endpunkt nächstes Quartal nicht verfügbar ist? Gibt es keine Antwort, ist die Abhängigkeit ein strategisches Risiko im Kostüm einer praktischen API. Die konkreten Absicherungen, die sich aus dieser Frage ergeben, sind diejenigen, die ein Käufer aufschreiben sollte – weiter unten.
Teil IV · Die Lücke
Warum Piloten stagnieren – und was die Evidenz zeigt, was tatsächlich funktioniert
Wenn die Zufriedenheit hoch und die Attributierung selten ist, lautet die naheliegende Frage: Was unterscheidet die Programme, die konvertieren? Die Evidenz verweist weg vom Modell hin zu zwei strukturellen Ursachen: was gefördert wird und was gemessen wird.
Das Budget folgt der Sichtbarkeit, nicht der Rendite
Der umsetzbarste Befund des MIT-NANDA-Berichts – vertretbarer als seine Kernausfallquote – ist, dass GenAI-Budgets systematisch falsch zugeteilt werden. Rund die Hälfte der GenAI-Budgets (das Abstract des Berichts nennt ~50 %; das Umfragedetail reicht bis zu ~70 %) fließt in Front-Office-Bereiche wie Vertrieb und Marketing, während Back-Office-Automatisierung, die oft besseren ROI erzielt, unterfinanziert bleibt. Der Grund ist selbst ein Messproblem: Vertriebs- und Marketingergebnisse lassen sich sauber auf Vorstandsebene-KPIs und Investoreninformationen abbilden, während die Effizienzgewinne in Recht, Einkauf und Finanzen real, aber schwerer in einem Führungsgespräch herauszustellen sind.3
Budget folgt Sichtbarkeit, nicht Rendite
Verteilung des Enterprise-GenAI-Budgets nach Funktion
Die Produktivität ist real – aber ungleich verteilt
Es wäre falsch, den Eindruck zu hinterlassen, KI funktioniere nicht. Ein großes, vorregistriertes Feldexperiment über Microsoft, Accenture und einen anonymen Fortune-100-Hersteller (n=4.867 Entwickler, veröffentlicht in Management Science) ergab, dass GitHub Copilot die Anzahl abgeschlossener Aufgaben um rund 26 % steigerte.7 Zwei Vorbehalte sind für jeden ROI, der auf dieser Zahl aufgebaut wird, wichtig. Erstens maß die Studie Durchsatz von Aufgaben, nicht Codequalität oder finanziellen Rückfluss – die Forscher hatten keinen Zugang zum erzeugten Code. Zweitens, und für die Strategie hilfreicher: Die Gewinne waren nach Erfahrungsstand stark ungleich.
Dasselbe Tool, sehr unterschiedliche Gewinne
Output-Steigerung durch KI-gestützte Programmierung nach Entwicklererfahrung
Verbindet man die beiden Befunde, ist die strategische Implikation scharf. Der Wert ist real, aber er ist kontingent – abhängig von der Funktion, von der Zusammensetzung der Belegschaft, davon, ob der Workflow um das Tool herum neu gestaltet wurde. Ein Programm, das nicht auf dieser Granularitätsstufe misst, sieht den Durchschnitt und verpasst die Verteilung, fördert den sichtbaren Use Case statt des wertvollen, berichtet „es hat die Erwartungen erfüllt" während sich die G+V nicht bewegt. Das ist kein Modellversagen. Es ist ein Instrumentierungsversagen.
Teil V · Die Lösung
Das Mess-Playbook: von Kosten pro Token zu Kosten pro Ergebnis
Die gute Nachricht ist, dass die Disziplin zur Behebung dieses Problems nicht theoretisch ist. Die FinOps Foundation – das Gremium, das Cloud-Kostenmanagement standardisiert hat – hat ihr Framework auf KI ausgeweitet, und ihr Kernkonstrukt, Unit Economics, ist die konkreteste verfügbare Primärantwort. Unit Economics wird definiert als „Metriken, die ein Verständnis davon vermitteln, wie der Technologieeinsatz und die Technologiemanagement-Praktiken einer Organisation den Wert ihrer Produkte, Dienstleistungen oder Aktivitäten beeinflussen", und fällt direkt unter den Domänenbereich Quantify Business Value des Frameworks. Die Foundation formuliert das Prinzip unverblümt: „Ohne eine Möglichkeit, Kosten mit erhaltenen Nutzen in Beziehung zu setzen, ist es schwierig zu verstehen, ob die Ausgaben angemessen sind."4
Der praktische Schritt ist eine Leiter. Die KI-Kostenmessung soll auf der Stufe der Kosten pro Token beginnen und auf ergebnisorientierte Metriken hinaufklettern – Kosten pro Unterstützungsleistung, pro Agentenschritt, pro abgewendetem Fall – wobei die granulare Nachverfolgung (bis auf Token-, GPU- und Vorhersageebene) die darüberliegenden Sprossen speist.4
Die Metrik-Leiter braucht einen Owner, sonst stagniert sie im Finanzbereich. Das von der Foundation empfohlene Governance-Vehikel ist ein funktionsübergreifender KI-Investment-Council – und der Wert der Empfehlung liegt in der konkreten Zusammensetzung, denn sie ist es, die Kosten und Ergebnis in einem Raum zusammenbringt. Der Council, so die FinOps Foundation, treibt die Unit-Economics-Diskussion auf höhere Organisationsebenen, indem er die konkreten Ergebnisse und KPIs definiert, die KI-Projekte adressieren müssen.11
Zwei ehrliche Einschränkungen. Erstens beansprucht die Foundation selbst nicht, die Aufgabe erledigt zu haben: Sie räumt ein, dass es noch keine gesettelte, standardisierte Methodik zur Quantifizierung des KI-Geschäftswerts gibt – die Ansätze entstehen gerade erst. Das ist genau der Grund, warum die Kritik am Anfang dieses Beitrags trifft; die Disziplin, die die Lösung aufbaut, ist offen dafür, dass die Lösung unvollständig ist. Zweitens ist die Sprache des Frameworks deskriptiv, kein Mandat – es stellt fest, dass ausgereifte Praktiken „in Richtung" Outcome-Metriken expandieren, es ordnet niemanden dazu an. Die strategische Lesart ist dieselbe: Das Ziel ist Kosten-pro-Ergebnis, fast niemand ist dort angelangt, und die Organisationen, die am frühesten ankommen, werden diejenigen sein, die Wert nachweisen können, während ihre Mitbewerber noch Zufriedenheit berichten.
Wie Sie diesen Beitrag als Auftraggeber lesen
Blendet man die Erhebungen aus, läuft die Aufgabe eines Operators auf vier Situationen hinaus. Die folgende Einrahmung schneidet durch das Rauschen schneller als jedes Reifegrad-Scorecard.
Situation 1 – der Aufsichtsrat fragt: „Was ist unser KI-ROI?" Die ehrlichste erste Antwort ist eine Gegenfrage: auf welcher Einheit? Kann die Organisation keine Kosten pro Ergebnis für ihre wichtigste KI-Arbeitslast benennen – Kosten pro gelöstem Ticket, pro erstelltem Dokument, pro abgewendetem Fall –, dann existiert der ROI noch nicht als Zahl, und jede präsentierte Kennzahl ist Zufriedenheit im Finanzgewand. Die Aufgabe ist nicht, eine bessere Folie zu produzieren; es ist, eine Arbeitslast auf die Kosten-pro-Ergebnis-Sprosse zu instrumentieren und das zu berichten.
Situation 2 – der CEO mit stagnierten Piloten. Die Evidenz sagt, die Ursache ist selten das Modell. Prüfen Sie zuerst zwei Dinge: Wohin das Budget geflossen ist (Front Office nach Sichtbarkeit, oder dorthin, wo die Rendite liegt?) und was gemessen wird (Durchsatz oder Ergebnis?). Ein einzelner Use Case, instrumentiert auf Kosten-pro-Ergebnis, mit einem namentlich benannten Business Owner, dessen G+V davon abhängt, schlägt ein Portfolio von Piloten, die an „Engagement" gemessen werden. Drei Monate davon schlagen zwölf Monate Piloten.
Situation 3 – die Kostenlinie ist volatil und niemand kann sie vorhersagen. Das ist das ±10%-Problem, und es ist ein Engineering-und-Governance-Problem, kein Beschaffungsproblem. Die Lösungen sind konkret: Token-, Modell- und Agentenschritt-Verbrauch pro Arbeitslast instrumentieren; Prompt- und Kontextgestaltung als Kostenkontrolle behandeln; agentische Schleifentiefe begrenzen; und ein günstigeres Fallback-Modell für hochvolumige, wenig komplexe Aufgaben qualifizieren. Prognosefähigkeit ist eine Kompetenz, die man aufbaut, kein Tarif, den man verhandelt.
Situation 4 – Anbieter- und Preisrisiko. Gehen Sie davon aus, dass der heutige Token-Preis ein Einführungspreis ist, und verankern Sie diese Annahme im mehrjährigen Business Case. Single-Provider-Lock-in für jede wesentliche Arbeitslast vermeiden, ein Open-Weight- oder kleineres Modell als Fallback qualifiziert halten, und Preisänderungs- und Exit-Konditionen im Vertrag verankern. Sie brauchen keine Meinung dazu, ob die Anbieter profitabel sein werden. Sie brauchen einen Business Case, der den Tag übersteht, an dem sich der Preis ändert.
Und drei Fragen, die durch einen Anbieter-Pitch schneller schneiden als jedes RFP: „Zeigen Sie mir die Kosten pro Ergebnis, die Sie im letzten Engagement gemessen haben." „Zeigen Sie mir, wie Sie die Kostenseite instrumentiert haben – Token, Modell, Agentenschritt." „Zeigen Sie mir den Business Owner, dessen Zahl sich bewegt hat." Antwortet eine Firma in Piloten, Demos und Zufriedenheitswerten, kaufen Sie Enablement, keinen messbaren Wert.
Wo Consulting Huber ansetzt
Consulting Huber ist eine Praktiker-Firma. Wir verkaufen keine KI-Plattform, und wir haben keinen Anreiz, eine Token-Rechnung oder eine Pilotanzahl aufzublähen. Wir arbeiten mit CEOs, Aufsichtsräten, Transformationsverantwortlichen und PE-Operatoren an der unattraktiven Hälfte des Problems, auf das die Erhebungen immer wieder zeigen: KI-Kosten und KI-Wert messbar zu machen, damit die Entscheidung zu skalieren oder zu stoppen auf einer Zahl beruht, nicht auf einem Bauchgefühl.
In der Praxis bedeutet das: eine strategisch wichtige Arbeitslast in den ersten Wochen auf die Kosten-pro-Ergebnis-Sprosse instrumentieren; die funktionsübergreifende Kadenz aufstellen – Business Owner, Engineering, Finance, Risiko –, die das FinOps-Framework als Council bezeichnet und die wir schlicht den Raum nennen, in dem der KPI gesetzt wird; Prognosefähigkeit in die Kostenlinie bauen statt sie zu verhandeln; und Anbieter- und Preisrisiko in den Business Case schreiben. Die vollständige Form dieser Delivery-Disziplin beschreibt unser Begleit-Deep-Dive zur Delivery-Ebene unter der KI und das KI-Wertschöpfungs-Playbook; die regulatorische Seite steht in unserem EU-KI-Verordnung-Compliance-Leitfaden.
Wenn Sie sich in einer der vier Käufersituationen oben befinden und ein direktes Gespräch darüber führen möchten, wie Sie Ihre KI-Ausgaben messbar machen können, ist der schnellste Einstieg unsere zweiwöchige Delivery- & KI-Readiness-Diagnose zum Festpreis — ein ehrlicher Blick darauf, ob sich Ihre KI- und Digitalausgaben rechnen, geliefert als IC-fähiges Memo. Oder nutzen Sie den Kalender-Link unten.
Herangezogene Quellen
Enterprise-ROI-Evidenz
[1] Bain & Company, „AI moves from pilots to production", Führungskräftebefragung Q3 2025 (n=197) – Zufriedenheit ~80 % unter substanziellen Anwendern, ~23 % berichten Umsatz- oder Kosteneffekt. Bestätigt durch Bloomberg, „AI Delivers Less Cost Reduction Than Firms Predicted" (Juni 2026). Als Führungskräftebefragung zu zitieren, nicht als Bevölkerungsstatistik.
[2] S&P Global Market Intelligence, Voice of the Enterprise: AI & Machine Learning (~1.006 Befragte, Nordamerika + Europa) – Abbruchrate 17 % → 42 % im Jahresvergleich; 46 % der Projekte zwischen PoC und Einführung gestrichen; Rückgang des positiven Einflusses bei Umsatz (81→76), Kosten (79→74) und Risiko (74→70). Zahlen unabhängig von CIO Dive berichtet.
[3] MIT Media Lab NANDA-Initiative, The GenAI Divide: State of AI in Business 2025 (150 Führungskräfteinterviews, 350-Personen-Mitarbeiterbefragung, 300 öffentliche Deployments) – ~95 % der Piloten ohne messbaren G+V-Einfluss; 60/20/5-Trichter; ~50–70 % des Budgets für Vertrieb & Marketing. Via Fortune und das Bericht-PDF. Methodisch umstritten: Whartons Kevin Werbach und andere hinterfragen die Herleitung der 95-%-Zahl und die fehlenden Trichternenner; der Herausgeber bewirbt kommerzielle agentische Protokolle. Im gesamten Beitrag als das behandelt, was der Bericht berichtet, mit der beigefügten Kritik.
[7] Cui, Demirer, Jaffe, Musolff, Peng & Sadun et al., Feld-RCT über Microsoft, Accenture und einen Fortune-100-Hersteller (n=4.867; vorregistriert AEARCTR-0014530), veröffentlicht in Management Science (2025) – GitHub Copilot steigerte abgeschlossene Aufgaben um ~26 % (SE ~10,3 %); Junioren +27–39 %, Seniors +8–13 %. Misst Durchsatz, nicht Codequalität oder finanziellen Rückfluss.
Token- & Inferenzkostenopazität
[8] Stanford HAI, AI Index 2025 – ~280-facher Rückgang der Token-Kosten für GPT-3.5-äquivalente Qualität ($20 → $0,07 pro Million Token, Nov. 2022 – Okt. 2024). Der primäre Ankerpunkt für die Größenordnung des Kostenrückgangs.
[9] VentureBeat, „Cheaper tokens, bigger bills: the new math of AI infrastructure" – Verbrauch um >100× gestiegen, während Preis ~10× fiel (modellgleiche Untergrenze); Kosten sind „ein Engineering-Problem, das kontinuierliche Abstimmung erfordert"; Uber und ServiceNow haben ihr KI-Jahresbudget 2026 laut Berichten in 4–5 Monaten aufgebraucht. Agentisches 5–30×-Token-Verstärkungsmuster durch CloudZero und IDC bestätigt. Sekundärquelle; Verbrauchsmultiplikator als Größenordnung zu behandeln.
[10] FinOps Foundation, State of FinOps 2026 – ~15 % der Unternehmen prognostizieren KI-Kosten auf ±10 % genau; ~1 von 4 verfehlt die Prognose um >50 %. Token-Preisgestaltung, Abrechnung nach Agentenschritten und Retrieval-Kosten erzeugen eine Volatilität, die klassisches Jahresbudget nicht handhaben kann. Schnelllebig; vor Weiterverwertung verifizieren.
Anbieterökonomie (als Käuferrisiko)
[5] CNBC, „OpenAI resets spend expectations, targets around $600 billion by 2030" (Feb. 2026) – Ausgabenziel von angepeilten $1,4 Bio. auf ~$600 Mrd. bis 2030 korrigiert; 2025-Umsatz $13,1 Mrd. gegen ~$8 Mrd. Cash-Burn; prognostizierter Umsatz 2030 >$280 Mrd. Durch Reuters und Bloomberg bestätigt. Ungeprüfte Zahlen aus den internen Projektionen eines privaten Unternehmens – „laut Berichten angestrebt", nicht Jahresabschluss.
[6] Moody's Ratings – Oracle-Ausblick von „stabil" auf negativ korrigiert (Baa2 bestätigt), unter Verweis auf Gegenparteikonzentrationsrisiko aus einem ~$300-Mrd. / 4,5-GW-OpenAI-Rechenvertrag; als eine der weltgrößten Projektfinanzierungen charakterisiert. Via Yahoo Finance; von The Register als Ausblickkorrektur (Mitte 2025) klargestellt, keine Herabstufung. Für Zitationszwecke die eigene Ratingmeldung von Moody's unter ratings.moodys.com bevorzugen.
Das Mess-Playbook
[4] FinOps Foundation, Unit-Economics-Capability – die definitorische Einrahmung von Unit Economics unter „Quantify Business Value" und die Crawl/Walk/Run-Progression von Kosten pro Token hin zu Kosten pro Unterstützungsleistung / Agentenschritt / abgewendetem Fall. Das Linux-Foundation-Projekt ist die Standards-Autorität für Cloud- und KI-Kostenmanagement.
[11] FinOps Foundation, Managing AI Value Working Group – der funktionsübergreifende KI-Investment-Council und seine Zusammensetzung; Nachverfolgung auf Token-, GPU- und Vorhersageebene; und das explizite Eingeständnis, dass die Quantifizierung des KI-Geschäftswerts „eine wesentliche Herausforderung" ist, für die noch keine gesettelte Methodik existiert.
Die Provokation
[0] Ed Zitron, „AI Doesn't Have a Return on Investment" und verwandte Essays – zitiert als das Rahmen-Pamphlet, das dieser Beitrag überprüft, nicht als Evidenzquelle. Das Argument, dass wahre KI-Kosten und KI-ROI verschleiert werden, wird oben ernst genommen und gegen Primärdaten geprüft; die weitergehenden Schlussfolgerungen werden nicht übernommen.
Was die Evidenz noch nicht klärt
Vier Fragen blieben nach dieser Recherche offen, und ein ehrlicher Leser sollte sie im Kopf behalten: (1) die netto gemischten Stückkosten einer repräsentativen agentischen Arbeitslast nach Wiederholungen, Kontextaufblähung und mehrstufiger Verstärkung – keine Quelle hat quantifiziert, wie viel der „günstigere Token"-Einsparung auf Arbeitslastebene überlebt; (2) wie weit unter den Kosten, falls überhaupt, die aktuellen Frontier-Modell-API-Preise liegen – Burn-Zahlen zeigen Verluste, isolieren aber keine Token-Inferenzökonomie pro Einheit; (3) die konkrete, wiederholbare Instrumentierung, die die ~5 %, die skalieren, von anderen unterscheidet, mit Vorher/Nachher-Ergebnisdaten jenseits der obigen Frameworks; (4) wie GPU-Abschreibung und Nutzlebensdauerannahmen die Dauerhaftigkeit der heutigen Preisgestaltung beeinflussen. Das sind die Fragen, die man jedem Anbieter oder internen Team stellen sollte, das Gewissheit beansprucht.
Verwandte Themen: KI-Wertschöpfungs-Playbook · Die Delivery-Ebene unter der KI · Die grossen Beratungs-KI-Frameworks im Vergleich (2026) · Digital- & KI-Strategie