Kryzys pomiaru AI: ile naprawdę kosztuje AI w przedsiębiorstwie i jak sprawdzić, czy się opłaca
Najgłośniejsi krytycy mają rację w jednej niekomfortowej kwestii: większość organizacji nie potrafi powiedzieć, ile kosztuje ich AI ani czy przynosi zwrot. To problem strategiczny, nie teza inwestycyjna. Oto co pierwotne dowody rzeczywiście pokazują na temat luki w ROI, nieprzejrzystości kosztów i ryzyka dostawcy — oraz instrumentarium, które odróżnia mniej więcej jedną na dwadzieścia firm skalujących od wszystkich pozostałych.
Prowokacja potraktowana poważnie
Dziennikarz technologiczny Ed Zitron od dwóch lat argumentuje głośno, że branża AI operuje na liczbach, których nikt nie jest w stanie zweryfikować — że prawdziwy koszt inferencji jest zaciemniony, przychody są znikome wobec wydatków, a „AI nie ma zwrotu z inwestycji". To polemika, a jej części są sporne. Ale pod retoryką kryje się twierdzenie, które trudniej zbagatelizować i które ten artykuł postanawia zweryfikować w oparciu o pierwotne źródła, a nie o odczucia: większość przedsiębiorstw naprawdę nie potrafi zmierzyć, ile kosztuje AI, ani udowodnić, co ono zwraca.
To nie jest pytanie giełdowe. To pytanie strategiczne. Zarząd nie musi wiedzieć, czy OpenAI jest dobrą inwestycją, żeby wiedzieć, czy własny program AI przynosi wartość — a tymczasem, na podstawie opublikowanych dowodów, większość zarządów nie potrafi odpowiedzieć na to drugie pytanie liczbą. Znamienne jest, że zgadzają się z tym sami twórcy narzędzi, które mają ten problem rozwiązać. FinOps Foundation — podmiot Linux Foundation, który de facto definiuje dyscyplinę zarządzania kosztami chmury — stwierdza wprost, że „pomiar i kwantyfikacja wartości biznesowej inicjatyw AI zostały wskazane jako poważne wyzwanie" przez praktyków zarządzających wydatkami na AI, a metody to robienia nadal się kształtują, a nie są ustalone.11
Krytyka zatem trafia w cel. Interesujące pytanie brzmi: co robi z tym poważny operator. Artykuł przechodzi przez cztery miejsca, w których pomiar się załamuje — dowody na ROI, stronę kosztową, ekonomię dostawców i to, dlaczego piloty utykają — a następnie przedstawia instrumentarium, z którego faktycznie korzystają organizacje potrafiące mierzyć. Każdy poniższy wykres pochodzi z pierwotnego badania lub dokumentu ramowego, a tam, gdzie źródło jest słabe lub sporne, mówi się o tym w tekście, a nie chowa w przypisach.
Część I · Zwrot
Satysfakcja wysoka. Zmierzony zwrot — niekoniecznie.
Najczystszy wniosek z badań przeprowadzonych w 2025 roku nie brzmi: AI zawodzi. Brzmi: adoptujący są z niego zadowoleni, a mimo to nie potrafią pokazać pieniędzy. Badanie ankietowe kadry kierowniczej Bain & Company z III kwartału 2025 roku wykazało, że spośród 59% firm wdrażających generatywną AI w sposób znaczący, technologia spełniła lub przekroczyła oczekiwania w ok. 80% przypadków we wdrożonych funkcjach. W tym samym badaniu tylko ok. 23% wszystkich respondentów stwierdziło, że generatywna AI rzeczywiście przyniosła więcej przychodów lub niższe koszty.1 Ta luka — między „działa" a „potrafimy przypisać jej wartość" — to kryzys pomiaru ujęty w jednym wykresie.
Luka między satysfakcją a atrybucją
Generatywna AI w przedsiębiorstwach, badanie ankietowe Bain, III kwartał 2025
Gdyby było to jedno badanie, byłoby jedynie anegdotą. Tak nie jest. Badanie S&P Global Market Intelligence Voice of the Enterprise, przeprowadzone na ok. 1006 specjalistach IT i pracownikach liniowych w Ameryce Północnej i Europie, wykazało, że odsetek organizacji porzucających większość inicjatyw GenAI przed wdrożeniem produkcyjnym wzrósł rok do roku ponad dwukrotnie — z 17% do 42% — a średnio 46% projektów było porzucanych gdzieś między proof of concept a szeroką adopcją.2
Odsetek porzuceń wzrósł ponad dwukrotnie w ciągu roku
Odsetek organizacji porzucających większość inicjatyw GenAI przed wdrożeniem produkcyjnym
To samo badanie podłużne ujawniło coś bardziej wymownego niż jakakolwiek pojedyncza liczba porzuceń: odsetek organizacji raportujących pozytywny wpływ GenAI spadł we wszystkich mierzonych celach przedsiębiorstwa, rok do roku. Nie przesunięcie, nie plateau — spadek na wszystkich trzech frontach jednocześnie.
Pozytywny wpływ spadł dla każdego mierzonego celu
Odsetek organizacji raportujących pozytywny wpływ GenAI, 2024 → 2025
Liczba 95% i dlaczego należy ją traktować ostrożnie
Żadna statystyka w tej debacie nie podróżuje szerzej niż ta z MIT. Raport inicjatywy NANDA Media Lab, The GenAI Divide: State of AI in Business 2025 — oparty na 150 wywiadach z liderami, badaniu ankietowym 350 pracowników i analizie 300 publicznych wdrożeń — podaje, że ok. 5% pilotów AI w przedsiębiorstwach osiąga szybkie przyspieszenie przychodów, podczas gdy ok. 95% przynosi niewielki lub zerowy mierzalny wpływ na rachunek zysków i strat.3 Raport dokumentuje też stromy lejek adopcji narzędzi zadaniowych i wbudowanych, w przeciwieństwie do znacznie łagodniejszej ścieżki dla ogólnych chatbotów, takich jak ChatGPT i Copilot.
Lejek od pilota do produkcji
Zadaniowe, wbudowane narzędzia dla przedsiębiorstw vs. ogólne chatboty osiągające produkcję
— dla porównania —
Powód, by trzymać wszystkie trzy źródła w polu widzenia jednocześnie, jest taki, że zawodzą one w różny sposób. Bain to małe badanie ankietowe kadry kierowniczej. S&P to większe badanie podłużne. MIT to kwestionowany nagłówek. Nie zgadzają się co do liczby — zgadzają się co do kształtu: adopcja jest szeroka, satysfakcja jest realna, a atrybucja finansowego zwrotu jest rzadka i coraz trudniejsza do udowodnienia. Ten kształt jest odporny, nawet gdy każda poszczególna liczba jest miękka.
Część II · Koszt
Dlaczego „tańsze tokeny" dają wyższe rachunki
Strona zwrotów jest trudna do zmierzenia. Strona kosztów jest, jeśli to możliwe, jeszcze trudniejsza — bo główny trend wskazuje w kierunku odwrotnym do rachunku. Ceny za token drastycznie spadły. Stanford HAI AI Index dokumentuje ok. 280-krotny spadek kosztu odpytania modelu o jakości równoważnej GPT-3.5 między listopadem 2022 a październikiem 2024 — z ok. 20 USD do ok. 0,07 USD za milion tokenów.8 Nawet przy konserwatywnym porównaniu tego samego modelu praktycy szacują spadek o rząd wielkości w ciągu dwóch lat. A jednak firmowe rachunki za AI rosną, a nie maleją, ponieważ zużycie rośnie szybciej niż spada cena — klasyczna dynamika paradoksu Jevonsa, gdzie efektywność rozszerza użycie szybciej niż obniża koszt jednostkowy.9
Wielkość należy zakotwiczać w danych Stanford HAI; liczba „>100×" wzrostu zużycia i anegdoty o wyczerpaniu budżetu pochodzą z relacji VentureBeat i mają charakter kierunkowy. Źródła: Stanford HAI AI Index 2025; VentureBeat, „Cheaper tokens, bigger bills".
Spadające ceny nadal pozwalałyby nabywcy prognozować, gdyby jednostka była stabilna. Tak nie jest. Prawdziwy koszt workloadu AI jest tak trudny do poznania dlatego, że zależy od zbyt wielu wzajemnie oddziałujących zmiennych, by rozumować o nich intuicyjnie: który model rzeczywiście obsługuje dane żądanie, gdzie workload jest wykonywany, jak ustrukturyzowany jest prompt i kontekst, ile retrieval jest wczytywane do okna kontekstowego, a przede wszystkim — ile razy pętla agentyczna się zapętla. Analizy branżowe CloudZero i IDC opisują agentyczne wzorce wieloetapowe amplifikujące zużycie tokenów od 5 do 30 razy dla jednego zadania widocznego dla użytkownika. Zarządzanie tym jest, słowami jednego z praktyków, „problemem inżynierskim wymagającym ciągłego dostrajania" — co przeramowuje prompt engineering jako dyscyplinę zarządzania kosztami, a nie craft tworzenia promptów.9
Konsekwencja widoczna jest bezpośrednio w dokładności budżetowania. Dane FinOps Foundation z raportu State of FinOps 2026 wskazują, że tylko ok. 15% przedsiębiorstw prognozuje koszty AI z dokładnością do ±10%, a ok. co czwarte mija swoje prognozy o ponad 50%.10 Pozycja, którą chybia się o połowę, nie jest pozycją, na której można oprzeć business case.
Większość przedsiębiorstw nie potrafi prognozować rachunku za AI
Dokładność prognoz kosztów AI w przedsiębiorstwach
To ta część krytyki Zitrona, która trzyma się najlepiej. Nie „AI jest bezwartościowe" — dowody na produktywność poniżej temu przeczą — ale „prawdziwy koszt jednostkowy jest strukturalnie trudny do poznania". I tak właśnie jest. A organizacja, która nie potrafi podać kosztu na jednostkę pracy, nie może obliczyć zwrotu, bez względu na to, jak dobra jest ta praca.
Część III · Dostawca
Ekonomia dostawców — jako ryzyko zakupowe, nie jako perspektywa inwestycyjna
Wycenianie dostawców modeli nie jest zadaniem nabywcy. Jego zadaniem jest jednak rozumienie, że cena, którą płaci dzisiaj, opiera się na strukturze ekonomicznej wciąż szukającej swojego poziomu — bo ta struktura determinuje stabilność cenową i ryzyko kontrahenta, które są danymi wejściowymi do budżetowania. Trzy fakty, wszystkie z relacji opartych na danych samych dostawców, wystarczą, by scharakteryzować ekspozycję.
Po pierwsze, plany wydatków OpenAI przesunęły się na tyle, by mieć znaczenie. W lutym 2026 CNBC podało, że firma zresetowała swój docelowy poziom wydatków na moc obliczeniową w dół — z ok. 1,4 biliona dolarów w zobowiązaniach infrastrukturalnych, które CEO Sam Altman wcześniej zapowiadał, do ok. 600 miliardów dolarów do 2030 roku — wyraźnie po to, by powiązać wydatki ściślej z oczekiwanym wzrostem przychodów.5 Po drugie, jej wyniki za 2025 rok, zgodnie z relacjami, pokazują realny wynik gotówkowy: ok. 13,1 miliarda dolarów przychodów przy ok. 8 miliardach dolarów spalonych środków pieniężnych.5
To niezaudytowane dane przekazywane poprzez relacje o wewnętrznych prognozjach prywatnej spółki — najlepszy dostępny kanał, potwierdzony przez CNBC, Reuters i Bloomberg, ale z natury niezależnie niezweryfikowany. Należy czytać jako „rzekomo zakłada", a nie jako sprawozdanie finansowe. Źródło: CNBC, „OpenAI resets spend expectations" (lut. 2026).
Po trzecie, napięcie jest teraz widoczne w ocenach kredytowych spółek finansujących tę rozbudowę. W połowie 2025 roku Moody's zrewidowało perspektywę Oracle'a z stabilnej na negatywną — potwierdzając jednocześnie rating Baa2, dolny koniec oceny inwestycyjnej — powołując się na ryzyko koncentracji kontrahenta związane z ok. 300-miliardowym kontraktem obliczeniowym o mocy 4,5 GW z OpenAI, który Moody's scharakteryzowało jako jedno z największych finansowań projektowych na świecie.6 Była to rewizja perspektywy, nie obniżenie ratingu — ale dla korporacyjnego nabywcy jest to konkretny, nazwany sygnał.
Uzależnienie od zewnętrznych LLM w skali to strategiczna ekspozycja sama w sobie
Poniżej liczb dotyczących cen i kontrahentów kryje się większy punkt, który zasługuje na wyraźne nazwanie. Kierowanie kluczowego, wysokowolumenowego procesu biznesowego przez zewnętrzny API modelu koncentruje zależność operacyjną poza kontrolą organizacji. W skali pilota to rozsądna wymiana — zdolności i szybkość za niewielki, kontrolowany wydatek. W skali produkcyjnej, gdy tysiące codziennych decyzji, dokumentów lub interakcji z klientami przepływają przez pojedynczy zewnętrzny endpoint, ta sama konfiguracja staje się kwestią odporności, a nie wygody. Dostawca, który wciąż spala gotówkę, resetuje własny roadmap wydatków i finansuje rozbudowę przez skoncentrowanych kontrahentów, nie jest jeszcze stabilnym dostawcą usług; jest szybko zmieniającym się dostawcą zasobu, który firma po cichu uczyniła krytycznym. Zmiana ceny, ograniczenie szybkości, wycofana wersja modelu lub awaria ląduje wtedy nie jako niedogodność IT, lecz jako przerwanie kluczowego procesu.
Wniosek nie brzmi: unikaj zewnętrznych modeli — są zbyt zdolne, a budowanie możliwości granicznych in-house rzadko jest właściwą decyzją. Brzmi: traktuj dostawcę modeli tak, jak poważny operator traktuje każdego kluczowego jedynego dostawcę, gdy tylko proces przekracza próg eksperymentowania, i bądź w stanie odpowiedzieć na jedno uczciwe pytanie: co się stanie z tym procesem, jeśli cena się podwoi, model zostanie wycofany lub endpoint będzie niedostępny w przyszłym kwartale? Jeśli nie ma odpowiedzi, zależność jest ryzykiem strategicznym przebranym za wygodny API. Konkretne zabezpieczenia wynikające z tego pytania to te, które nabywca powinien spisać — poniżej.
Część IV · Luka
Dlaczego piloty utykają — i co dowody mówią o tym, co faktycznie działa
Jeśli satysfakcja jest wysoka, a atrybucja rzadka, oczywiste pytanie brzmi: co odróżnia programy, które dokonują konwersji. Dowody wskazują od modelu ku dwóm przyczynom strukturalnym: temu, co jest finansowane, i temu, co jest mierzone.
Budżet podąża tam, gdzie łatwo go widać, a nie tam, gdzie przynosi zwrot
Najbardziej praktyczny wniosek raportu MIT NANDA — bardziej obronny niż jego nagłówkowy wskaźnik niepowodzeń — jest taki, że budżety GenAI są systematycznie źle alokowane. Około połowy budżetów GenAI (abstrakt raportu podaje ~50%; szczegóły badania dochodzą do ~70%) trafia do funkcji front-office, sprzedaży i marketingu, podczas gdy automatyzacja back-office, która często daje lepszy ROI, jest niedofinansowana. Przyczyna jest sama w sobie problemem pomiaru: wyniki sprzedaży i marketingu układają się czysto w KPI na poziomie zarządu i aktualizacje dla inwestorów, podczas gdy efektywności w obszarach prawnym, zakupów i finansów są realne, ale trudniejsze do wyartykułowania w rozmowie z kadrą kierowniczą.3
Budżet podąża za widocznością, nie za zwrotem
Alokacja firmowego budżetu GenAI według funkcji
Produktywność jest realna — ale nierównomiernie rozłożona
Byłoby błędem pozostawić wrażenie, że AI nie działa. Duży, pre-rejestrowany eksperyment terenowy prowadzony w Microsoft, Accenture i anonimowym producencie z listy Fortune 100 (n=4867 deweloperów, opublikowany w Management Science) wykazał, że GitHub Copilot zwiększył liczbę ukończonych zadań o ok. 26%.7 Dwa zastrzeżenia mają znaczenie dla każdego ROI opartego na tej liczbie. Po pierwsze, badanie mierzyło przepustowość zadań, a nie jakość kodu ani zwrot finansowy — badacze nie mieli dostępu do wytworzonego kodu. Po drugie, i bardziej przydatne strategicznie: zyski były silnie zróżnicowane w zależności od doświadczenia.
To samo narzędzie, bardzo różne zyski
Wzrost wydajności z asystenta kodowania AI według doświadczenia dewelopera
Zestawiając oba wnioski, implikacja strategiczna jest ostra. Wartość jest realna, ale warunkowa — zależy od funkcji, od składu zatrudnienia, od tego, czy przepływ pracy został przeprojektowany wokół narzędzia. Program, który nie mierzy na tym poziomie szczegółowości, zobaczy średnią i przeoczy rozkład, sfinansuje widoczny use case zamiast wartościowego i zaraportuje „spełniło oczekiwania", podczas gdy P&L się nie porusza. To nie jest porażka modelu. To porażka instrumentacji.
Część V · Rozwiązanie
Playbook pomiaru: od kosztu na token do kosztu na wynik
Dobra wiadomość jest taka, że dyscyplina, która to naprawia, nie jest teoretyczna. FinOps Foundation — podmiot, który ustandaryzował zarządzanie kosztami chmury — rozszerzył swój framework na AI, a jego podstawowy konstrukt, Unit Economics, jest najbardziej konkretną dostępną pierwotną odpowiedzią. Unit Economics definiuje się jako „metryki zapewniające zrozumienie, w jaki sposób korzystanie przez organizację z technologii oraz praktyki zarządzania technologią wpływają na wartość produktów, usług lub działań organizacji" i sytuuje się bezpośrednio w domenie Quantify Business Value frameworku. Foundation stwierdza tę zasadę wprost: „bez możliwości powiązania kosztów z uzyskanymi korzyściami trudno zrozumieć, czy wydatki są właściwe."4
Praktycznym krokiem jest drabina. Pomiar kosztów AI ma zaczynać się na poziomie kosztu na token i wspinać ku metrykom zorientowanym na wynik — koszt na asystę, koszt na działanie agenta, koszt na odchylony case — przy czym granularne śledzenie (aż do poziomu tokenu, GPU i pojedynczej predykcji) zasila szczeble powyżej.4
Drabina metryk potrzebuje właściciela, bo inaczej zamiera w finansach. Zalecanym przez Foundation mechanizmem zarządczym jest wielofunkcyjny AI Investment Council — wartość tej rekomendacji tkwi w konkretnym składzie, bo to właśnie wielofunkcyjna kompozycja pozwala, by koszt spotkał się z wynikiem w jednym pomieszczeniu. Rada, jak zauważa FinOps, podnosi dyskusję o unit economics na wyższy szczebel organizacji, definiując konkretne wyniki i KPI, które projekty AI muszą adresować.11
Dwa uczciwe zastrzeżenia. Pierwsze: sama Foundation nie twierdzi, że zadanie jest ukończone — przyznaje, że nie ma jeszcze ustalonej, ustandaryzowanej metodologii kwantyfikacji wartości biznesowej AI; podejścia nadal się kształtują. To jest dokładnie powód, dla którego krytyka na początku tego artykułu trafia w cel; dyscyplina budująca rozwiązanie otwarcie przyznaje, że rozwiązanie jest niekompletne. Drugie: język frameworku ma charakter opisowy, nie nakazowy — obserwuje, że dojrzałe praktyki „rozszerzają się ku" metrykom wynikowym, nie nakazuje nikomu. Strategiczne odczytanie jest w obu przypadkach takie samo: celem jest koszt na wynik, prawie nikt go jeszcze nie osiągnął, a organizacje, które dojdą tam pierwsze, będą mogły udowodnić wartość, gdy ich konkurenci wciąż raportują satysfakcję.
Jak czytać ten tekst jako nabywca
Abstrahując od badań, zadanie operatora sprowadza się do czterech sytuacji. Poniższe ramy przebijają się przez szum szybciej niż jakikolwiek scorecard dojrzałości.
Sytuacja 1 — zarząd pyta „jaki jest nasz ROI z AI?". Uczciwa pierwsza odpowiedź to kontrapytanie: w jakiej jednostce? Jeśli organizacja nie potrafi podać kosztu na wynik dla swojego flagowego workloadu AI — kosztu na rozwiązany ticket, wygenerowany dokument, odchylony case — to ROI nie istnieje jeszcze jako liczba, a każda prezentowana cyfra to satysfakcja przebrana w kostium finansowy. Zadaniem nie jest produkowanie lepszego slajdu; jest nim zinstrumentowanie jednego workloadu do szczebla kosztu na wynik i raportowanie tego.
Sytuacja 2 — CEO ze zablokowanymi pilotami. Dowody mówią, że przyczyna rzadko leży w modelu. Najpierw sprawdź dwie rzeczy: dokąd poszedł budżet (do front office ze względu na widoczność, czy tam, gdzie jest zwrot?) i co jest mierzone (przepustowość czy wynik?). Jeden use case zinstrumentowany do kosztu na wynik, z nazwanym właścicielem biznesowym, którego P&L porusza się razem z nim, bije portfolio pilotów mierzonych przez pryzmat „zaangażowania”. Trzy miesiące tego biją dwanaście miesięcy pilotów.
Sytuacja 3 — linia kosztowa jest zmienna i nikt nie potrafi jej prognozować. To jest problem ±10%, i jest to problem inżynieryjno-zarządczy, a nie zakupowy. Rozwiązania są konkretne: zinstrumentuj zużycie tokenów, modelu i kroku agenta per workload; traktuj projektowanie promptów i kontekstu jako zarządzanie kosztami; ogranicz głębokość pętli agentycznej; zakwalifikuj tańszy model rezerwowy dla zadań wysokowolumenowych i niskospecjalistycznych. Prognozowalność to zdolność, którą się buduje, a nie stawka, którą się negocjuje.
Sytuacja 4 — ryzyko dostawcy i cenowe. Przyjmij założenie, że dzisiejsza cena tokenu jest promocyjna, i wpisz to założenie do wieloletniego business case'u. Unikaj uzależnienia od jednego dostawcy dla każdego istotnego workloadu, utrzymuj kwalifikowany open-weight lub mniejszy model rezerwowy, i umieszczaj w umowie warunki dotyczące zmian cen i możliwości wyjścia. Nie potrzebujesz oceny rentowności dostawców. Potrzebujesz, by Twój business case przeżył dzień, gdy cena się zmieni.
I trzy pytania, które przebijają się przez pitch dostawcy szybciej niż jakikolwiek RFP: „Pokaż mi koszt na wynik zmierzony przy ostatnim zaangażowaniu." „Pokaż mi, jak zinstrumentowałeś stronę kosztową — token, model, krok agenta." „Pokaż mi właściciela biznesowego, którego liczba się poruszyła." Jeśli firma odpowiada pilotami, demami i wskaźnikami satysfakcji, kupujesz enablement, a nie zmierzoną wartość.
Gdzie pasuje Consulting Huber
Consulting Huber to firma practitioner. Nie sprzedajemy platformy AI i nie mamy interesu w pompowaniu rachunku za tokeny ani liczby pilotów. Pracujemy z CEO, zarządami, dyrektorami transformacji i operatorami PE nad nieefektowną połową problemu, na który badania konsekwentnie wskazują: uczynieniem kosztów i wartości AI mierzalnymi, by decyzja o skalowaniu lub zatrzymaniu opierała się na liczbie, a nie na nastroju.
W praktyce oznacza to zinstrumentowanie jednego strategicznie ważnego workloadu do szczebla kosztu na wynik w pierwszych tygodniach; uruchomienie wielofunkcyjnej kadencji — właściciel biznesowy, inżynieria, finanse, ryzyko — którą framework FinOps nazywa radą, a my po prostu nazywamy salą, w której KPI jest ustalane; budowanie prognozowalności linii kosztowej zamiast jej negocjowania; i wpisywanie ryzyka dostawcy i cenowego do business case'u. Pełny kształt tej dyscypliny dostarczania jest opisany w naszym towarzyszącym artykule o warstwie dostarczania pod AI i w Playbooku tworzenia wartości z AI; strona regulacyjna jest opisana w naszym przewodniku zgodności z EU AI Act.
Jeśli są Państwo w jednej z czterech powyższych sytuacji nabywcy i chcą Państwo porozmawiać bezpośrednio o tym, jak uczynić wydatki na AI mierzalnymi, najszybszym sposobem na start jest nasza dwutygodniowa diagnoza Delivery & AI-readiness w stałej cenie — szczery obraz tego, czy wydatki na AI i cyfryzację się zwracają, dostarczony jako memo gotowe dla komitetu. Albo proszę skorzystać z linku do kalendarza poniżej.
Konsultowane źródła
Dowody na ROI w przedsiębiorstwach
[1] Bain & Company, „AI moves from pilots to production", badanie ankietowe kadry kierowniczej III kw. 2025 (n=197) — satysfakcja ~80% wśród aktywnie wdrażających, ~23% raportujących wpływ na przychody lub koszty. Potwierdzone przez Bloomberg, „AI Delivers Less Cost Reduction Than Firms Predicted" (czerwiec 2026). Należy cytować jako badanie ankietowe kadry kierowniczej, a nie jako statystykę populacyjną.
[2] S&P Global Market Intelligence, Voice of the Enterprise: AI & Machine Learning (~1006 respondentów, Ameryka Północna + Europa) — porzucenia 17%→42% r/r; 46% projektów porzuconych między PoC a adopcją; spadek pozytywnego wpływu dla przychodów (81→76), kosztów (79→74) i ryzyka (74→70). Dane niezależnie potwierdzone przez CIO Dive.
[3] Inicjatywa NANDA MIT Media Lab, The GenAI Divide: State of AI in Business 2025 (150 wywiadów z liderami, badanie ankietowe 350 pracowników, 300 publicznych wdrożeń) — ~95% pilotów bez mierzalnego wpływu na P&L; lejek 60/20/5; ~50–70% budżetu do sprzedaży i marketingu. Za pośrednictwem Fortune i PDF raportu. Kwestionowane metodologicznie: Kevin Werbach z Wharton i inni badacze podważają sposób wyznaczenia liczby 95% oraz brakujące mianowniki lejka; wydawca promuje komercyjne protokoły agentyczne. Przedstawione w całym tekście jako twierdzenia raportu, z dołączoną krytyką.
[7] Cui, Demirer, Jaffe, Musolff, Peng & Sadun et al., terenowy RCT w Microsoft, Accenture i producencie Fortune 100 (n=4867; pre-zarejestrowany AEARCTR-0014530), opublikowany w Management Science (2025) — GitHub Copilot zwiększył liczbę ukończonych zadań o ~26% (SE ~10,3%); juniorzy +27–39%, seniorzy +8–13%. Mierzy przepustowość, a nie jakość kodu ani zwrot finansowy.
Nieprzejrzystość kosztu tokenu i inferencji
[8] Stanford HAI, AI Index 2025 — ~280-krotny spadek kosztu za token dla jakości równoważnej GPT-3.5 (20 USD → 0,07 USD za milion tokenów, lis. 2022 – paź. 2024). Główna kotwica dla skali spadku kosztów.
[9] VentureBeat, „Cheaper tokens, bigger bills: the new math of AI infrastructure" — zużycie wzrosło >100× przy spadku cen ~10× (podstawa tego samego modelu); koszt to „problem inżynierski wymagający ciągłego dostrajania"; Uber i ServiceNow podobno wyczerpały roczne budżety AI na 2026 w ciągu 4–5 miesięcy. Agentyczna amplifikacja 5–30× potwierdzona przez CloudZero i IDC. Źródło wtórne; wielokrotność zużycia należy traktować kierunkowo.
[10] FinOps Foundation, State of FinOps 2026 — ~15% przedsiębiorstw prognozuje koszty AI z dokładnością ±10%; ~co 4. mija prognozę o >50%. Wycena tokenów, rozliczenia per krok agenta i koszty retrieval tworzą zmienność, z którą roczne budżetowanie legacy nie daje sobie rady. Dynamiczne — weryfikować przed ponowną publikacją.
Ekonomia dostawców (jako ryzyko nabywcy)
[5] CNBC, „OpenAI resets spend expectations, targets around $600 billion by 2030" (lut. 2026) — reset wydatków z zapowiadanego $1,4B do ~$600B do 2030; przychody za 2025 $13,1B przy ~$8B spaleniu; prognozowane przychody na 2030 >$280B. Potwierdzone przez Reuters i Bloomberg. Niezaudytowane dane z wewnętrznych prognoz prywatnej spółki — „rzekomo zakłada", a nie sprawozdanie finansowe.
[6] Moody's Ratings — perspektywa Oracle zmieniona na negatywną ze stabilnej (Baa2 potwierdzone), powołując się na ryzyko koncentracji kontrahenta wynikające z kontraktu obliczeniowego ~$300B / 4,5 GW z OpenAI; scharakteryzowane jako jedno z największych finansowań projektowych na świecie. Za pośrednictwem Yahoo Finance; sprecyzowane przez The Register jako rewizja perspektywy (poł. 2025), a nie obniżenie ratingu. Do cytowania — preferować własne ogłoszenie Moody's na ratings.moodys.com.
Playbook pomiaru
[4] FinOps Foundation, Unit Economics capability — definitywne ujęcie unit economics w ramach „Quantify Business Value" i postęp Crawl/Walk/Run od kosztu na token w kierunku kosztu na asystę / działanie agenta / odchylony case. Projekt Linux Foundation jest organem normalizacyjnym dla zarządzania kosztami chmury i AI.
[11] FinOps Foundation, Managing AI Value working group — wielofunkcyjny AI Investment Council i jego skład; śledzenie na poziomie tokenu, GPU i predykcji; oraz wyraźne przyznanie, że kwantyfikacja wartości biznesowej AI to „poważne wyzwanie" bez ustalonej metodologii.
Prowokacja
[0] Ed Zitron, „AI Doesn't Have a Return on Investment" i powiązane eseje — cytowany jako polemika ramowa, którą artykuł weryfikuje, a nie jako źródło dowodowe. Argument, że prawdziwy koszt i ROI z AI są zaciemnione, jest traktowany poważnie powyżej i sprawdzany pod kątem danych pierwotnych; dalej idące konkluzje nie są przyjmowane.
Czego dowody jeszcze nie rozstrzygają
Po tym badaniu pozostały otwarte cztery pytania i każdy uczciwy czytelnik powinien je trzymać w polu widzenia: (1) netto łączny koszt jednostkowy reprezentatywnego agentycznego workloadu po ponownych próbach, pęcznieniu kontekstu i amplifikacji wieloetapowej — żadne źródło nie skwantyfikowało, ile z oszczędności z „tańszych tokenów" przeżywa na poziomie workloadu; (2) o ile, jeśli w ogóle, obecne ceny API modeli granicznych są poniżej kosztu — wyniki spalenia pokazują straty, ale nie izolują ekonomiki inferencji na token; (3) konkretna, powtarzalna instrumentacja wyróżniająca ~5% skalujących, z danymi przed/po dla wyników, wykraczającymi poza powyższe frameworki; (4) w jaki sposób amortyzacja GPU i założenia dotyczące okresu użyteczności wpływają na trwałość dzisiejszej wyceny. To są pytania, które należy zadać każdemu dostawcy lub zespołowi wewnętrznemu twierdzącemu, że ma pewność.
Powiązane: Playbook tworzenia wartości z AI · Warstwa dostarczania pod AI · Duże frameworki AI w doradztwie, porównane (2026) · Strategia cyfrowa & AI