Jak mierzyć ROI z programu AI w przedsiębiorstwie?

Zacznij od pytania: w jakiej jednostce? Jeśli organizacja nie potrafi podać kosztu na wynik dla swojego flagowego workloadu AI — kosztu na rozwiązany ticket, wygenerowany dokument, odchylony case — to ROI nie istnieje jeszcze jako liczba, a każda przedstawiana cyfra to satysfakcja przebrana w kostium finansowy. Zadaniem jest zinstrumentowanie jednego workloadu na ścieżce Crawl/Walk/Run — od kosztu na token do kosztu na wywołanie do kosztu na wynik — i raportowanie tego.

Dlaczego większość pilotów AI w przedsiębiorstwach nie jest skalowana?

Dowody wskazują, że przyczyna rzadko leży w modelu. Dominują dwie przyczyny strukturalne: budżet podąża za widocznością, a nie za zwrotem (około 50–70% budżetu GenAI trafia do front-office, sprzedaży i marketingu, gdzie KPI są widoczne, podczas gdy back-office dające lepszy ROI jest niedofinansowane), a programy mierzą przepustowość, a nie wyniki. Jeden use case zinstrumentowany do kosztu na wynik, z nazwanym właścicielem biznesowym, którego P&L porusza się razem z nim, bije portfolio pilotów mierzonych przez pryzmat „zaangażowania”.

Dlaczego firmowe rachunki za AI rosną, mimo że ceny tokenów spadają?

Ceny za token dla stałej jakości spadły ok. 280-krotnie między końcem 2022 a końcem 2024 roku, ale całkowite rachunki rosną, ponieważ zużycie rośnie szybciej niż spada cena — dynamika paradoksu Jevonsa. Agentyczne, wieloetapowe przepływy pracy amplifikują zużycie tokenów od 5 do 30 razy dla jednego widocznego dla użytkownika zadania, dlatego tylko ok. 15% przedsiębiorstw prognozuje koszty AI z dokładnością ±10%.

Jak nabywca powinien zarządzać ryzykiem cenowym i ryzykiem dostawcy AI?

Przyjmij założenie, że dzisiejsza cena tokenu jest promocyjna, i wpisz to założenie do wieloletniego business case'u. Unikaj uzależnienia od jednego dostawcy dla każdego istotnego workloadu, utrzymuj kwalifikowany open-weight lub mniejszy model awaryjny dla zadań wysokowolumenowych i niskospecjalistycznych, i umieszczaj w umowie warunki dotyczące zmian cen i możliwości wyjścia. Nie potrzebujesz opinii na temat rentowności dostawców — potrzebujesz, by Twój business case przeżył dzień, gdy cena się zmieni.

Jakie pytania zadać konsultantowi AI lub dostawcy?

Trzy pytania przebijają się przez pitch szybciej niż jakikolwiek RFP: pokaż mi koszt na wynik zmierzony przy ostatnim zaangażowaniu; pokaż mi, jak zinstrumentowałeś stronę kosztową — token, model, krok agenta; i pokaż mi właściciela biznesowego, którego liczba się poruszyła. Jeśli firma odpowiada pilotami, demami i wskaźnikami satysfakcji, kupujesz enablement, a nie zmierzoną wartość.

← Insights

Kryzys pomiaru AI: ile naprawdę kosztuje AI w przedsiębiorstwie i jak sprawdzić, czy się opłaca

Najgłośniejsi krytycy mają rację w jednej niekomfortowej kwestii: większość organizacji nie potrafi powiedzieć, ile kosztuje ich AI ani czy przynosi zwrot. To problem strategiczny, nie teza inwestycyjna. Oto co pierwotne dowody rzeczywiście pokazują na temat luki w ROI, nieprzejrzystości kosztów i ryzyka dostawcy — oraz instrumentarium, które odróżnia mniej więcej jedną na dwadzieścia firm skalujących od wszystkich pozostałych.

Practitioner deep-dive · Consulting Huber · 3 czerwca 2026

Bernhard Huber

Interim Executive & Innovation Leader · CV · LinkedIn

Prowokacja potraktowana poważnie

Dziennikarz technologiczny Ed Zitron od dwóch lat argumentuje głośno, że branża AI operuje na liczbach, których nikt nie jest w stanie zweryfikować — że prawdziwy koszt inferencji jest zaciemniony, przychody są znikome wobec wydatków, a „AI nie ma zwrotu z inwestycji". To polemika, a jej części są sporne. Ale pod retoryką kryje się twierdzenie, które trudniej zbagatelizować i które ten artykuł postanawia zweryfikować w oparciu o pierwotne źródła, a nie o odczucia: większość przedsiębiorstw naprawdę nie potrafi zmierzyć, ile kosztuje AI, ani udowodnić, co ono zwraca.

To nie jest pytanie giełdowe. To pytanie strategiczne. Zarząd nie musi wiedzieć, czy OpenAI jest dobrą inwestycją, żeby wiedzieć, czy własny program AI przynosi wartość — a tymczasem, na podstawie opublikowanych dowodów, większość zarządów nie potrafi odpowiedzieć na to drugie pytanie liczbą. Znamienne jest, że zgadzają się z tym sami twórcy narzędzi, które mają ten problem rozwiązać. FinOps Foundation — podmiot Linux Foundation, który de facto definiuje dyscyplinę zarządzania kosztami chmury — stwierdza wprost, że „pomiar i kwantyfikacja wartości biznesowej inicjatyw AI zostały wskazane jako poważne wyzwanie" przez praktyków zarządzających wydatkami na AI, a metody to robienia nadal się kształtują, a nie są ustalone.¹¹

Krytyka zatem trafia w cel. Interesujące pytanie brzmi: co robi z tym poważny operator. Artykuł przechodzi przez cztery miejsca, w których pomiar się załamuje — dowody na ROI, stronę kosztową, ekonomię dostawców i to, dlaczego piloty utykają — a następnie przedstawia instrumentarium, z którego faktycznie korzystają organizacje potrafiące mierzyć. Każdy poniższy wykres pochodzi z pierwotnego badania lub dokumentu ramowego, a tam, gdzie źródło jest słabe lub sporne, mówi się o tym w tekście, a nie chowa w przypisach.

Uwaga o dowodach. Liczby w tym artykule pochodzą z badań ankietowych wśród kadry kierowniczej, eksperymentów terenowych i dokumentów ciał normalizacyjnych — nie z jednego audytowanego zbioru danych, bo takiego nie ma. Wielkości prób, mianowniki i różnica między „satysfakcją" a „zmierzonym zwrotem" mają tu ogromne znaczenie, a podpisy pod wykresami o tym mówią. Najczęściej cytowana liczba w całej debacie — „95% pilotów MIT kończy się niepowodzeniem" — jest również najbardziej kwestionowana metodologicznie i jest poniżej przedstawiona jako to, co raport podaje, z dołączoną krytyką.

Część I · Zwrot

Satysfakcja wysoka. Zmierzony zwrot — niekoniecznie.

Najczystszy wniosek z badań przeprowadzonych w 2025 roku nie brzmi: AI zawodzi. Brzmi: adoptujący są z niego zadowoleni, a mimo to nie potrafią pokazać pieniędzy. Badanie ankietowe kadry kierowniczej Bain & Company z III kwartału 2025 roku wykazało, że spośród 59% firm wdrażających generatywną AI w sposób znaczący, technologia spełniła lub przekroczyła oczekiwania w ok. 80% przypadków we wdrożonych funkcjach. W tym samym badaniu tylko ok. 23% wszystkich respondentów stwierdziło, że generatywna AI rzeczywiście przyniosła więcej przychodów lub niższe koszty.¹ Ta luka — między „działa" a „potrafimy przypisać jej wartość" — to kryzys pomiaru ujęty w jednym wykresie.

Luka między satysfakcją a atrybucją

Generatywna AI w przedsiębiorstwach, badanie ankietowe Bain, III kwartał 2025

Spełniła lub przekroczyła oczekiwania wśród aktywnie wdrażających

~80%

Przyniosła więcej przychodów lub niższe koszty wszyscy respondenci

~23%

Uwaga: oba słupki mają różne mianowniki — pierwszy dotyczy aktywnie wdrażających, drugi wszystkich respondentów. Nie są to czyste dane „przed i po". Liczy się kształt, nie różnica. Próba mała (n=197) i deklaratywna; należy traktować jako badanie ankietowe kadry kierowniczej, nie jako statystykę populacyjną. Źródło: Bain & Company, „AI moves from pilots to production" (2025).

Gdyby było to jedno badanie, byłoby jedynie anegdotą. Tak nie jest. Badanie S&P Global Market Intelligence Voice of the Enterprise, przeprowadzone na ok. 1006 specjalistach IT i pracownikach liniowych w Ameryce Północnej i Europie, wykazało, że odsetek organizacji porzucających większość inicjatyw GenAI przed wdrożeniem produkcyjnym wzrósł rok do roku ponad dwukrotnie — z 17% do 42% — a średnio 46% projektów było porzucanych gdzieś między proof of concept a szeroką adopcją.²

Odsetek porzuceń wzrósł ponad dwukrotnie w ciągu roku

Odsetek organizacji porzucających większość inicjatyw GenAI przed wdrożeniem produkcyjnym

2024

17%

2025

42%

Porzucone między PoC a adopcją średnia dla projektów

46%

Źródło: S&P Global Market Intelligence, Voice of the Enterprise: AI & Machine Learning (~1006 respondentów, Ameryka Północna + Europa), „Generative AI shows rapid growth but yields mixed results". Dane niezależnie potwierdzone przez CIO Dive.

To samo badanie podłużne ujawniło coś bardziej wymownego niż jakakolwiek pojedyncza liczba porzuceń: odsetek organizacji raportujących pozytywny wpływ GenAI spadł we wszystkich mierzonych celach przedsiębiorstwa, rok do roku. Nie przesunięcie, nie plateau — spadek na wszystkich trzech frontach jednocześnie.

Pozytywny wpływ spadł dla każdego mierzonego celu

Odsetek organizacji raportujących pozytywny wpływ GenAI, 2024 → 2025

2024 2025

Wzrost przychodów

81%

76%

Zarządzanie kosztami

79%

74%

Zarządzanie ryzykiem

74%

70%

Wzorzec spadku we wszystkich kategoriach, zidentyfikowany w ustrukturyzowanym badaniu rok do roku, to wniosek niekorzystny, a nie marketingowy — co jest jednym z powodów, dla których jest wiarygodny. Źródło: S&P Global Market Intelligence, to samo badanie co powyżej.

Liczba 95% i dlaczego należy ją traktować ostrożnie

Żadna statystyka w tej debacie nie podróżuje szerzej niż ta z MIT. Raport inicjatywy NANDA Media Lab, The GenAI Divide: State of AI in Business 2025 — oparty na 150 wywiadach z liderami, badaniu ankietowym 350 pracowników i analizie 300 publicznych wdrożeń — podaje, że ok. 5% pilotów AI w przedsiębiorstwach osiąga szybkie przyspieszenie przychodów, podczas gdy ok. 95% przynosi niewielki lub zerowy mierzalny wpływ na rachunek zysków i strat.³ Raport dokumentuje też stromy lejek adopcji narzędzi zadaniowych i wbudowanych, w przeciwieństwie do znacznie łagodniejszej ścieżki dla ogólnych chatbotów, takich jak ChatGPT i Copilot.

Lejek od pilota do produkcji

Zadaniowe, wbudowane narzędzia dla przedsiębiorstw vs. ogólne chatboty osiągające produkcję

Oceniane narzędzia zadaniowe

~60%

Pilotowane

~20%

Osiągnęły produkcję

~5%

— dla porównania —

Ogólne chatboty pilot → wdrożenie

~83%

Należy traktować ostrożnie. Kevin Werbach z Wharton i inni badacze stwierdzili, że nagłówkowa liczba 95% jest słabo udokumentowana — że nie można prześledzić sposobu jej wyznaczenia — a lejek 60/20/5 jest raportowany bez wyraźnych mianowników. Wydawca promuje też komercyjne protokoły agentycznej AI, co stanowi potencjalny konflikt interesów. Należy traktować te dane jako twierdzenia raportu, potwierdzone co do kierunku przez wyniki Bain i S&P powyżej, a nie jako ustalone fakty. Źródło: MIT NANDA, The GenAI Divide (2025), za pośrednictwem Fortune i PDF raportu.

Powód, by trzymać wszystkie trzy źródła w polu widzenia jednocześnie, jest taki, że zawodzą one w różny sposób. Bain to małe badanie ankietowe kadry kierowniczej. S&P to większe badanie podłużne. MIT to kwestionowany nagłówek. Nie zgadzają się co do liczby — zgadzają się co do kształtu: adopcja jest szeroka, satysfakcja jest realna, a atrybucja finansowego zwrotu jest rzadka i coraz trudniejsza do udowodnienia. Ten kształt jest odporny, nawet gdy każda poszczególna liczba jest miękka.

Część II · Koszt

Dlaczego „tańsze tokeny" dają wyższe rachunki

Strona zwrotów jest trudna do zmierzenia. Strona kosztów jest, jeśli to możliwe, jeszcze trudniejsza — bo główny trend wskazuje w kierunku odwrotnym do rachunku. Ceny za token drastycznie spadły. Stanford HAI AI Index dokumentuje ok. 280-krotny spadek kosztu odpytania modelu o jakości równoważnej GPT-3.5 między listopadem 2022 a październikiem 2024 — z ok. 20 USD do ok. 0,07 USD za milion tokenów.⁸ Nawet przy konserwatywnym porównaniu tego samego modelu praktycy szacują spadek o rząd wielkości w ciągu dwóch lat. A jednak firmowe rachunki za AI rosną, a nie maleją, ponieważ zużycie rośnie szybciej niż spada cena — klasyczna dynamika paradoksu Jevonsa, gdzie efektywność rozszerza użycie szybciej niż obniża koszt jednostkowy.⁹

↓ ~280×

Cena za token dla stałej jakości, lis. 2022 → paź. 2024 (Stanford HAI)

↑ >100×

Wzrost zużycia tokenów w ciągu ok. dwóch lat

↑ Netto

Całkowity firmowy rachunek za AI — zużycie wyprzedza obniżkę cen

4–5 mies.

Czas, w jakim Uber i ServiceNow podobno wyczerpały roczne budżety AI na 2026

Wielkość należy zakotwiczać w danych Stanford HAI; liczba „>100×" wzrostu zużycia i anegdoty o wyczerpaniu budżetu pochodzą z relacji VentureBeat i mają charakter kierunkowy. Źródła: Stanford HAI AI Index 2025; VentureBeat, „Cheaper tokens, bigger bills".

Spadające ceny nadal pozwalałyby nabywcy prognozować, gdyby jednostka była stabilna. Tak nie jest. Prawdziwy koszt workloadu AI jest tak trudny do poznania dlatego, że zależy od zbyt wielu wzajemnie oddziałujących zmiennych, by rozumować o nich intuicyjnie: który model rzeczywiście obsługuje dane żądanie, gdzie workload jest wykonywany, jak ustrukturyzowany jest prompt i kontekst, ile retrieval jest wczytywane do okna kontekstowego, a przede wszystkim — ile razy pętla agentyczna się zapętla. Analizy branżowe CloudZero i IDC opisują agentyczne wzorce wieloetapowe amplifikujące zużycie tokenów od 5 do 30 razy dla jednego zadania widocznego dla użytkownika. Zarządzanie tym jest, słowami jednego z praktyków, „problemem inżynierskim wymagającym ciągłego dostrajania" — co przeramowuje prompt engineering jako dyscyplinę zarządzania kosztami, a nie craft tworzenia promptów.⁹

Konsekwencja widoczna jest bezpośrednio w dokładności budżetowania. Dane FinOps Foundation z raportu State of FinOps 2026 wskazują, że tylko ok. 15% przedsiębiorstw prognozuje koszty AI z dokładnością do ±10%, a ok. co czwarte mija swoje prognozy o ponad 50%.¹⁰ Pozycja, którą chybia się o połowę, nie jest pozycją, na której można oprzeć business case.

Większość przedsiębiorstw nie potrafi prognozować rachunku za AI

Dokładność prognoz kosztów AI w przedsiębiorstwach

Prognoza w granicach ±10% „na celu"

~15%

Przekroczenie prognozy o >50% materialnie błędna

~25%

Wycena tokenów, rozliczenia per krok agenta i koszty retrieval tworzą zmienność, do obsługi której roczne budżetowanie legacy nie było zbudowane. Źródło: FinOps Foundation, State of FinOps 2026.

To ta część krytyki Zitrona, która trzyma się najlepiej. Nie „AI jest bezwartościowe" — dowody na produktywność poniżej temu przeczą — ale „prawdziwy koszt jednostkowy jest strukturalnie trudny do poznania". I tak właśnie jest. A organizacja, która nie potrafi podać kosztu na jednostkę pracy, nie może obliczyć zwrotu, bez względu na to, jak dobra jest ta praca.

Część III · Dostawca

Ekonomia dostawców — jako ryzyko zakupowe, nie jako perspektywa inwestycyjna

Wycenianie dostawców modeli nie jest zadaniem nabywcy. Jego zadaniem jest jednak rozumienie, że cena, którą płaci dzisiaj, opiera się na strukturze ekonomicznej wciąż szukającej swojego poziomu — bo ta struktura determinuje stabilność cenową i ryzyko kontrahenta, które są danymi wejściowymi do budżetowania. Trzy fakty, wszystkie z relacji opartych na danych samych dostawców, wystarczą, by scharakteryzować ekspozycję.

Po pierwsze, plany wydatków OpenAI przesunęły się na tyle, by mieć znaczenie. W lutym 2026 CNBC podało, że firma zresetowała swój docelowy poziom wydatków na moc obliczeniową w dół — z ok. 1,4 biliona dolarów w zobowiązaniach infrastrukturalnych, które CEO Sam Altman wcześniej zapowiadał, do ok. 600 miliardów dolarów do 2030 roku — wyraźnie po to, by powiązać wydatki ściślej z oczekiwanym wzrostem przychodów.⁵ Po drugie, jej wyniki za 2025 rok, zgodnie z relacjami, pokazują realny wynik gotówkowy: ok. 13,1 miliarda dolarów przychodów przy ok. 8 miliardach dolarów spalonych środków pieniężnych.⁵

$13,1B

Przychody OpenAI za 2025 (powyżej celu $10B)

~$8B

Spalenie gotówki w 2025 (poniżej celu $9B)

$1,4T → ~$600B

Docelowy poziom wydatków na moc obliczeniową do 2030, zresetowany w dół

>$280B

Prognozowane przychody na 2030 (konsumenci + przedsiębiorstwa)

To niezaudytowane dane przekazywane poprzez relacje o wewnętrznych prognozjach prywatnej spółki — najlepszy dostępny kanał, potwierdzony przez CNBC, Reuters i Bloomberg, ale z natury niezależnie niezweryfikowany. Należy czytać jako „rzekomo zakłada", a nie jako sprawozdanie finansowe. Źródło: CNBC, „OpenAI resets spend expectations" (lut. 2026).

Po trzecie, napięcie jest teraz widoczne w ocenach kredytowych spółek finansujących tę rozbudowę. W połowie 2025 roku Moody's zrewidowało perspektywę Oracle'a z stabilnej na negatywną — potwierdzając jednocześnie rating Baa2, dolny koniec oceny inwestycyjnej — powołując się na ryzyko koncentracji kontrahenta związane z ok. 300-miliardowym kontraktem obliczeniowym o mocy 4,5 GW z OpenAI, który Moody's scharakteryzowało jako jedno z największych finansowań projektowych na świecie.⁶ Była to rewizja perspektywy, nie obniżenie ratingu — ale dla korporacyjnego nabywcy jest to konkretny, nazwany sygnał.

Uzależnienie od zewnętrznych LLM w skali to strategiczna ekspozycja sama w sobie

Poniżej liczb dotyczących cen i kontrahentów kryje się większy punkt, który zasługuje na wyraźne nazwanie. Kierowanie kluczowego, wysokowolumenowego procesu biznesowego przez zewnętrzny API modelu koncentruje zależność operacyjną poza kontrolą organizacji. W skali pilota to rozsądna wymiana — zdolności i szybkość za niewielki, kontrolowany wydatek. W skali produkcyjnej, gdy tysiące codziennych decyzji, dokumentów lub interakcji z klientami przepływają przez pojedynczy zewnętrzny endpoint, ta sama konfiguracja staje się kwestią odporności, a nie wygody. Dostawca, który wciąż spala gotówkę, resetuje własny roadmap wydatków i finansuje rozbudowę przez skoncentrowanych kontrahentów, nie jest jeszcze stabilnym dostawcą usług; jest szybko zmieniającym się dostawcą zasobu, który firma po cichu uczyniła krytycznym. Zmiana ceny, ograniczenie szybkości, wycofana wersja modelu lub awaria ląduje wtedy nie jako niedogodność IT, lecz jako przerwanie kluczowego procesu.

Wniosek nie brzmi: unikaj zewnętrznych modeli — są zbyt zdolne, a budowanie możliwości granicznych in-house rzadko jest właściwą decyzją. Brzmi: traktuj dostawcę modeli tak, jak poważny operator traktuje każdego kluczowego jedynego dostawcę, gdy tylko proces przekracza próg eksperymentowania, i bądź w stanie odpowiedzieć na jedno uczciwe pytanie: co się stanie z tym procesem, jeśli cena się podwoi, model zostanie wycofany lub endpoint będzie niedostępny w przyszłym kwartale? Jeśli nie ma odpowiedzi, zależność jest ryzykiem strategicznym przebranym za wygodny API. Konkretne zabezpieczenia wynikające z tego pytania to te, które nabywca powinien spisać — poniżej.

Co to oznacza dla nabywcy — nie dla inwestora. Jeśli ceny API modeli granicznych są utrzymywane poniżej kosztu w celu zdobycia rynku, to dzisiejsza cena za token jest ceną promocyjną, a rozsądny wieloletni business case powinien uwzględniać możliwość jej wzrostu. Bezpośrednio wynikają z tego trzy praktyczne zabezpieczenia: (1) unikaj uzależnienia od jednego dostawcy dla każdego workloadu o wystarczającym znaczeniu; (2) wpisz założenia dotyczące zmian cen i możliwości wyjścia do business case'u, a nie tylko do bieżącej tabeli stawek; (3) utrzymuj kwalifikowany mniejszy lub open-weight model jako opcję rezerwową dla zadań wysokowolumenowych i niskospecjalistycznych. Żadne z tych działań nie wymaga oceny rentowności dostawców. Wymaga jedynie traktowania ceny jako zmiennej.

Część IV · Luka

Dlaczego piloty utykają — i co dowody mówią o tym, co faktycznie działa

Jeśli satysfakcja jest wysoka, a atrybucja rzadka, oczywiste pytanie brzmi: co odróżnia programy, które dokonują konwersji. Dowody wskazują od modelu ku dwóm przyczynom strukturalnym: temu, co jest finansowane, i temu, co jest mierzone.

Budżet podąża tam, gdzie łatwo go widać, a nie tam, gdzie przynosi zwrot

Najbardziej praktyczny wniosek raportu MIT NANDA — bardziej obronny niż jego nagłówkowy wskaźnik niepowodzeń — jest taki, że budżety GenAI są systematycznie źle alokowane. Około połowy budżetów GenAI (abstrakt raportu podaje ~50%; szczegóły badania dochodzą do ~70%) trafia do funkcji front-office, sprzedaży i marketingu, podczas gdy automatyzacja back-office, która często daje lepszy ROI, jest niedofinansowana. Przyczyna jest sama w sobie problemem pomiaru: wyniki sprzedaży i marketingu układają się czysto w KPI na poziomie zarządu i aktualizacje dla inwestorów, podczas gdy efektywności w obszarach prawnym, zakupów i finansów są realne, ale trudniejsze do wyartykułowania w rozmowie z kadrą kierowniczą.³

Budżet podąża za widocznością, nie za zwrotem

Alokacja firmowego budżetu GenAI według funkcji

Front office sprzedaż i marketing — widoczne KPI

~50–70%

Back office prawny, zakupy, finanse — lepszy ROI, często niedofinansowane

reszta

Wydatki uzyskano przez ćwiczenie hipotetycznej „alokacji 100 USD", więc podział należy traktować kierunkowo. Strategiczny wniosek pozostaje aktualny: funkcja, którą najłatwiej zmierzyć, przyciąga budżet, nawet jeśli to nie tam jest zwrot. Źródło: MIT NANDA, The GenAI Divide (2025).

Produktywność jest realna — ale nierównomiernie rozłożona

Byłoby błędem pozostawić wrażenie, że AI nie działa. Duży, pre-rejestrowany eksperyment terenowy prowadzony w Microsoft, Accenture i anonimowym producencie z listy Fortune 100 (n=4867 deweloperów, opublikowany w Management Science) wykazał, że GitHub Copilot zwiększył liczbę ukończonych zadań o ok. 26%.⁷ Dwa zastrzeżenia mają znaczenie dla każdego ROI opartego na tej liczbie. Po pierwsze, badanie mierzyło przepustowość zadań, a nie jakość kodu ani zwrot finansowy — badacze nie mieli dostępu do wytworzonego kodu. Po drugie, i bardziej przydatne strategicznie: zyski były silnie zróżnicowane w zależności od doświadczenia.

To samo narzędzie, bardzo różne zyski

Wzrost wydajności z asystenta kodowania AI według doświadczenia dewelopera

Juniorzy / mniej doświadczeni deweloperzy

+27–39%

Seniorzy

+8–13%

Ponieważ zysk zależy tak mocno od tego, kto używa narzędzia, to samo wdrożenie może przynieść bardzo różną wartość w dwóch zespołach — co jest dokładnie powodem, dla którego jedna łączna liczba „produktywności AI" jest myląca na poziomie portfela. Mierzone jako wynik, nie jakość ani ROI. Źródło: terenowy RCT, MIT/Princeton/Wharton/Microsoft, Management Science (2025).

Zestawiając oba wnioski, implikacja strategiczna jest ostra. Wartość jest realna, ale warunkowa — zależy od funkcji, od składu zatrudnienia, od tego, czy przepływ pracy został przeprojektowany wokół narzędzia. Program, który nie mierzy na tym poziomie szczegółowości, zobaczy średnią i przeoczy rozkład, sfinansuje widoczny use case zamiast wartościowego i zaraportuje „spełniło oczekiwania", podczas gdy P&L się nie porusza. To nie jest porażka modelu. To porażka instrumentacji.

Część V · Rozwiązanie

Playbook pomiaru: od kosztu na token do kosztu na wynik

Dobra wiadomość jest taka, że dyscyplina, która to naprawia, nie jest teoretyczna. FinOps Foundation — podmiot, który ustandaryzował zarządzanie kosztami chmury — rozszerzył swój framework na AI, a jego podstawowy konstrukt, Unit Economics, jest najbardziej konkretną dostępną pierwotną odpowiedzią. Unit Economics definiuje się jako „metryki zapewniające zrozumienie, w jaki sposób korzystanie przez organizację z technologii oraz praktyki zarządzania technologią wpływają na wartość produktów, usług lub działań organizacji" i sytuuje się bezpośrednio w domenie Quantify Business Value frameworku. Foundation stwierdza tę zasadę wprost: „bez możliwości powiązania kosztów z uzyskanymi korzyściami trudno zrozumieć, czy wydatki są właściwe."⁴

Praktycznym krokiem jest drabina. Pomiar kosztów AI ma zaczynać się na poziomie kosztu na token i wspinać ku metrykom zorientowanym na wynik — koszt na asystę, koszt na działanie agenta, koszt na odchylony case — przy czym granularne śledzenie (aż do poziomu tokenu, GPU i pojedynczej predykcji) zasila szczeble powyżej.⁴

Crawl Koszt na token / GPU-godzinęSzczegółowe śledzenie. Niezbędne, ale odpowiada na pytanie „ile wydaliśmy?", a nie „czy warto było?"

Walk Koszt na wywołanie / funkcję / predykcję AIPrzypisywanie wydatków do konkretnego modelu, zadania lub workloadu — pierwszy widok, na którym właściciel produktu może działać.

Run Koszt na wynikKoszt na asystę, na działanie agenta, na odchylony case, na rozwiązany ticket — szczebel, gdzie koszt spotyka wartość i ROI staje się obliczalne.

Model dojrzałości FinOps „Crawl / Walk / Run" zastosowany do AI. Większość organizacji utknęła na dolnym szczeblu — dlatego potrafią raportować wydatki, ale nie zwrot. Źródło: FinOps Foundation, Unit Economics capability.

Drabina metryk potrzebuje właściciela, bo inaczej zamiera w finansach. Zalecanym przez Foundation mechanizmem zarządczym jest wielofunkcyjny AI Investment Council — wartość tej rekomendacji tkwi w konkretnym składzie, bo to właśnie wielofunkcyjna kompozycja pozwala, by koszt spotkał się z wynikiem w jednym pomieszczeniu. Rada, jak zauważa FinOps, podnosi dyskusję o unit economics na wyższy szczebel organizacji, definiując konkretne wyniki i KPI, które projekty AI muszą adresować.¹¹

AI Investment Council · skład wielofunkcyjny

Właściciele biznesowi i produktowi właściciele wyniku / KPI

Lider AI / technologii wykonalność, wybór modelu

Architektura korporacyjna i platforma gdzie to działa

Liderzy infrastruktury pojemność, ekonomia GPU

Bezpieczeństwo IT i ryzyko governance, ekspozycja na AI Act

Finanse i FinOps unit economics, prognozowanie

Zakupy / kontrakty ryzyko dostawcy i cenowe

Zdefiniowane wyniki i KPI, które każdy projekt AI musi adresować cele kosztu na wynik · atrybucja · go / no-go na tej samej bazie dowodów

FinOps określa radę jako „jeden z najskuteczniejszych sposobów" prowadzenia dyskusji o unit economics — centralny zalecany mechanizm, ale nie jedyny. Skład jest istotny: każda funkcja, która dotyka kosztu lub wartości AI, jest w pomieszczeniu, gdy KPI jest ustalany. Źródło: FinOps Foundation, Managing AI Value working group.

Dwa uczciwe zastrzeżenia. Pierwsze: sama Foundation nie twierdzi, że zadanie jest ukończone — przyznaje, że nie ma jeszcze ustalonej, ustandaryzowanej metodologii kwantyfikacji wartości biznesowej AI; podejścia nadal się kształtują. To jest dokładnie powód, dla którego krytyka na początku tego artykułu trafia w cel; dyscyplina budująca rozwiązanie otwarcie przyznaje, że rozwiązanie jest niekompletne. Drugie: język frameworku ma charakter opisowy, nie nakazowy — obserwuje, że dojrzałe praktyki „rozszerzają się ku" metrykom wynikowym, nie nakazuje nikomu. Strategiczne odczytanie jest w obu przypadkach takie samo: celem jest koszt na wynik, prawie nikt go jeszcze nie osiągnął, a organizacje, które dojdą tam pierwsze, będą mogły udowodnić wartość, gdy ich konkurenci wciąż raportują satysfakcję.

Jak czytać ten tekst jako nabywca

Abstrahując od badań, zadanie operatora sprowadza się do czterech sytuacji. Poniższe ramy przebijają się przez szum szybciej niż jakikolwiek scorecard dojrzałości.

Sytuacja 1 — zarząd pyta „jaki jest nasz ROI z AI?". Uczciwa pierwsza odpowiedź to kontrapytanie: w jakiej jednostce? Jeśli organizacja nie potrafi podać kosztu na wynik dla swojego flagowego workloadu AI — kosztu na rozwiązany ticket, wygenerowany dokument, odchylony case — to ROI nie istnieje jeszcze jako liczba, a każda prezentowana cyfra to satysfakcja przebrana w kostium finansowy. Zadaniem nie jest produkowanie lepszego slajdu; jest nim zinstrumentowanie jednego workloadu do szczebla kosztu na wynik i raportowanie tego.

Sytuacja 2 — CEO ze zablokowanymi pilotami. Dowody mówią, że przyczyna rzadko leży w modelu. Najpierw sprawdź dwie rzeczy: dokąd poszedł budżet (do front office ze względu na widoczność, czy tam, gdzie jest zwrot?) i co jest mierzone (przepustowość czy wynik?). Jeden use case zinstrumentowany do kosztu na wynik, z nazwanym właścicielem biznesowym, którego P&L porusza się razem z nim, bije portfolio pilotów mierzonych przez pryzmat „zaangażowania”. Trzy miesiące tego biją dwanaście miesięcy pilotów.

Sytuacja 3 — linia kosztowa jest zmienna i nikt nie potrafi jej prognozować. To jest problem ±10%, i jest to problem inżynieryjno-zarządczy, a nie zakupowy. Rozwiązania są konkretne: zinstrumentuj zużycie tokenów, modelu i kroku agenta per workload; traktuj projektowanie promptów i kontekstu jako zarządzanie kosztami; ogranicz głębokość pętli agentycznej; zakwalifikuj tańszy model rezerwowy dla zadań wysokowolumenowych i niskospecjalistycznych. Prognozowalność to zdolność, którą się buduje, a nie stawka, którą się negocjuje.

Sytuacja 4 — ryzyko dostawcy i cenowe. Przyjmij założenie, że dzisiejsza cena tokenu jest promocyjna, i wpisz to założenie do wieloletniego business case'u. Unikaj uzależnienia od jednego dostawcy dla każdego istotnego workloadu, utrzymuj kwalifikowany open-weight lub mniejszy model rezerwowy, i umieszczaj w umowie warunki dotyczące zmian cen i możliwości wyjścia. Nie potrzebujesz oceny rentowności dostawców. Potrzebujesz, by Twój business case przeżył dzień, gdy cena się zmieni.

I trzy pytania, które przebijają się przez pitch dostawcy szybciej niż jakikolwiek RFP: „Pokaż mi koszt na wynik zmierzony przy ostatnim zaangażowaniu." „Pokaż mi, jak zinstrumentowałeś stronę kosztową — token, model, krok agenta." „Pokaż mi właściciela biznesowego, którego liczba się poruszyła." Jeśli firma odpowiada pilotami, demami i wskaźnikami satysfakcji, kupujesz enablement, a nie zmierzoną wartość.

Gdzie pasuje Consulting Huber

Consulting Huber to firma practitioner. Nie sprzedajemy platformy AI i nie mamy interesu w pompowaniu rachunku za tokeny ani liczby pilotów. Pracujemy z CEO, zarządami, dyrektorami transformacji i operatorami PE nad nieefektowną połową problemu, na który badania konsekwentnie wskazują: uczynieniem kosztów i wartości AI mierzalnymi, by decyzja o skalowaniu lub zatrzymaniu opierała się na liczbie, a nie na nastroju.

W praktyce oznacza to zinstrumentowanie jednego strategicznie ważnego workloadu do szczebla kosztu na wynik w pierwszych tygodniach; uruchomienie wielofunkcyjnej kadencji — właściciel biznesowy, inżynieria, finanse, ryzyko — którą framework FinOps nazywa radą, a my po prostu nazywamy salą, w której KPI jest ustalane; budowanie prognozowalności linii kosztowej zamiast jej negocjowania; i wpisywanie ryzyka dostawcy i cenowego do business case'u. Pełny kształt tej dyscypliny dostarczania jest opisany w naszym towarzyszącym artykule o warstwie dostarczania pod AI i w Playbooku tworzenia wartości z AI; strona regulacyjna jest opisana w naszym przewodniku zgodności z EU AI Act.

Jeśli są Państwo w jednej z czterech powyższych sytuacji nabywcy i chcą Państwo porozmawiać bezpośrednio o tym, jak uczynić wydatki na AI mierzalnymi, najszybszym sposobem na start jest nasza dwutygodniowa diagnoza Delivery & AI-readiness w stałej cenie — szczery obraz tego, czy wydatki na AI i cyfryzację się zwracają, dostarczony jako memo gotowe dla komitetu. Albo proszę skorzystać z linku do kalendarza poniżej.

Konsultowane źródła

Dowody na ROI w przedsiębiorstwach

[1] Bain & Company, „AI moves from pilots to production", badanie ankietowe kadry kierowniczej III kw. 2025 (n=197) — satysfakcja ~80% wśród aktywnie wdrażających, ~23% raportujących wpływ na przychody lub koszty. Potwierdzone przez Bloomberg, „AI Delivers Less Cost Reduction Than Firms Predicted" (czerwiec 2026). Należy cytować jako badanie ankietowe kadry kierowniczej, a nie jako statystykę populacyjną.

[2] S&P Global Market Intelligence, Voice of the Enterprise: AI & Machine Learning (~1006 respondentów, Ameryka Północna + Europa) — porzucenia 17%→42% r/r; 46% projektów porzuconych między PoC a adopcją; spadek pozytywnego wpływu dla przychodów (81→76), kosztów (79→74) i ryzyka (74→70). Dane niezależnie potwierdzone przez CIO Dive.

[3] Inicjatywa NANDA MIT Media Lab, The GenAI Divide: State of AI in Business 2025 (150 wywiadów z liderami, badanie ankietowe 350 pracowników, 300 publicznych wdrożeń) — ~95% pilotów bez mierzalnego wpływu na P&L; lejek 60/20/5; ~50–70% budżetu do sprzedaży i marketingu. Za pośrednictwem Fortune i PDF raportu. Kwestionowane metodologicznie: Kevin Werbach z Wharton i inni badacze podważają sposób wyznaczenia liczby 95% oraz brakujące mianowniki lejka; wydawca promuje komercyjne protokoły agentyczne. Przedstawione w całym tekście jako twierdzenia raportu, z dołączoną krytyką.

[7] Cui, Demirer, Jaffe, Musolff, Peng & Sadun et al., terenowy RCT w Microsoft, Accenture i producencie Fortune 100 (n=4867; pre-zarejestrowany AEARCTR-0014530), opublikowany w Management Science (2025) — GitHub Copilot zwiększył liczbę ukończonych zadań o ~26% (SE ~10,3%); juniorzy +27–39%, seniorzy +8–13%. Mierzy przepustowość, a nie jakość kodu ani zwrot finansowy.

Nieprzejrzystość kosztu tokenu i inferencji

[8] Stanford HAI, AI Index 2025 — ~280-krotny spadek kosztu za token dla jakości równoważnej GPT-3.5 (20 USD → 0,07 USD za milion tokenów, lis. 2022 – paź. 2024). Główna kotwica dla skali spadku kosztów.

[9] VentureBeat, „Cheaper tokens, bigger bills: the new math of AI infrastructure" — zużycie wzrosło >100× przy spadku cen ~10× (podstawa tego samego modelu); koszt to „problem inżynierski wymagający ciągłego dostrajania"; Uber i ServiceNow podobno wyczerpały roczne budżety AI na 2026 w ciągu 4–5 miesięcy. Agentyczna amplifikacja 5–30× potwierdzona przez CloudZero i IDC. Źródło wtórne; wielokrotność zużycia należy traktować kierunkowo.

[10] FinOps Foundation, State of FinOps 2026 — ~15% przedsiębiorstw prognozuje koszty AI z dokładnością ±10%; ~co 4. mija prognozę o >50%. Wycena tokenów, rozliczenia per krok agenta i koszty retrieval tworzą zmienność, z którą roczne budżetowanie legacy nie daje sobie rady. Dynamiczne — weryfikować przed ponowną publikacją.

Ekonomia dostawców (jako ryzyko nabywcy)

[5] CNBC, „OpenAI resets spend expectations, targets around $600 billion by 2030" (lut. 2026) — reset wydatków z zapowiadanego $1,4B do ~$600B do 2030; przychody za 2025 $13,1B przy ~$8B spaleniu; prognozowane przychody na 2030 >$280B. Potwierdzone przez Reuters i Bloomberg. Niezaudytowane dane z wewnętrznych prognoz prywatnej spółki — „rzekomo zakłada", a nie sprawozdanie finansowe.

[6] Moody's Ratings — perspektywa Oracle zmieniona na negatywną ze stabilnej (Baa2 potwierdzone), powołując się na ryzyko koncentracji kontrahenta wynikające z kontraktu obliczeniowego ~$300B / 4,5 GW z OpenAI; scharakteryzowane jako jedno z największych finansowań projektowych na świecie. Za pośrednictwem Yahoo Finance; sprecyzowane przez The Register jako rewizja perspektywy (poł. 2025), a nie obniżenie ratingu. Do cytowania — preferować własne ogłoszenie Moody's na ratings.moodys.com.

Playbook pomiaru

[4] FinOps Foundation, Unit Economics capability — definitywne ujęcie unit economics w ramach „Quantify Business Value" i postęp Crawl/Walk/Run od kosztu na token w kierunku kosztu na asystę / działanie agenta / odchylony case. Projekt Linux Foundation jest organem normalizacyjnym dla zarządzania kosztami chmury i AI.

[11] FinOps Foundation, Managing AI Value working group — wielofunkcyjny AI Investment Council i jego skład; śledzenie na poziomie tokenu, GPU i predykcji; oraz wyraźne przyznanie, że kwantyfikacja wartości biznesowej AI to „poważne wyzwanie" bez ustalonej metodologii.

Prowokacja

[0] Ed Zitron, „AI Doesn't Have a Return on Investment" i powiązane eseje — cytowany jako polemika ramowa, którą artykuł weryfikuje, a nie jako źródło dowodowe. Argument, że prawdziwy koszt i ROI z AI są zaciemnione, jest traktowany poważnie powyżej i sprawdzany pod kątem danych pierwotnych; dalej idące konkluzje nie są przyjmowane.

Czego dowody jeszcze nie rozstrzygają

Po tym badaniu pozostały otwarte cztery pytania i każdy uczciwy czytelnik powinien je trzymać w polu widzenia: (1) netto łączny koszt jednostkowy reprezentatywnego agentycznego workloadu po ponownych próbach, pęcznieniu kontekstu i amplifikacji wieloetapowej — żadne źródło nie skwantyfikowało, ile z oszczędności z „tańszych tokenów" przeżywa na poziomie workloadu; (2) o ile, jeśli w ogóle, obecne ceny API modeli granicznych są poniżej kosztu — wyniki spalenia pokazują straty, ale nie izolują ekonomiki inferencji na token; (3) konkretna, powtarzalna instrumentacja wyróżniająca ~5% skalujących, z danymi przed/po dla wyników, wykraczającymi poza powyższe frameworki; (4) w jaki sposób amortyzacja GPU i założenia dotyczące okresu użyteczności wpływają na trwałość dzisiejszej wyceny. To są pytania, które należy zadać każdemu dostawcy lub zespołowi wewnętrznemu twierdzącemu, że ma pewność.

Umów rozmowę 30 min Albo opisz nam swoją sytuację

Powiązane: Playbook tworzenia wartości z AI · Warstwa dostarczania pod AI · Duże frameworki AI w doradztwie, porównane (2026) · Strategia cyfrowa & AI