← Strategia cyfrowa & AI

Warstwa dostarczania pod AI: czym naprawdę jest, na przykładach

Większość korporacyjnych programów GenAI nie utyka na modelu. Utyka na warstwie dostarczania pod spodem. Pięć wymogów organizacyjnych, cztery dyscypliny inżynierskie i jak wyglądają w firmach, które to zbudowały — i w tych, które tego nie zrobiły.

Practitioner deep-dive · Consulting Huber · 2026

Bernhard Huber

Interim Executive & Innovation Leader · CV · LinkedIn

Wyrażenie, zdefiniowane uczciwie

Obraz w 2026 roku jest spójny we wszystkich większych badaniach. McKinsey's 2025 State of AI podaje, że 88% dużych przedsiębiorstw korzysta z AI w co najmniej jednej funkcji biznesowej. Co trzecia firma przeskalowała AI w całym przedsiębiorstwie. Dwie na pięć potrafią wskazać jakikolwiek wpływ na EBIT. Około sześciu procent raportuje realny wpływ na EBIT — to kohort, który McKinsey określa mianem AI high performers.

Większość programów GenAI stoi na szerokim schodku tej drabiny — gdzieś między pilotem a produkcją — a standardowe wyjaśnienie brzmi: model jeszcze nie jest wystarczająco dobry. Prawie nigdy tak nie jest. Te same modele, które napędzają produkcyjne sukcesy, napędzają również zablokowane piloty.

W pięciu głównych badaniach obejmujących blisko dziesięć tysięcy respondentów z przedsiębiorstw — McKinsey, BCG, Deloitte, IBM i MIT NANDA — ani jedno nie wymienia jakości modelu jako głównej przyczyny niepowodzeń. Każda czołowa przyczyna jest strukturalna. Brak jasno określonej odpowiedzialności. Brak danych gotowych do produkcji. Brak target operating model. Brak governance zdolnej do skalowania. Brak pojemności na change. Albo — pod każdym z tych powodów — brak dyscypliny inżynieryjno-dostarczaniowej: brak metryk DORA na zespole AI, brak pilotowego squadu przed skalą, brak engineering managera odpowiedzialnego za wynik, brak kadencji, która łączy exec, squad i risk w jednym pokoju.

Google's 2025 State of DevOps ujmuje tę samą obserwację w jednym zdaniu:

"AI doesn't fix a team; it amplifies what's already there. Strong teams use AI to become even better and more efficient. Struggling teams will find that AI only highlights and intensifies their existing problems." — Google DORA, 2025 State of AI-Assisted Software Development

Warstwa dostarczania pod AI to robocza definicja tego, o czym to zdanie mówi. To nie jest hydraulika danych. To nie jest slajd z target operating model. To codzienna i tygodniowa kadencja, która zamienia intencję operating model w dostarczoną wartość — pięć wymogów organizacyjnych i cztery dyscypliny inżynierskie, które można zweryfikować w raportach publicznych, przypadek po przypadku.

Ten tekst definiuje tę warstwę, przechodzi przez nią krok po kroku i pokazuje ją w dziewięciu publicznych firmach: gdzie warstwy brakowało, gdzie była widocznie zbudowana, i jedna firma, która ją zbudowała, przeskalowała poza granicę, gdzie dowody ją wspierały, a następnie publicznie się wycofała.

Pięć wymogów organizacyjnych

Zanim jakakolwiek dyscyplina inżynierska nabierze znaczenia, musi być obecnych pięć elementów organizacyjnych. Każdy z nich zawodzi w rozpoznawalny sposób. Nazwy to te same pięć, które nasz artykuł towarzyszący o tworzeniu wartości z AI identyfikuje; pytanie, na które odpowiada ta sekcja, brzmi: jak wygląda każdy z nich, gdy go brakuje.

1. Business owner z odpowiedzialnością za P&L

Nie sponsor z IT. Nie przewodniczący komitetu sterującego. Nie innovation lab. Nazwany operator, którego liczba w kwartalnym P&L porusza się razem z use case'em — szef customer operations, chief credit officer, szef marketingu. Jeśli jedyną osobą pojawiającą się na miesięcznym przeglądzie jest ktoś z technologii, use case to projekt technologiczny, a projekt technologiczny rzadko produkuje linię EBIT, którą CFO potrafiłby nazwać. Trzyletni pilotaż drive-thru McDonald's z IBM to najczystsze ostrzeżenie: brak publicznych kryteriów sukcesu, brak post-mortem, brak nazwanego właściciela odpowiedzialnego za wynik. Po zakończeniu w lipcu 2024 ani McDonald's, ani IBM nie opublikowały żadnych metryk. Trzyletni program nie wyprodukował żadnego możliwego do wyciągnięcia wniosku, bo żaden operator nie był za niego odpowiedzialny.

2. Dane gotowe do produkcji tam, gdzie use case faktycznie działa

Najtrudniejszy element, prawie zawsze. Model może być doskonały, a demo dopracowane, ale jeśli dane potrzebne w produkcyjnym workflow żyją w systemie, do którego zespół AI nie może się dostać, były ostatnio czyszczone w 2019 roku albo siedzą w regionie, którego use case nie może dotknąć — pilot kończy się na pilocie. Pozytywny przykład to Bloomberg LP: BloombergGPT to model o 50 miliardach parametrów pre-trenowany na 363-miliardowym korpusie tokenów z własnego archiwum Bloomberg. Przewaga konkurencyjna nie wynika z liczby parametrów. Wynika z korpusu — trzydzieści lat zastrzeżonego archiwum finansowego w strukturze, z której model może korzystać. Większość przedsiębiorstw nie jest w stanie tego odtworzyć przy każdym use case'ie. Te, które dostarczają, uczą się wcześnie rozpoznawać, które use case'y mają możliwą do obrony warstwę danych, a które jej nie mają.

3. Target operating model, w który praca z AI faktycznie się wpisuje

Produkt, dane, platforma, bezpieczeństwo i change muszą koordynować działania w ramach kadencji dostarczania. Gdy tak nie jest, symptom jest rozpoznawalny: wydajność modelu na benchmarku jest w porządku; produkcyjny workflow jest niezbudowalny, bo prawny nie zatwierdził klasy danych, zespół platformowy ma inny roadmap, a zespół change management dowiaduje się o wdrożeniu po komunikacie prasowym. Udokumentowany sądownie przypadek chatbota Air Canada z lutego 2024 to dokładnie ten wzorzec. Chatbot wymyślił politykę taryf żałobnych. Trybunał ds. Rozwiązywania Sporów Cywilnych Kolumbii Brytyjskiej pociągnął linie lotnicze do odpowiedzialności w sprawie Moffatt v. Air Canada, odrzucając argument linii — dziś brzmiący kuriozalnie — że chatbot był "odrębnym podmiotem prawnym odpowiedzialnym za własne działania". Żaden operating model nie łączył bazy wiedzy modelu z aktualną polityką taryfową. Nikt nie był właścicielem tego połączenia.

4. Governance zdolna do skalowania

Od 2 sierpnia 2026 roku Rozporządzenie (UE) 2024/1689 stosuje się w pełni do każdego systemu AI wysokiego ryzyka obsługiwanego na rynku europejskim. Kategorie, które dotyczą większości korporacyjnych zastosowań GenAI, znajdują się w Załączniku III: screening rekrutacyjny, monitorowanie wydajności, decyzje kredytowe i ubezpieczeniowe, przepływy biometryczne, ocena edukacyjna. Artykuł 9 wymaga ciągłego procesu zarządzania ryzykiem przez cały cykl życia systemu. Artykuł 12 wymaga automatycznego logowania z retencją przez wdrażającego przez co najmniej sześć miesięcy. Artykuł 13 wymaga, by system był na tyle interpretowalny, że wdrażający może z niego prawidłowo korzystać. Artykuł 14 wymaga wyznaczonych pracowników nadzoru ludzkiego, którzy potrafią rozpoznawać odchylenia automatyzacyjne, interpretować wyniki, nadpisywać decyzje i zatrzymywać system. Artykuł 26 wymaga informowania pracowników przed wdrożeniem w miejscu pracy oraz powiadamiania osób, których dotyczą decyzje podjęte z wykorzystaniem systemu. Artykuł 99 wycenia niezgodność na do 35 milionów euro lub 7% całkowitego rocznego obrotu na poziomie globalnym — w zależności od tego, która kwota jest wyższa — w przypadku naruszeń dotyczących zakazanej AI. Żaden z tych obowiązków nie jest spełniony przez model, który dobrze wypadł na benchmarku. Spełnia je kadencja operacyjna pod spodem — kadencja, która utrzymuje pracowników nadzoru na stanowiskach, logowanie w ruchu i proces powiadamiania pracowników jako powtarzalny. Ugoda iTutorGroup z EEOC na 365 000 dolarów w sierpniu 2023 za narzędzie rekrutacyjne AI, które automatycznie odrzucało kandydatów powyżej określonego wieku, to zapowiedź tego, co AI Act wyceni na rynku europejskim od 2026 roku. Koszt pominięcia warstwy governance przestał być ryzykiem wizerunkowym. To pozycja w zestawieniu finansowym.

5. Pojemność na change

Ludzie, którzy będą korzystać z narzędzi, ufać ich wynikom i przebudowywać swoją pracę wokół nich. Wzorzec niepowodzenia polega na usuwaniu ludzi zanim AI udowodni swoje możliwości na ogonie rozkładu przypadków. NEDA — National Eating Disorders Association — zlikwidowała ludzką infolinię i przeszła na chatbota Tessa w maju 2023. W ciągu dziesięciu dni Tessa zaczęła zalecać ograniczenie kalorii i cele wagowe osobom z zaburzeniami odżywiania. Warstwa change — przeszkoleni doradcy, którzy wychwyciliby szkodliwe odpowiedzi — została zlikwidowana przed walidacją, a nie przeprojektowana wokół narzędzia. Pozytywny wzorzec wygląda inaczej. Wdrożenie My Assistant przez Walmart, uruchomione w 2024 roku przez Chief People Officer Donnę Morris, przeskalowało z 50 000 do 75 000 użytkowników w jedenastu krajach w ramie "people-led, tech-powered", która utrzymywała ludzki nadzór w operating model od pierwszego dnia.

Cztery dyscypliny dostarczania, które tworzą warstwę

"Organisations that already organise for bounded agency in humans are well-suited to adopting AI effectively and humanely. Team Topologies offers Agentic AI clear boundaries, stable interfaces, aligned domains and collaborative ownership — the infrastructure for agency itself." — Matthew Skelton, Team Topologies as the Infrastructure for Agency with Humans and AI, QCon London, marzec 2026

Pięć wymogów z poprzedniej sekcji odpowiada na pytanie „czy organizacja jest gotowa?". Cztery dyscypliny z tej sekcji odpowiadają na pytanie „czy kadencja dostarczania jest realna?". Kadencja to ta część, która nie przeżywa slajdu. To właśnie na niej praktyka Bernharda spędza większość czasu.

Intencja operating model teza · dźwignie wartości · ambicja

Pięć wymogów organizacyjnych

Business owner z odpowiedzialnością za P&L

Dane gotowe do produkcji tam, gdzie działa use case

Target operating model · produkt · dane · platforma · bezpieczeństwo · change

Governance zdolna do skalowania · AI Act · model risk · audyt

Pojemność na change · ludzie, którzy używają, ufają, przeprojektowują

Warstwa dostarczania · cztery dyscypliny inżynierskie

Metryki DORA na zespołach dostarczających AI

Jeden pilotowy squad przed skalą

Engineering managerowie mentorowani, by to prowadzili

Exec / squad / risk w jednym pokoju

Dostarczona wartość AI wpływ na EBIT, który CFO potrafi nazwać

Warstwa dostarczania pod AI. Intencja operating model spotyka się z rzeczywistością dopiero po przejściu przez pięć wymogów organizacyjnych i cztery dyscypliny inżynierskie.

1. Metryki DORA na zespołach dostarczających AI — nie branżowe benchmarki

Cztery klucze DORA — częstotliwość wdrożeń, lead time dla zmian, change failure rate, czas przywracania usługi — zostały opublikowane w Accelerate (Forsgren, Humble i Kim, 2018) i od tamtej pory stanowią empiryczny fundament badań nad dostarczaniem oprogramowania. Raport DORA State of DevOps 2024 wprowadził coś, czego branża wcześniej nie miała: zmierzoną zmienną adopcji AI. Wynik był niekomfortowy. Wzrost adopcji AI o 25% w zespole skorelował się ze spadkiem przepustowości dostarczania o 1,5% i spadkiem stabilności dostarczania o 7,2%. Raport uzupełniający z 2025 roku State of AI-Assisted Software Development wykazał, że przepustowość się odbudowała, ale stabilność nadal była ujemna. Najczęściej cytowane zdanie z tego raportu to to, które przytoczono już powyżej: „AI doesn't fix a team; it amplifies what's already there." Implikacja jest strukturalna. Liczby DORA, które zespół AI rzeczywiście porusza, mają większe znaczenie niż model, którego używa. Druga istotna liczba pochodzi z badania BCG AI Radar 2025 przeprowadzonego wśród 1803 dyrektorów szczebla C: 60% firm nie definiuje i nie monitoruje żadnych finansowych KPI związanych z tworzeniem wartości z AI. Dyscyplina DORA na zespołach AI zaczyna się tam, gdzie kończy się te 60%. To bramka, która wychwytuje cichą erozję zanim pojawi się w wynikach biznesowych.

2. Jeden pilotowy squad przed skalą

Pojedynczy obszar produktu, na którym leadership naprawdę zależy. Nie innovation lab. Wzorzec Lean Startup, zasada dwupizzowego zespołu, oryginalne Skunk Works Lockheed — rodowód jest długi, a zasada ta sama. Goldman Sachs skodyfikował to jako instytucjonalną infrastrukturę: GS Innovation Center, założone w 2022 roku, to sandbox, przez który przechodzi każda inicjatywa GS AI przed ogólnobankowym rollout'em. Asystent GS AI uruchomiony firmowo w styczniu 2025 przeszedł tę ścieżkę. Wzorzec jest widoczny również w JPMorgan: dobrowolny wewnętrzny rollout LLM Suite do CIB przed ekspozycją skierowaną do klientów. COO ING Marnix van Stiphout był równie jednoznaczny w tej kwestii: „ścisła governance skupiająca całą eksplorację AI na pięciu obszarach i tylko pod kontrolą COO". ING raportuje, że 90% pilotów trafia na produkcję, wobec branżowej średniej bliskiej 30%. Ta liczba nie jest funkcją lepszych modeli. Jest funkcją mniejszej liczby jednoczesnych zakładów.

3. Engineering managerowie mentorowani, by to prowadzili po odejściu konsultantów

Firmy zewnętrzne, których nie można zwolnić po trzecim roku, to przepis na transformacje, których nikt nie jest właścicielem. Dyscyplina polega na osadzeniu pracy wewnątrz własnej linii zarządzania inżynierią klienta. The Manager's Path Camille Fournier (O'Reilly, 2017) i An Elegant Puzzle Willa Larsona (Stripe Press, 2019) to kanoniczne odwołania dla tego, jak ta rola wygląda w skali. Wzorzec, który zawodzi, to zespół platformowy wymieniony na slajdzie i niesfinansowany w budżecie. Wzorzec, który działa, to osoba nazwana, rozliczalna i opłacana z własnej linii inżynierskiej klienta. Rollout GitHub Copilot w Mercado Libre dla jego bazy ponad 9000 deweloperów przebiegał przez nazwanego SVP of Technology (Sebastian Barrios), dwumiesięczny bootcamp onboardingowy dla deweloperów i GitHub Advanced Security wpiętą w pipeline CI. Tak wygląda w raportach publicznych sytuacja, gdy "engineering manager jest właścicielem".

4. Exec, squad i risk w jednym pokoju, w realnej kadencji

Tygodniowo dla dostarczania. Miesięcznie dla wartości. Kwartalnie dla samego planu tworzenia wartości. Antywzorzec, który Marty Cagan i Chris Jones nazwali w Empowered (Wiley, 2020), to "Puppet Master" — liderzy narzucający rozwiązania, udając jednocześnie, że upełnomocniają zespoły. Model empowered przydziela problemy, nie rozwiązania, i używa kadencji governance do egzekwowania odpowiedzialności bez micromanagementu. Dwufazowa historia agenta customer service Klarna to przykład działającej kadencji nawet wtedy, gdy leżący u podstaw zakład musi zostać częściowo cofnięty. Faza pierwsza, w lutym 2024, przeskalowała agenta customer service zasilanego przez OpenAI na 23 rynki z mierzalnymi wynikami (67% czatów obsłużonych bez człowieka, czas rozwiązania z 11 minut do poniżej 2). Faza druga, piętnaście miesięcy później, cofnęła część substytucji: CEO Sebastian Siemiatkowski powiedział Bloomberg, że firma ponownie zatrudnia ludzi do złożonych spraw, fraudów i przypadków hardship, ponieważ oryginalny framework ewaluacyjny nadmiernie wycenił szybkość i koszt kosztem jakości na ogonie przypadków. To kadencja governance działająca zgodnie z przeznaczeniem — łącznie z częścią, w której zmienia kurs.

Studia przypadków — kiedy warstwa jest nieobecna

Cztery publiczne przypadki, każdy zakotwiczony w źródłach pierwotnych, każdy odwzorowany na wymóg lub dyscyplinę, które były strukturalnie nieobecne. Wzorzec jest spójny: w każdym przypadku model był w porządku. Warstwa pod spodem — nie.

Chatbot Air Canada · luty 2024

Trybunał ds. Rozwiązywania Sporów Cywilnych Kolumbii Brytyjskiej rozpatrywał sprawę Moffatt v. Air Canada w lutym 2024. Pan Moffatt zapytał chatbota linii lotniczych o taryfy żałobne po śmierci babci. Chatbot poinformował go, że może złożyć wniosek o zniżkę z wyrównaniem wstecznym w ciągu dziewięćdziesięciu dni. Taka polityka nie istniała. Air Canada odmówiła zwrotu pieniędzy i przed trybunałem argumentowała — zdumiewająco z perspektywy czasu — że chatbot był "odrębnym podmiotem prawnym odpowiedzialnym za własne działania". Trybunał nie zgodził się, stwierdził nieuważne wprowadzenie w błąd i przyznał CAD 812,02 plus koszty. Sprawa jest mała pod względem kwoty i duża pod względem strukturalnym. Nieobecny wymóg to target operating model. Nikt nie był właścicielem połączenia między bazą wiedzy chatbota a aktualną polityką taryfową. Produkt, dział prawny i operacje nie koordynowały działań w ramach kadencji dostaw. Nieobecna dyscyplina to kadencja governance: brakowało ścieżki przeglądu ludzkiego dla niestandardowych zapytań o politykę i śladu audytowego, który mógłby wychwycić halucynowaną odpowiedź przed dotarciem do żałobnego klienta. Orzeczenie sądu czyni koszt brakującego operating model czytelnym w sposób, jakiego nie osiąga żaden consulting deck.

Chatbot NYC MyCity · marzec 2024

Dochodzenie The Markup z marca 2024 dotyczące oficjalnego chatbota dla małych firm Nowego Jorku — wdrożenia Microsoft Azure ogłoszonego przez burmistrza Adamsa w październiku 2023 — wykazało, że udziela on porad właścicielom domów, jak odmawiać przyjmowania voucherów mieszkaniowych Section 8, pracodawcom jak przywłaszczać napiwki pracowników, i firmom jak odmawiać przyjmowania gotówki. Każda z tych odpowiedzi to, na pierwszy rzut oka, naruszenie prawa miejskiego. Miasto odmówiło wyłączenia chatbota po publikacji; pozostawał aktywny przez miesiące. Nieobecny wymóg to governance zdolna do skalowania. Brak przeglądu model risk pod kątem obowiązującego prawa nowojorskiego. Brak ludzkiego nadzoru nad odpowiedziami przed uruchomieniem. Brak śladu audytowego. Department of Small Business Services, zespół prawny miasta i właściciele technologii działali w rozłącznych torach. Przypadek ten zapowiada to, co AI Act wyceni na rynku europejskim od 2 sierpnia 2026 — z tą różnicą, że podatnik nowojorski płaci rachunek bez względu na wszystko, a europejski wdrażający zapłaci go na podstawie Artykułu 99.

Narzędzie AI do rekrutacji iTutorGroup · ugoda z EEOC, sierpień 2023

Komisja ds. Równych Szans Zatrudnienia USA ogłosiła pierwszą w historii ugodę dotyczącą dyskryminacji w miejscu pracy przez AI w sierpniu 2023. Zautomatyzowany screener rekrutacyjny iTutorGroup automatycznie odrzucił ponad dwustu kandydatów z USA wyłącznie na podstawie wieku — kobiety powyżej 55 lat, mężczyźni powyżej 60. Dyskryminacja wyszła na jaw, gdy jeden kandydat złożył dwa identyczne wnioski różniące się jedynie datą urodzenia i otrzymał różne wyniki. Ugoda: 365 000 dolarów, obowiązkowe szkolenie antydyskryminacyjne, pięcioletni monitoring EEOC i obowiązek ponownego zaproszenia każdego odrzuconego kandydata. Nieobecny wymóg to ponownie governance zdolna do skalowania: brak testowania disparate impact, brak frameworku model risk, brak śladu audytowego — żadnej z rutynowych procedur prawnych stosowanych w ludzkim procesie selekcji. Nieobecna dyscyplina to kadencja governance: żaden exec, żaden engineering manager i żaden właściciel ryzyka prawnego nigdy nie zebrali się w jednym pokoju, by omówić system przed jego wdrożeniem. Sprawa EEOC jest teraz amerykańskim szablonem odpowiedzialności za AI w zatrudnieniu; od sierpnia 2026 Artykuł 26 AI Act będzie wymagał informowania pracowników przed wdrożeniem w miejscu pracy i powiadamiania osób, w których sprawach system jest używany do podejmowania decyzji. Ten sam błąd, dwóch regulatorów, dwie wycenione ekspozycje.

Agent customer service Klarna, faza druga · wycofanie się w maju 2025

W lutym 2024 agent customer service Klarna zasilany przez OpenAI uruchomił się na 23 rynkach, obsłużył 2,3 miliona rozmów w pierwszym miesiącu i skrócił średni czas rozwiązania z jedenastu minut do poniżej dwóch. Do maja 2025 CEO Sebastian Siemiatkowski publicznie wycofał się z tego wdrożenia: ponownie zatrudniano ludzi do złożonych spraw, fraudów i przypadków hardship. Substytucja zaszła, jego słowami, za daleko. Faza pierwsza wygląda jak podręcznikowy sukces. Faza druga to wzorzec niepowodzenia. Nieobecny w fazie pierwszej wymóg to pojemność na change. Klarna wyeliminowała pracowników — warstwę, która wychwytywałaby degradację na ogonie przypadków — zanim AI udowodniła, że potrafi obsłużyć pełny rozkład przypadków. Nieobecna dyscyplina to dyscyplina inżyniersko-dostarczaniowa w zakresie mierzenia właściwych rzeczy. Kryteria akceptacji Klarna mierzyły średni czas rozwiązania. Nie mierzyły wyników satysfakcji klientów przy złożonych emocjonalnie lub związanych z fraudem sprawach — dokładnie tam, gdzie AI po cichu ulegała degradacji. Przypadek Klarna to przykład parowy: faza pierwsza pokazuje, jak wygląda sytuacja z trzema z pięciu wymogów i trzema z czterech dyscyplin widocznie obecnych, a następna sekcja wraca do niej z tego kąta. Faza druga pokazuje, co się dzieje, gdy brakujące elementy nadrabiają zaległości.

Trzy kolejne przypadki potwierdzają powyższe wzorce bez zakotwiczania sekcji. Trzyletni pilotaż automatyzacji drive-thru McDonald's z IBM, zakończony w czerwcu 2024, ilustruje brakującego business ownera: żaden operator nie był odpowiedzialny, brak publicznych kryteriów sukcesu, brak metryk, brak post-mortem. Chatbot Tessa NEDA, wyłączony w czerwcu 2023 po zalecaniu ograniczenia kalorii osobom z zaburzeniami odżywiania, ilustruje skrajny brak pojemności na change. Chatbot DPD w Wielkiej Brytanii, który w styczniu 2024 przeklinał klientów i pisał deprecjonujące wiersze o własnym pracodawcy po rutynowej aktualizacji systemu, ilustruje brak dyscypliny inżyniersko-dostarczaniowej: brak bramki stagingowej, brak testu regresji, brak red teamu między aktualizacją a ruchem na produkcji.

Studia przypadków — kiedy warstwa jest widocznie zbudowana

Cztery publiczne przypadki, w których warstwa jest widocznie obecna w raportach publicznych. Nazwani właściciele. Dane produkcyjne. Pilotowe squady przed skalą. Engineering managerowie odpowiedzialni za wynik. Kadencja governance łącząca exec, squad i risk. Poniższe liczby to te, które operatorzy sami raportują oficjalnie.

ING Bank · przykład wzorcowy

ING jest, na podstawie publicznych dowodów, najczystszym aktualnym przykładem tego, jak warstwa wygląda w produkcji. Działając z Holandii z globalnym zasięgiem w bankowości detalicznej i korporacyjnej, ING przepuściło cały swój portfel GenAI — chatbot dla klientów, KYC i due diligence klientów, monitorowanie transakcji, copilot dla deweloperów, agentyczny pilotaż hipoteczny — przez scentralizowaną platformę pod osobistą odpowiedzialnością COO. Chief Operating Officer Marnix van Stiphout jest właścicielem programu. Chief Technology Officer Daniele Tonella, publicznie wypowiadając się dla Computer Weekly, opisuje zasadę operacyjną w jednym zdaniu: "ścisła governance skupiająca całą eksplorację AI na pięciu obszarach i tylko pod kontrolą COO". Zasada pięciu obszarów to dyscyplina pilotowego squadu uczyniona instytucjonalną — nie pięćset eksperymentów, pięć. Headline'owy wynik to liczba, przy której każdy CFO i operator PE powinien przestać przewijać: 90% pilotów ING trafia na produkcję, wobec branżowej średniej bliskiej 30%. Liczby wspierające są spójne. 75% zapytań klientów obsługiwanych autonomicznie w detalicznym footprincie chatbota. KYC skrócone z dni lub tygodni do sekund. 10 000 dziennych alertów monitorowania transakcji przefiltrowanych do ~500 trafnych dla analityków compliance. Pięć tysięcy pracowników przeszkolonych w zakresie data fluency i GenAI. 140 odrębnych ryzyk AI zweryfikowanych w ramach frameworku zgodności z AI Act już odwzorowanego na termin 2 sierpnia 2026. ING to najbliższy publiczny przypadek schematu z poprzedniej sekcji. Każde pole jest obsadzone.

BBVA · fazowy rollout do 120 000 pracowników

Rollout GenAI w BBVA to podręcznikowy wzorzec fazowego przejścia z pilota do skali. Hiszpański bank zaczął w maju 2024 od 3300 licencji ChatGPT Enterprise. Pod koniec 2024 rollout był na poziomie 11 000. W grudniu 2025 bank ogłosił rozszerzenie na całą ~120 000-osobową kadrę, co Bloomberg potwierdził niezależnie. Program jest własnością Eleny Alfaro jako Global Head of AI Adoption, z Ricardo Martínem Manjónem jako Global Head of Data i prezesem Carlosem Torres Vila podpisującym strategiczny sojusz z OpenAI. Metryki wynikowe mają rodzaj precyzji, który rzadko trafia na posiedzenia zarządu: 83% posiadaczy licencji zaangażowanych tygodniowo według własnego trackingu AI Adoption BBVA, 2,8 do 3 godzin zaoszczędzonych na pracownika tygodniowo, ponad 4800 niestandardowych GPT zbudowanych przez pracowników z ~700 wyselekcjonowanymi w wewnętrznym GPT Store. Najdokładniejsza liczba pochodzi z jednej funkcji: GPT dla Służb Prawnych BBVA zautomatyzował ponad 9000 zapytań bastanteo rocznie i dostarczył 26% rocznego KPI oszczędności działu Służb Prawnych. Taka precyzja atrybucji KPI rzadko trafia do komunikatów prasowych. Gdy trafia, to dlatego, że operating model ją wyprodukował — nie model.

JPMorgan Chase LLM Suite

JPMorgan Chase ujął swoją pracę z GenAI w liście Jamie'ego Dimona w Raporcie Rocznym 2025 i w obszernym wywiadzie McKinsey z Chief Analytics Officer Derekiem Waldronem. LLM Suite, agnostyczna modelowo wewnętrzna platforma GenAI banku, obsługuje ponad 450 use case'ów w produkcji przy rocznym budżecie technologicznym wynoszącym około 18 miliardów dolarów. Platforma dotarła do ponad 65 000 aktywnych użytkowników CIB i ~200 000 pracowników firmowo w ciągu ośmiu miesięcy — dobrowolny rollout, ekspozycja skierowana do pracowników przed jakąkolwiek skierowaną do klientów, zarządzana w ramach trójfilarowej architektury (fabryka ML OmniAI plus LLM Suite plus badania fundamentalne). Widoczna z raportów publicznych dyscyplina to nazwany CAO będący właścicielem programu, filozofia de-risk-before-scale i etapowa adopcja pracownicza, która sama z siebie generowała use case'y. Headline'owy wskaźnik produktywności, który operatorzy cytują oficjalnie: decki bankierów inwestycyjnych budowane w mniej więcej trzydzieści sekund, co wcześniej zajmowało godziny, z trzema do sześciu godzinami zaoszczędzonymi na użytkownika CIB tygodniowo.

Goldman Sachs · platforma GS AI i Innovation Center

Dyscyplina Goldman jest instytucjonalna. Chief Information Officer Marco Argenti jest publicznie nazwanym właścicielem. GS Innovation Center, założone w 2022 roku, to pilotowy squad przed skalą — każda inicjatywa GS AI przechodzi przez niego przed ogólnobankowym rollout'em. GitHub Copilot wdrożono dla wszystkich 12 000 deweloperów firmy; publiczna liczba produktywności od Argenti, cytowana przez American Banker i Fortune, to około 20% — odpowiednik dodania 2400 deweloperów do istniejącej kadry. W styczniu 2025 GS AI, agnostyczny modelowo asystent obejmujący GPT, Gemini i Claude, rozszerzono na całą 46 000-osobową kadrę. Do połowy 2025 bank raportował około miliona promptów miesięcznie w całej firmie. Kontrole governance są publicznie udokumentowane: zautomatyzowany monitoring, redukcja halucynacji, zabezpieczenia ochrony informacji, flagowanie zawartości promptów, AI benchmarkowane względem ludzkiej wydajności, nie bezwzględnej dokładności. Chodzi nie o to, że te kontrole są wyjątkowe. Chodzi o to, że są publiczne, nazwane i stałe.

Trzy kolejne przypadki potwierdzają powyższe wzorce. Recenzowane przez środowisko badanie produktywności GitHub Copilot — Communications of the ACM, marzec 2024, n=95 profesjonalnych deweloperów — pozostaje złotym standardem dowodowym tej dziedziny: użytkownicy Copilot wykonali identyczne zadanie o 55,8% szybciej niż grupa kontrolna, przy 78% vs 70% ukończeniu zadania. Latynnoamerykański rollout GitHub Copilot w Mercado Libre dla jego bazy ponad 9000 deweloperów ilustruje dyscyplinę własności engineering managera (nazwany SVP Sebastian Barrios), dwumiesięczny bootcamp, GitHub Advanced Security wpiętą w pipeline CI i ~100 000 pull requestów dziennie jako proxy DORA dla częstotliwości wdrożeń. BloombergGPT, model o 50 miliardach parametrów pre-trenowany na 363-miliardowym tokenowym zastrzeżonym korpusie finansowym Bloomberg, to najczystszy przykład wymogiem produkcyjnych danych z poprzedniej sekcji przekształconego w przewagę konkurencyjną. Dwadzieścia lat ustrukturyzowanego archiwum finansowego to warstwa danych. Model to warstwa siedząca na niej.

Klarna należy też do tej sekcji. Faza pierwsza jej agenta customer service — okres od lutego 2024 do początku 2025 — widocznie zawierała cztery z pięciu wymogów: nazwanego CEO-operatora na P&L, dane produkcyjne w realnym workflow, operating model integrujący AI w transakcyjne zwroty i reklamacje oraz kadencję governance, która ostatecznie wykryła i zareagowała na degradację jakości. Dwa brakujące elementy to dyscyplina inżyniersko-dostarczaniowa, która wychwytywałaby degradację na ogonie przypadków wcześniej (obserwowana była niewłaściwa metryka akceptacji), oraz bufor pojemności na change, który powinien był zostać zachowany podczas skalowania. Faza druga to wygląd uczciwej kadencji governance, gdy te luki wychodzą na jaw. Korekta kursu była publiczna, szybka i na rekordzie. To bliższe sukcesowi niż porażce, nawet gdy nagłówkowy wynik ulega odwróceniu, bo operating model tę zmianę wyprodukował.

Diagnostyka: pięć warunków, cztery dyscypliny

Poniższa siatka odwzorowuje osiem przeanalizowanych przypadków na dziewięć elementów strukturalnych. Czytaj wzdłuż każdego wiersza: wypełniona zielona kropka oznacza, że element był widocznie obecny w raportach publicznych; pusta przerywana okrągła oznacza, że był widocznie nieobecny lub przypadek obrócił się wokół jego braku; półzacieniony znak oznacza częściową obecność. Legenda pod siatką.

Przypadek	Pięć wymogów organizacyjnych					Cztery dyscypliny dostarczania
Przypadek	Owner	Dane	Op model	Gov	Change	DORA	Pilot	EM	Kadencja
Air Canada chatbotlut 2024 · BCCRT 149	~	~	○	○	~	○	~	○	○
NYC MyCitymar 2024 · The Markup	○	~	○	○	○	○	○	○	○
iTutorGroup AI hiringsie 2023 · ugoda EEOC	○	~	~	○	~	○	○	○	○
Klarna AI · wycofanie się fazy 2maj 2025 reversal	●	●	●	~	○	○	~	~	●
ING Bank2024–2026 · COO-owned	●	●	●	●	●	●	●	●	●
BBVA2024–2025 · fazowy do 120k	●	●	●	●	●	~	●	●	●
JPMorgan LLM Suite2024–2026 · CAO-owned	●	●	●	~	●	~	●	●	●
Goldman Sachs GS AI2022– · Innovation Center	●	●	●	●	●	~	●	●	●

●Widocznie obecny w raportach publicznych ~Częściowy · niejednoznaczny w raportach ○Nieobecny · lub przypadek obrócił się wokół jego braku

Trzy rzeczy warte uwagi. Po pierwsze, przypadki niepowodzeń grupują się po prawej stronie siatki, nie po lewej. W każdym przypadku niepowodzenia brakuje co najmniej jednej z czterech dyscyplin dostarczania — zazwyczaj kadencji governance, właściciela w postaci engineering managera, albo obu. Model nie był problemem. Kadencja była. Po drugie, przypadki sukcesu nie są doskonałe. JPMorgan, BBVA i Goldman mają częściowy znak przy metrykach DORA na zespołach AI — raporty publiczne nie pokazują jeszcze formalnych dashboardów DORA dla ich pracy z AI, nawet gdy reszta warstwy jest widocznie na miejscu. To aktualny horyzont w tej dziedzinie; to nie jest porażka tych programów, to luka w praktyce. Po trzecie, ING to jedyny przypadek w siatce z wypełnionymi wszystkimi dziewięcioma polami. Są inne programy, które prawdopodobnie należałoby umieścić po prawej stronie tego porównania. ING to ten, którego Chief Operating Officer umieścił zasadę operacyjną na rekordzie — pięć autoryzowanych obszarów, wyłącznie pod kontrolą COO — i którego wynik 90% pilotów trafiających na produkcję jest publicznie weryfikowalny.

Jak uruchomić siatkę na własnym programie. Weź najważniejszy strategicznie use case GenAI w toku. Dla każdej z dziewięciu kolumn odpowiedz na jedno pytanie. Czy jest tu nazwany człowiek, na rekordzie, który jest właścicielem tej kolumny dla tego use case'u? Owner: operator, którego liczba na P&L będzie się poruszać. Dane: inżynier odpowiedzialny za aktualność, klasyfikację i dostęp do danych, których model potrzebuje w produkcji. Op model: osoba, która może zwołać produkt, dane, platformę, bezpieczeństwo i change do jednego pokoju w przyszłym tygodniu. Gov: właściciel ryzyka prawno-regulacyjnego, który przeczytał Artykuły 9, 12, 13, 14 i 26 Rozporządzenia (UE) 2024/1689 i podpisał się pod nimi. Change: właściciel change managementu, który nie został zlikwidowany. DORA: inżynier, który może dziś rano zacytować lead time i change failure rate swojego zespołu AI. Pilot: squad będący właścicielem docelowego obszaru produkcyjnego zanim ktokolwiek inny dostanie system. EM: engineering manager, który będzie prowadził to za dwa lata, gdy konsultanci już odejdą. Kadencja: tygodniowy przegląd dostarczania, miesięczny przegląd wartości i kwartalny przegląd planu tworzenia wartości — z frekwencją.

Próg zaliczenia, w naszym doświadczeniu, to mniej więcej cztery z dziewięciu, by poważnie zacząć program, i siedem z dziewięciu, by oczekiwać wartości produkcyjnej w skali. Poniżej czterech z dziewięciu praca nie jest jeszcze problemem dostarczania; to problem przywództwa — i warstwa dostarczania nie jest pierwszą rzeczą, której ta organizacja potrzebuje.

Jak to czytać, jeśli jesteś kupującym

Jeśli jesteś CEO, członkiem rady nadzorczej, dyrektorem transformacji lub operatorem private equity, debata o GenAI rozdzieliła się na cztery odrębne sytuacje zakupowe. Poniższe ujęcie przecina hałas szybciej niż jakakolwiek macierz punktowa.

Sytuacja 1 — rada pyta "na który model postawić?". To prawie zawsze złe pytanie. Właściwe brzmi: który use case ma warstwę pod spodem. Rada, która poświęca spotkanie na Claude vs GPT vs Gemini, spędza godzinę na tej części, która jest najmniej decydująca. Ta sama godzina poświęcona czterem dyscyplinom dostarczania — kto jest właścicielem liczb DORA, gdzie siedzi pilotowy squad, który engineering manager będzie prowadził to po odejściu konsultantów, kiedy exec, squad i risk spotykają się w jednym pokoju — przesunie inwestycję w AI bardziej niż jakikolwiek wybór modelu kiedykolwiek. Odpowiedź na pytanie o model brzmi: "zmienia się co kwartał i nie ma to znaczenia; wybierz ten, który pasuje do warstwy danych, którą już masz".

Sytuacja 2 — CEO ze zablokowanymi pilotami. Siatka powyżej to kolejność diagnostyczna. Zacznij od czterech skrajnie prawych kolumn (dyscypliny), nie od pięciu skrajnie lewych (wymogi). Jeśli dyscypliny są nieobecne, żadna ilość naprawiania wymogów nie wyprodukuje wartości produkcyjnej — wymogi piętrzą się jako deklaracje gotowości, a praca się nie dostarcza. Jeśli dyscypliny są na miejscu, ale wymogi nie, praca dostarcza się w próżnię — produkcyjne wdrożenie bez operatora odpowiedzialnego za P&L, bez governance przeżywającej audyt, bez warstwy change korzystającej z outputu. Trzy miesiące zdyscyplinowanej kadencji na jednym use case'ie bije dwanaście miesięcy pilotów na sześciu.

Sytuacja 3 — due diligence private equity. Commercial i tech assessment potrzebuje teraz sekcji o dostarczaniu AI. Trzy pytania przecinają deck zarządu. Po pierwsze, nazwij produkcyjny workload GenAI, który przesunął linię w ostatnim kwartalnym P&L; jeśli nie istnieje, twierdzenia o AI to teatr. Po drugie, nazwij operatora, który jest jego właścicielem; jeśli odpowiedzią jest CIO lub Chief Innovation Officer zamiast szefa P&L, workload to technologia, nie wartość. Po trzecie, poproś o dashboard DORA zespołu AI z ostatnich sześciu miesięcy — jeśli dashboard nie istnieje, zdyscyplinowana warstwa dostarczania nie jest na miejscu i teza tworzenia wartości na AI w okresie hold powinna zostać zdyskontowana. Czysta odpowiedź na trzy pytania dodaje obroty widoczności EBITDA; nieczysta odpowiedź powinna reprzyczyniować wycenę aktywa.

Sytuacja 4 — integracja po fuzji. Dwa portfele AI, prawie zawsze, z nakładającymi się use case'ami i rozłączonymi operating models. Pokusa to łączenie narzędzi. Właściwy ruch to łączenie warstwy. Jeden business owner na skonsolidowany use case. Jeden właściciel operating model na zintegrowaną funkcję. Jedna kadencja governance na nowym perymeterze, odwzorowana na Artykuł 26 AI Act jeśli którykolwiek podmiot działa na rynku europejskim. Pytania o model i narzędzia mogą poczekać sześć miesięcy; warstwa nie może.

Trzy pytania przecinają pitch dostawcy szybciej niż jakikolwiek scorecard RFP. „Pokaż mi nazwanego operatora, który będzie właścicielem tego use case'u w poniedziałek." „Pokaż mi engineering managera po stronie klienta, który nadal będzie to prowadził za dwa lata." „Pokaż mi liczby DORA zespołu AI z Państwa ostatniego zaangażowania." Jeśli firma nie potrafi odpowiedzieć na wszystkie trzy, kupują Państwo enablement, nie dostarczanie.

Gdzie pasuje Consulting Huber

Consulting Huber to firma practitioner. Nie konkurujemy wielkością ławki certyfikowanych SAFe Big Four, globalnym footprintem dostarczania MBB ani wolumenem nazwanych flagowych przypadków wynikającym z listy płac tysiąca konsultantów. Konkurujemy na odwrotnym problemie: CEO, rady nadzorcze, dyrektorzy transformacji i operatorzy PE, którzy chcą warstwy dostarczania dużej firmy, dostarczonej bezpośrednio przez seniorskich praktyków, z możliwością transferowaną do własnego zarządzania inżynierią klienta przed końcem zaangażowania.

W praktyce oznacza to: nazwany business owner zidentyfikowany dla każdego use case'u przed napisaniem jakiegokolwiek kodu; metryki DORA zainstalowane na zespole dostarczającym AI w pierwszych sześciu tygodniach; pilotowy squad umieszczony w obszarze produktu, na którym leadership naprawdę zależy; engineering manager, który poprowadzi to po naszym odejściu, nazwany w pierwszym dniu i mentorowany przez całe zaangażowanie; kadencja governance łącząca exec, squad i risk w jednym pokoju co tydzień, co miesiąc i co kwartał. Model nie jest lock-inem platformy. Jest jego przeciwieństwem. Pracujemy tak, by stać się zbędni przed końcem zaangażowania, i pozostawiamy klientowi prawo do zwolnienia nas na koniec każdego cyklu. Pełny kształt tej pracy — dyscyplina inżynierska, projektowanie zespołów, metryki dostarczania — opisuje nasza praktyka agile engineering i delivery.

Jeśli jesteś operatorem rozpatrującym jedną z czterech sytuacji zakupowych powyżej i chcesz bezpośredniej rozmowy o tym, jak warstwa wylądowałaby w Państwa konkretnym przypadku, link do kalendarza poniżej to najszybszy sposób na start.

Konsultowane źródła

Podstawy warstwy dostarczania

Forsgren, Humble & Kim, Accelerate: The Science of Lean Software and DevOps (IT Revolution, 2018; wyd. 2, 2025), ISBN 978-1-942788-33-1, itrevolution.com/product/accelerate · Google DORA, Accelerate State of DevOps 2024 · Google DORA, 2025 State of AI-Assisted Software Development · Skelton & Pais, Team Topologies (IT Revolution, 2019; wyd. 2, 2025), ISBN 978-1-942788-81-2, itrevolution.com/product/team-topologies · Matthew Skelton, Team Topologies as the Infrastructure for Agency with Humans and AI, QCon London, marzec 2026 · Fournier, The Manager's Path (O'Reilly, 2017), ISBN 978-1-491973-89-9 · Larson, An Elegant Puzzle (Stripe Press, 2019), ISBN 978-1-732265-18-9 · Cagan & Jones, Empowered (Wiley, 2020), ISBN 978-1-119691-29-7 · CNCF, Platforms White Paper i Platform Engineering Maturity Model · Humanitec, State of Platform Engineering Vol. 3 (2024).

Dowody na przepaść między pilotem a P&L

McKinsey QuantumBlack, State of AI: How Organizations Are Rewiring to Capture Value (marzec 2025, n=1993) · BCG, AI Radar 2025: Closing the AI Impact Gap (n=1803) · BCG, The Widening AI Value Gap (wrzesień 2025) · IBM Institute for Business Value, 2025 CEO Study (maj 2025, n=2000) · Deloitte, State of Generative AI in the Enterprise Q4 2024 (n=2773) · MIT NANDA, The GenAI Divide: State of AI in Business 2025 (lipiec 2025, użyty jako kierunkowy nawias obok McKinsey) · RAND Corporation, Why AI Projects Fail and How They Can Succeed (sierpień 2024).

Regulacje

Parlament Europejski i Rada, Rozporządzenie (UE) 2024/1689 (AI Act) · artificialintelligenceact.eu przeglądarka na poziomie artykułów · Artykuły 5, 6, 9, 10, 12, 13, 14, 26, 50, 51, 53, 55, 99, 113 i Załącznik III cytowane w §2.

Przypadki niepowodzeń (źródła pierwotne)

Moffatt v. Air Canada, 2024 BCCRT 149 — pełne orzeczenie CanLII · EEOC v. iTutorGroup, Inc., 1:22-cv-02565 (E.D.N.Y.) — komunikat prasowy EEOC i rejestr sprawy · The Markup, "NYC's AI Chatbot Tells Businesses to Break the Law" (marzec 2024) · komunikat prasowy Klarna, "AI assistant handles two-thirds of customer service chats" (lut 2024) · Fortune, "Klarna AI humans return on investment" (maj 2025) · Restaurant Dive, "McDonald's ends IBM drive-thru voice order test" (czerwiec 2024) · NPR, relacja o NEDA Tessa (czerwiec 2023) · Fox Business, relacja o chatbocie DPD (styczeń 2024).

Przypadki sukcesu (źródła pierwotne)

ING: Computer Weekly, "How ING reaps benefits of centralising AI"; McKinsey, wywiad z COO Marnixem van Stiphout. BBVA: ogłoszenie strategicznego sojuszu BBVA-OpenAI (grudzień 2025); relacja Bloomberg. JPMorgan: Raport Roczny 2025; wywiad McKinsey z CAO Derekiem Waldronem. Goldman Sachs: CNBC uruchomienie firmowe (styczeń 2025); wywiad Fortune z CIO Marco Argentim. GitHub Copilot: Peng et al., arXiv:2302.06590 (luty 2023); Communications of the ACM (marzec 2024); przypadek Mercado Libre. BloombergGPT: Wu et al., arXiv:2303.17564 (marzec 2023); komunikat prasowy Bloomberg.

Umów rozmowę 30 min Albo opisz nam swoją sytuację

Powiązane: Kryzys pomiaru AI · Playbook tworzenia wartości z AI · Duże frameworki AI w doradztwie, porównane (2026) · The Big Consulting Agile Frameworks, Compared (2026) · Strategia cyfrowa & AI