Dane od lat nazywane są „nową ropą naftową biznesu”. I choć to iście oryginalne określenie, niewątpliwie oddaje sens znaczenia – to strategiczny zasób dla każdej firmy. Paradoksalnie jednak wielu menedżerów czuje, że tonie w morzu informacji, a jednocześnie brakuje im konkretnych, użytecznych insightów. Według badań IDC dla firmy Seagate aż 68% firmowych danych pozostaje niewykorzystanych. Innymi słowy, tylko ułamek gromadzonych informacji przekłada się na decyzje biznesowe. Gdzie tkwi problem?

W praktyce ogrom danych bywa rozproszony po różnych systemach i działach – od ERP, przez systemy produkcyjne i finansowe, po setki arkuszy kalkulacyjnych. Każdy dyrektor zna scenariusz, gdy zespoły tracą czas na żmudne scalanie raportów z różnych źródeł zamiast na analizę i wyciąganie wniosków. Brakuje też zaufania do danych – nie wiadomo, które źródło jest aktualne i poprawne, więc wyniki analiz są podważane. W efekcie firma posiada skarbnicę informacji, lecz nie potrafi jej przełożyć na realne korzyści. W dynamicznym otoczeniu rynkowym to poważny problem – decyzje powinny opierać się na bieżących faktach, a tymczasem uzyskanie spójnego widoku danych potrafi trwać dni lub tygodnie. W rezultacie decyzje bywają opóźnione lub podejmowane intuicyjnie, „na wyczucie”, zamiast na faktach.

Rozwiązaniem tego dylematu jest nowe podejście do zarządzania danymi – takie, które zintegruje rozproszone informacje, nada im wspólny kontekst i uczyni łatwo dostępnymi dla decydentów. Mówiąc krótko: przejście od silosów danych do jednego źródła prawdy. Taki cel przyświeca nowoczesnej architekturze danych opartej na integracji SAP Datasphere i Databricks Lakehouse.

Nowoczesny data stack – fundament architektury danych przyszłości

big dataSAP Datasphere oraz platforma Databricks Lakehouse wspólnie tworzą fundament współczesnego data stacku, który eliminuje silosy danych i zapewnia organizacji jeden spójny ekosystem informacyjny. SAP i Databricks – światowi liderzy w swoich obszarach – nawiązali strategiczne partnerstwo, aby umożliwić przedsiębiorstwom harmonijną integrację danych transakcyjnych z SAP z danymi spoza SAP, a następnie ich zaawansowaną analizę w środowisku data lakehouse. To podejście odpowiada na potrzebę łączenia światów biznesowych systemów (jak SAP) z nowoczesnymi platformami analitycznymi AI/ML.

Przykładowa architektura integracji SAP Business Data Cloud z platformą Databricks Lakehouse. Kuratorowane i kontekstowe dane biznesowe z systemów SAP (np. S/4HANA, BW/4HANA) są udostępniane bez kopiowania do środowiska Databricks (tzw. zero-copy connectivity dzięki Delta Sharing). Umożliwia to wykonywanie zaawansowanych analiz, ML/AI oraz BI na danych SAP przy zachowaniu ich pełnego kontekstu biznesowego.

SAP Datasphere to platforma nowej generacji do zarządzania danymi, będąca ewolucją znanego rozwiązania SAP Data Warehouse Cloud. Została zaprojektowana, by przełamać ograniczenia tradycyjnych hurtowni danych i dostarczyć kompleksowe podejście do pracy z danymi – od integracji i ujednolicenia informacji z różnych źródeł, poprzez ich modelowanie (z uwzględnieniem logiki biznesowej), aż po udostępnianie użytkownikom analiz i raportów – wszystko w jednym spójnym, skalowalnym środowisku chmurowym. Co istotne, platforma umożliwia łączenie danych z wielu różnorodnych źródeł – zarówno z systemów SAP (ERP, SCM, BW itp.), jak i zewnętrznych baz danych, hurtowni czy rozwiązań chmurowych innych dostawców – integrując je w jednej przestrzeni. SAP Datasphere pełni przy tym rolę “business data fabric” – łączy funkcjonalności wcześniej dostępne w osobnych narzędziach (integracja danych, hurtownia, katalog danych, modelowanie semantyczne), upraszczając krajobraz systemowy firmy. Użytkownicy otrzymują jedno autorytatywne źródło prawdy o stanie przedsiębiorstwa. Na przykład kierownik produkcji, chcąc porównać wydajność linii produkcyjnej ze sprzedażą i jakością, nie musi już żonglować kilkoma raportami – w SAP Datasphere znajdzie skonsolidowany widok wszystkich tych danych. To oznacza koniec problemów z silosami danych: od hali produkcyjnej, przez magazyny, po finanse – wszystkie kluczowe informacje mogą być dostępne w jednym miejscu i spójnym formacie.

Z kolei Databricks Lakehouse to nowatorskie podejście łączące zalety hurtowni danych i jeziora danych (data lake) na jednej platformie. Umożliwia ono przetwarzanie dużych wolumenów zróżnicowanych danych i równoczesne udostępnianie ich do zaawansowanej analityki, raportowania BI oraz zastosowań AI/ML. Platforma Databricks – uznawana przez analityków za lidera kategorii lakehouse – pozwala unifikować wszystkie obciążenia danych na jednej infrastrukturze, od streamingu i analityki czasu rzeczywistego, przez klasyczne BI, po data science i sztuczną inteligencję. Innymi słowy, stanowi jedno środowisko dla całego cyklu pracy z danymi. To podejście zdobywa szeroką akceptację rynkową – firma Databricks chwali się, że koncepcja Lakehouse stała się już głównym nurtem w świecie analityki danych.

A co z tego wynika dla potencjalnego odbiorcy tych rozwiązań?

Lakehouse i federacja semantyczna, czyli integracja bez kompromisów

Połączenie SAP Datasphere i Databricks jest wyjątkowe, bo łączy dwa kluczowe podejścia: architekturę lakehouse oraz federację semantyczną danych. Pierwsze zapewnia skalowalność i elastyczność analityki, drugie – wspólny język i kontekst biznesowy danych pochodzących z różnych źródeł. Przyjrzyjmy się szczegółom.

Architektura data lakehouse eliminuje tradycyjny podział na osobne silosy “surowego” jeziora danych i „obrobionej” hurtowni danych. Dzięki temu uproszczeniu firmy mogą szybciej tworzyć rozwiązania analityczne – bez czasochłonnego przenoszenia danych między systemami. W kontekście ekosystemu SAP oznacza to, że dane z systemów transakcyjnych mogą płynnie trafić do analiz zaawansowanych: od raportów zarządczych po uczenie maszynowe, na jednej spójnej platformie. SAP i Databricks zapewniają natywną integrację swoich technologii – tak, aby użytkownicy mogli korzystać z danych SAP bez uciążliwych eksportów i ETL, a jednocześnie łączyć je z danymi spoza SAP w swoim lakehouse. Jak podkreśla SAP, klienci Databricks mogą zintegrować swój Lakehouse z systemami SAP w sposób, który pozwala dzielić dane z zachowaniem ich pełnej semantyki (kontekstu biznesowego). Innymi słowy, dane są udostępniane między platformami bez utraty znaczenia – np. pola, hierarchie czy definicje znane z SAP zachowują się spójnie po stronie lakehouse. Technicznie umożliwia to m.in. mechanizm Delta Sharing, zapewniający współdzielenie danych bez fizycznego kopiowania zbiorów (tzw. zero-copy data sharing). W efekcie firmy mogą konwergować dane SAP z innymi źródłami praktycznie w czasie rzeczywistym – unikając dawnych bolączek, jak wielogodzinne batchowe ETL, duplikacja danych czy utrata aktualności informacji.

Równie ważna jest federacja semantyczna, czyli możliwość zachowania wspólnego języka danych w całej organizacji, mimo że dane fizycznie mogą pozostawać w różnych systemach. SAP Datasphere udostępnia bogatą warstwę semantyczną, która pozwala zdefiniować jednolite modele biznesowe i pojęcia dla danych z różnych źródeł. Dane są wzbogacone o opisy biznesowe – jasno zdefiniowane pojęcia, miary i relacje odpowiadające rzeczywistym procesom w firmie. Dzięki temu wszyscy w organizacji mogą – nazwijmy to dość kolokwialnie – „mówić jednym językiem danych”, niezależnie od działu czy systemu źródłowego. Przykładowo, pojęcie „koszt wytworzenia produktu” może być różnie rozumiane przez produkcję, logistykę i finanse (każdy dział mógłby uwzględniać inne składowe kosztów). W podejściu tradycyjnym powstają więc sprzeczne raporty i spory o definicje. Natomiast w SAP Datasphere taki wskaźnik definiuje się raz, centralnie, w Business Glossary, precyzując metodę kalkulacji. I to prawdziwie ułatwia komunikację! Od tego momentu, niezależnie kto i z jakiego systemu sięga po tę informację, otrzyma ten sam wynik zgodny z ustaloną logiką biznesową. Eliminują się więc typowe rozbieżności w raportach, a dyskusje na spotkaniach mogą skupić się na decyzjach biznesowych, zamiast na uzgadnianiu definicji danych. Ta wspólna semantyka działa jak tłumacz między IT a biznesem – zapewnia, że dane finansowe, operacyjne czy sprzedażowe są interpretowane jednakowo przez wszystkich.

Co istotne, SAP Datasphere umożliwia federację danych także pod kątem technicznym. Integracja nie musi oznaczać skopiowania całej hurtowni danych do jeziora czy odwrotnie – możliwe jest podejście wirtualne. Platforma potrafi utworzyć spójny obraz informacji, sięgając do źródeł na bieżąco. Firma może więc korzystać z dotychczasowych inwestycji w bazy danych i systemy, bez konieczności przenoszenia wszystkiego w jedno miejsce. Przykładowo, analityk w SAP Datasphere może zdefiniować model łączący dane z tabel SAP z danymi z Data Lake (Databricks) – nie kopiując ich, a jedynie odwołując się do nich w zapytaniach. Z drugiej strony, użytkownik Databricks może odczytać dane udostępnione przez SAP (np. przez katalog danych), mając pewność, że są one aktualne i opatrzone właściwymi opisami biznesowymi. Taka architektura federacyjna to najlepsze z obu światów – maksymalna otwartość i integracja bez utraty kontroli nad danymi i bez dublowania pracy.

Kluczowe korzyści dla biznesu – bo one są najważniejsze!

zbiory danychIntegracja SAP Datasphere z platformą lakehouse (na przykładzie Databricks) przekłada się na szereg wymiernych korzyści biznesowych, istotnych z perspektywy kadry zarządzającej (CIO, CTO, CFO oraz dyrektorów ds. danych i IT):

  • Likwidacja silosów i pełna integracja danych. Nowy stack eliminuje izolowane wyspy danych. Informacje z systemów transakcyjnych SAP, hurtowni danych oraz nowych źródeł (IoT, CRM, dane zewnętrzne) są dostępne w jednym zintegrowanym ekosystemie. Gartner i IDC podkreślają, że w świecie multi-cloud i multi-vendor to podejście staje się normą – „wszyscy chcą mieć dostęp do danych z SAP”, dlatego niezbędna jest współpraca dostawców technologii i traktowanie danych z różnych źródeł jako „pełnoprawnych obywateli” infrastruktury informacyjnej. SAP podjęło ten kierunek, otwierając swoje środowisko (SAP Business Data Cloud) na partnerów takich jak Databricks. W efekcie organizacja może połączyć wszystkie swoje dane jak nigdy dotąd, zyskując całościowy obraz działalności. Z perspektywy CIO/CTO oznacza to uproszczenie architektury – zamiast utrzymywać wiele osobnych magazynów danych, można budować jednolitą platformę danych. Dla CFO i biznesu to z kolei szansa na koniec sytuacji, gdy każdy dział operuje innymi liczbami. Teraz wszyscy korzystają z jednego repozytorium prawdziwych, uzgodnionych informacji.
  • Jedno źródło prawdy i lepsza jakość raportowania. Dzięki warstwie semantycznej SAP Datasphere cała organizacja operuje na wspólnych definicjach pojęć i wskaźników. Raz zdefiniowana miara (np. wspomniany koszt produktu) jest używana przez wszystkie działy jednakowo, co gwarantuje spójność raportów. Znikają rozbieżności między raportowaniem finansów, operacji czy sprzedaży – każdy raport czerpie z tego samego, centralnego źródła prawdy. To ogromna ulga dla CFO, kontrolerów i wszystkich odpowiedzialnych za raportowanie – koniec debat o to, czyje liczby są „prawdziwe”. Jak obrazowo ujęto, cała organizacja może mówić jednym językiem danych. W praktyce przekłada się to na większe zaufanie do informacji. Pracownicy zamiast kwestionować dane, skupiają się na ich analizie i wspólnym wyciąganiu wniosków. Firmy konsultingowe wdrażające te rozwiązania potwierdzają, że eliminuje to żmudne uzgadnianie danych pomiędzy działami – czas, który wcześniej tracono na porównywanie sprzecznych raportów, teraz jest odzyskiwany na rzecz analizy i działania.
  • Wsparcie zaawansowanej analityki, AI i ML. Połączenie środowiska SAP z platformą lakehouse otwiera drzwi do zaawansowanych zastosowań, takich jak uczenie maszynowe, sztuczna inteligencja, predykcyjne analizy czy nawet generatywna AI. Dane historyczne z SAP (np. transakcje finansowe, logistyka, produkcja) można łatwo zestawić z danymi niestrukturyzowanymi czy strumieniowymi (sensorowe IoT, media społecznościowe, dane pogodowe itp.) w celu znalezienia nowych zależności. Nowy stack zapewnia do tego zarówno narzędzia (np. Databricks dostarcza notebooki data science, biblioteki AI i silnik przetwarzania dużych zbiorów), jak i gotowe integracje z narzędziami AI. Przykładowo, jednym z partnerów ekosystemu jest DataRobot, który umożliwia budowę zautomatyzowanych modeli ML bezpośrednio na danych z SAP Datasphere, w ramach architektury business data fabric. Efekt? Firmy produkcyjne mogą tworzyć modele predykcyjnego utrzymania ruchu łącząc dane z maszyn (IoT) z harmonogramami SAP PM, przedsiębiorstwa handlowe lepiej prognozują popyt łącząc historyczną sprzedaż z danymi pogodowymi, a instytucje finansowe wykrywają nadużycia analizując transakcje SAP obok danych z kanałów online. Co ważne, wszystkie te projekty AI/ML korzystają z pełnego kontekstu biznesowego danych SAP – modele uczą się na danych, które zachowują znaczenie (np. wiedzą czym jest „jednostka biznesowa”, „region sprzedaży” czy „kategoria produktu” według definicji korporacyjnej). To znacząco zwiększa jakość i przydatność wyników. W praktyce obserwujemy, że firmy stosujące to podejście przechodzą od raportowania retrospektywnego do proaktywnej analityki – wspierają decyzje nie tylko opisem tego, co było, ale też przewidywaniem, co się stanie i co robić dalej.
  • Przyspieszenie podejmowania decyzji. W dobie dynamicznych zmian rynkowych zwinność decyzyjna bywa czynnikiem „być albo nie być” firmy. Zintegrowane środowisko danych znacząco skraca czas dotarcia od danych do decyzji. Automatyzacja przepływu danych (często w czasie rzeczywistym) sprawia, że decydenci dysponują aktualnym, holistycznym obrazem sytuacji niemal od ręki – a nie tygodnie po fakcie. Jak powiedział CIO jednej z firm, „SAP Datasphere upraszcza nasz krajobraz danych, dając nam większą pewność co do informacji, z którymi pracujemy każdego dnia. Dzięki temu możemy reagować szybciej na nagłe zmiany popytu i podaży, co przekłada się na lepsze zarządzanie zapasami, poprawę obsługi klienta i optymalizację łańcucha dostaw”. Takie wyniki odnotowała firma Messer Americas po wdrożeniu nowej architektury danych – skrócenie czasu reakcji zaskutkowało wymiernymi usprawnieniami operacyjnymi. Podobnych przykładów jest więcej. Globalny koncern DuPont, łącząc dane produkcyjne (w tym z systemów SAP z 134 fabryk) na platformie lakehouse, zyskał near real-time wgląd w swoje operacje. Kluczowa wartość okazała się nie tylko technologiczna, ale organizacyjna – „umieszczenie danych operacyjnych/SAP w lakehouse pozwoliło nam iterować niemal w czasie rzeczywistym z analitykami operacyjnymi, a przede wszystkim zjednoczyć kluczowe działy – operacje, łańcuch dostaw i finanse – wokół wspólnego zestawu KPI”. Innymi słowy, nowy model danych sprzyja lepszej, kolektywnej decyzyjności. Zarząd nie musi czekać na scalone raporty z różnych departamentów – ma jedno „źródło prawdy” w czasie zbliżonym do rzeczywistego, co umożliwia szybsze i pewniejsze decyzje biznesowe.

Trend potwierdzony przez rynek i partnerów wdrożeniowych

Opisywane podejście nie jest teoretyczną koncepcją, lecz odpowiada na realne trendy rynkowe. Analitycy od dawna zwracają uwagę, że organizacje muszą rozbijać silosy danych i łączyć różne platformy, by w pełni wykorzystać potencjał AI i zaawansowanej analityki. Firma SAP określa swoją wizję jako budowę Business Data Fabric, gdzie dane z systemów biznesowych można swobodnie łączyć z danymi zewnętrznymi w chmurze, z zachowaniem ich biznesowego kontekstu. Krótko mówiąc: otwartość, chmura i integracja semantyczna to fundament strategii danych na kolejne lata w dużych organizacjach.

Co więcej, pierwsze wdrożenia tego zintegrowanego stacku pokazują, że jest on osiągalny w praktyce. Na rynku pojawiają się już dedykowane narzędzia i akceleratory integracyjne – od natywnych konektorów po gotowe modele danych – które przyspieszają łączenie środowisk SAP z platformami lakehouse. Databricks wraz z SAP udostępniły choćby mechanizm zero-copy integration oparty o Delta Sharing, a także specjalną edycję SAP Databricks dostępną w chmurze SAP, co upraszcza stronę techniczną integracji. Kluczową rolę odgrywają tu także partnerzy wdrożeniowi, posiadający doświadczenie zarówno w technologiach SAP, jak i nowoczesnej analityce danych.

Podsumowując: przejście od silosów do jednego źródła prawdy nie jest już tylko wizją, lecz dokonuje się na naszych oczach dzięki kooperacji rozwiązań SAP i platformy Lakehouse. Duże firmy produkcyjne i finansowe, które postawią na ten nowoczesny data stack, zyskują fundament pod podejmowanie decyzji opartych na pełnych, aktualnych danych. Integracja SAP Datasphere z Databricks daje im najlepsze z obu światów – ustrukturyzowany ład i kontekst danych biznesowych połączony z mocą skalowalnej analityki i AI. W rezultacie zarządy mogą działać w oparciu o jednolitą wersję prawdy, a organizacje szybciej przekuwają dane w konkretne decyzje i przewagi rynkowe. To przepis na data-driven enterprise gotowe sprostać wyzwaniom przyszłości. Źródła sygnalizują jasno: kto zintegruje swoje dane i uwolni ich potencjał, ten zyska przewagę – a dzisiejsze technologie sprawiają, że jest to łatwiejsze niż kiedykolwiek wcześniej.

author-avatar

About Paweł Rzekanowski

Menedżer marketingu w branży IT. MBA, absolwent marketingu internetowego w Szkole Głównej Handlowej w Warszawie i automatyzacji marketingu oraz rozwiązań CRM - w tym Salesforce - w Akademii Leona Koźmińskiego w Warszawie. Autor analiz dotyczących SEO, SEM i wdrożeń systemów IT. Head of content w UpTime ERP.