BLOG

Přečtěte si poslední novinky ze světa datových technologií a BI.
Nezapomeňte se přihlásit k jejich odběru na e-mail.

Kdy je načase migrovat data do cloudu? 5 problémů, které vám napoví | 1

Datoví odborníci mluví o nejnovějších trendech v AI a o cloudových datových platformách, zatímco spousta firem bojuje se zastaralou on-premise datovou infrastrukturou, která brzdí inovace a rozvoj firmy. Jak ale poznáte, že je datová infrastruktura opravdu nevyhovující a je načase adoptovat novou cloudovou datovou platformu? Jaké kroky čekají firmu migrující do cloudu a jaké benefity s tím souvisejí?

Přinášíme vám sérii článků postavených na zkušenosti konkrétní společnosti popisujících celý proces migrace dat do cloudu. V prvním článku se seznámíme s konkrétní firmou, která nás bude celou sérií provádět. Podíváme se, jaká byla její architektura před migrací do cloudu, s jakými datovými problémy se potýkala a jak jí migrace do cloudu pomohla tyto problémy eliminovat. 

V původní datové architektuře firma používala MS SQL Server jako datový sklad a SSIS (SQL Server Integration Services) jako ETL nástroj (extract, transform, load), který nahrával data z primárních systémů a prováděl transformace. V datové architektuře můžeme vidět hned několik nedostatků: 

  • nestrukturovaná data leží ladem, protože je datový sklad neumí zpracovávat, 
  • byznysová logika se do dat vnáší na několika místech – ve vstupních Excelech, datovém skladu i v Tableau extraktech, 
  • Tableau využívá data z více vrstev datové architektury, 
  • data z datového skladu jsou stahována do Excelu a poté načítána do Tableau, 
  • pokusy o data science probíhají na lokálních discích, protože zatím neexistuje žádná lepší infrastruktura, kde modely vyvíjet, zvláště pak deployovat.

Musí ale starší datová architektura nutně znamenat, že je potřeba migrovat do cloudu? Podívejme se především na to, co firmu před migrací trápilo. 

Malý výkon a škálovatelnost 

Datový sklad přepočítává SSIS vždy v noci. Z počátku bývaly noční transformace D-1 dat dokončené v 5 hodin ráno. S růstem firmy i požadavků trvaly transformace čím dál tím déle a byl úspěch, když byla data vůbec k dispozici před 8 hodinou ráno. Pokud nějaká transformace spadla, firma byla přes den bez dat „slepá“. 

Kromě toho chyběl výkon ve špičce, kdy pracovali jak vývojáři, tak i konzumenti dat a server nestíhal zpracovávat požadavky. Pokud by firma chtěla problémy vyřešit škálováním, musela by pořídit další on-premise server, což s sebou nese vysoké kapitálové náklady a kapacita potřebná pro vykrytí špičky by byla po zbytek dne nevyužívaná. 

Datová sila 

Datový sklad neumožňoval efektivní spolupráci, objekty obsahující citlivé informace musely být úplně skryté před většinou uživatelů – nebylo možné je pouze zamaskovat a umožnit jejich bezpečné používání. Kvůli ochraně citlivých dat byl proto datový sklad velmi uzavřený a data nebyla snadno dohledatelná. To vedlo k tomu, že si skupiny stavěly vlastní datová sila – vznikaly exporty z ERP do Excelů, Tableau se napojovalo přímo na transakční databáze primárních systémů a firma se nedokázala shodnout, jaká byla minulý týden marže. 

Bezpečnost dat 

Složité sdílení dat vedlo i k tomu, že exportovaná data byla posílaná nezabezpečenými cestami. Přílišná uzavřenost způsobená nedostatkem bezpečnostních prvků datového skladu vytvářela i úzká hrdla – datové požadavky se hromadily u úzké skupiny lidí, protože byznysoví uživatelé neměli přístup k datům, která potřebovali. 

Nestrukturovaná data ležela ladem 

Ačkoliv byznys hýřil nápady, jak využívat AI a semistrukturovaná a nestrukturovaná data, která má firma k dispozici, datový sklad s nimi pracovat neuměl. Snaha nalézt nový systém speciálně pro tato data naváděla na vytvoření dalšího datového sila. 

Data science bez infrastruktury 

Další silo vznikalo při pokusech o data science, které se odehrávaly v Jupyter notebooks na lokálních discích. To dobře fungovalo pro ad hoc analýzy, firma ale chtěla adoptovat technologii, která umožní trénování pokročilejších modelů, a především pak jejich produkční nasazení a využívání datových aplikací nad nimi. 

Tyto problémy významně komplikovaly každodenní fungování firmy a brzdily její rozvoj a inovace. Po vyhodnocení možností se proto rozhodla pro migraci dat do cloudu.

Příště se podíváme na kritéria, která zvolila pro výběr správné datové platformy a jak ve výběru obstála vybraná technologie. 

KATEGORIE