BLOG

Přečtěte si poslední novinky ze světa datových technologií a BI.
Nezapomeňte se přihlásit k jejich odběru na e-mail.

Co přinesla migrace do Snowflake? Škálovatelnost, inovace a nové výzvy | 4

Migrace do Snowflake přinesla našemu klientovi vedle očekávaných benefitů i několik výzev, které si při migraci vyžadují pozornost. Ve čtvrté části se podíváme na novou datovou architekturu, která se vedle Snowflake opírá i o data lake na Azure a orchestrace v Azure data factory a také si přiblížíme všechny aspekty, které se změnily migrací do cloudu.

Velkou změnou v  architektuře oproti té původní je data lake. Data lake je objektové úložiště, které se v  tomto případě nachází v Azure a shromažďuje data ve struktuře složek v jejich původním formátu a skladbě. Data jsou dál transformována až v okamžiku, kdy jsou vybrána pro další zpracování, ať už v datovém skladu či pro data science. 

Proč firma zvolila data lake 

Přináší řadu výhod: 

  • úplnost informací – zatímco transformovaná data z datového skladu pro data science příliš užitečná nejsou, surová data v sobě mohou skrývat řadu užitečných informací i využítí pro feature engineering a data science modely 
  • flexibilita – do data lake se mohou ukládat data v jakémkoliv formátu a později z nich extrahovat to, co je potřeba
  • cenová dostupnost – objektové úložiště je zpravidla levnější než ukládat všechna data rovnou přímo do Snowflake 
  • přístup k datům – data jsou centrálně ukládaná a pokud analytik či data scientist něco potřebuje, tak ví, kde hledat  

Pro nahrávání dat do data lake i spouštění orchestrace firma využila Azure Data Factory. Funguje jako centrální orchestrátor pro řízení datových tasků a je možné ho nastavit v přehledném grafickém rozhraní bez nutnosti kódování. Umožňuje i monitorování všech procesů. 

Srdcem architektury je Snowflake, ve kterém firma staví datový sklad i data science modely a datové aplikace.  

Kromě výhod migrace do cloudu přinesla i nové výzvy, se kterými se firma musela poprat: 

  • nový způsob práce – kvůli přehledu o změnách na produkčním prostředím a pro umožnění efektivní spolupráce mezi datovými inženýry byl Snowflake integrován s Azure DevOps, což vedle změny platformy představovalo další element, na který si datový inženýři ve firmě museli zvyknout a naučit se sním pracovat 
  • monitorování nákladů – je potřeba neomezená škálovatelnost, nikoliv neustálé náklady, a proto práva na vytváření nových výpočetních clusterů vlastní administrátoři a jejich používání automaticky monitorují pomocí nastavených upozornění na spotřebu kreditů 
  • management metadat v data lake – aby se z datového jezera nestala bažina, využívá firma katalog metadat, díky tomu existuje detailní přehled o tom, jaká data, kdy a kam byla do data lake nahrána, tento katalog (jednoduchá tabulka) slouží nejen jako dokumentace, ale především jako řídící tabulka pro nahrávání dat do dat lake. 

Představili jsme si cílovou architekturu i konkrétní výhody, které pomohly řešit problémy, s jakými se na začátku náš klient potýkal.

Sledujte nás, ať Vám neuteče, jak migrace do Snowflake pomohla v jednotlivých odděleních:

KATEGORIE