BLOG

Přečtěte si poslední novinky ze světa datových technologií a BI.
Nezapomeňte se přihlásit k jejich odběru na e-mail.

Migrace dat do cloudu. Proč zvolit právě Snowflake? | 2

Pokud se rozhodnete pro migraci do cloudu, zůstává klíčovou otázkou, jak vybrat ideální cloudovou datovou platformu. Jak správně definovat oblasti a kritéria, ve kterých by měla tato platforma obstát? Přečtěte si, které faktory byly pro naši firmu rozhodující a z jakého důvodu zvolila právě Snowflake.

V minulém článku z naší série o migraci dat do cloudu firma dospěla k rozhodnutí, že právě migrace do cloudu je správnou cestou vpřed.  

Od cloudu očekávala řešení následujících problémů:  

  • malý výkon a škálovatelnost 
  • datová sila 
  • bezpečnost dat 
  • nevyužitá nestrukturovaná data 
  • chybějící infrastruktura pro data science.  

Společně jsme stanovili kritéria v oblastech, které byly pro firmu při výběru platformy důležité, a ve kterých musela vybraná technologie obstát: 

  • výkon a škálovatelnost 
  • integrace  
  • data governance 
  • podpora pro inovativní workflows (data science, real time zpracování dat, datové aplikace) 
  • pricing.

Nyní se podíváme na to, jak se s těmito problémy vypořádala vítězná – tedy vybraná technologie, kterou byl Snowflake

Výkon a škálovatelnost 

Snowflake není jen datový sklad, je to revoluční cloudová platforma, která je flexibilnější, škálovatelnější a snadněji ovladatelnější než jakékoliv jiné řešení na trhu.  

Architektura Snowflake je postavená na odděleném úložišti dat a výpočetních clusterů. Nad to Snowflake staví ještě vrstvu cloudových služeb (cloud services layer). 

Všichni uživatelé tak pracují nad stejnými daty a využívají k tomu škálovatelné výpočetní clustery. Na každý úkol je možné použít takový cluster, jaký je zrovna potřeba, díky čemuž se zdroji neplýtvá, ani jich není nedostatek.  

Existují 3 způsoby, jak výpočetní clustery škálovat: 

  1. Použití více clusterů– např. pro reporting, analytiky, ETL procesy. 
    Skupiny uživatelů tak mezi sebou nebojují o zdroje.
  2. Volba většího clusteru – od velikosti XS až po 6XL. 
    Větší cluster je vhodnější tam, kde zpracovává náročné operace nad velkým množstvím dat.
  3. Možnost automatické škálování 
    V době větší poptávky se ke clusteru automaticky přidá další ve stejné velikosti. 

Obrázek 1: Zdroj Snowflake 

Integrace 

Snowflake pro datové úložiště využívá vždy jednoho z velkých cloudových poskytovatelů – Azure, Amazon Web Services (AWS) nebo Google Cloud Platform (GCP). 

Protože náš klient již využívá služeb od Microsoftu, Azure je pro něj jasná volba. Zároveň se pak nabízí využít Azure Data Factory jako nástroj pro nahrání dat do Snowflake a orchestraci.  

Pro integraci nestrukturovaných a semi-strukturovaných dat i jako základ pro budoucí data science iniciativy se nabízí vytvořit na Azure data lake. Data z něj se dají jednoduše procházet ve Snowflake přes externí tabulky, ze kterých pak nahrajeme a dál zpracováváme jen ta data, která zrovna potřebujeme. To šetří náklady na úložiště i výpočetní clustery. 

Data Governance 

Snowflake umožňuje flexibilní nastavení rolí tak, aby skupiny uživatelů měly vždy správná oprávnění. Vytváří se role, kterým se dávájí privilegia. Role jsou potom udělovány konkrétním uživatelům. Mohou být uspořádány do hierarchií, což přináší flexibilitu i přehlednost

Co ale s citlivými daty? Není nutné schovávat celé tabulky, protože díky dynamickému maskování je možné zajistit, že např. finanční manažer uvidí data včetně platů zaměstnanců, ale analytik s jinou rolí uvidí sloupec zamaskovaný. Tabulku a její maskovaná i nemaskovaná pole však může analytik používat a nedochází tak ke zbytečnému kopírování dat a vytváření datových sil. 

Skrýt se nemusí jen sloupce, ale je možné zabezpečit i řádky – např. tak, že v tabulce společné pro více zemí uvidí každý pracovník pouze tu svoji. 

Pro pohodlnější management citlivých dat a maskování se používají tagy – Snowflake může s detekcí citlivých dat dokonce i sám pomoci. 

Inovativní workflows 

Firma chce postoupit na vyšší úroveň datové maturity a po postavení dobrých základů realizovat i projekty v data science. 

Snowflake nabízí funkcionalitu zvanou Snowpark, která je zaměřena právě na podporu non-SQL workflows, jako je například data science (datová věda) a machine learning (strojové učení). Snowpark používá známou Python syntaxi a data science se díky němu odehrává přímo v bezpečném prostředí Snowflake, bez nutnosti data kopírovat. Nová funkce Model Registry navíc umožňuje ukládání, řízení a dokumentaci ML modelů. 

K využití plného potenciálu data science a ML modelů přispívají i nativní datové aplikace Streamlit, které umožňují i netechnickým uživatelům s modely komunikovat pomocí business-friendly uživatelského rozhraní. Je možné je navíc využít pro vizualizace dat a obecně zpřístupnění dat netechnickým lidem přímo u zdroje. 

A až se bude firma chtít pustit do real-time zpracování dat, může využít nativní funkcionality Snowpipe Streaming. 

Uživatelská přívětivost 

Protože jsou ve firmě uživatelé na různé technické úrovni, uživatelská přívětivost ve vybrané datové platformě je pro ni extrémně důležitá. Snowflake je známý tím, že ačkoliv je technologicky velmi pokročilý a je možné ho ovládat programaticky přes SnowSQL, má i přívětivé a intuitivní webové uživatelské rozhraní, ve kterém se analytici snadno zorientují.  

Pro byznysové uživatele je navíc možné připravit již zmíněné Streamlit aplikace, díky kterým dokážou jednoduše komunikovat s machine learning modely i vytvářet strukturované manuální vstupy. 

Cena 

Cena Snowflake závisí především na spotřebě, nikdy se tedy nemusí platit za výpočetní clustery, který není potřebný. Důležité je jejich správné nastavení a design transformací

Po zhodnocení těchto kritérií u všech platforem se firma rozhodla, že je pro ni Snowflake nejlepší volbou. Nejsnáze si poradí s datovými sily, podporuje různé druhy úkolů a use casů, má zabudované nejmodernější data governance funkcionality a zároveň je platforma uživatelsky velmi přívětivá. 

Snowflake navíc dobře zapadne do ekosystému firmy díky integraci s Microsoft Azure a umožní začít zpracovávat i nestrukturovaná a semi-strukturovaná data. To vše na jedné dobře zabezpečené platformě s neomezenou škálovatelností. 

V následujícím článku si řekneme, jak přistoupit k samotnému procesu migrace a jakou strategii firma zvolila. 

Pro více informací o technologii Snowflake nás neváhejte kontaktovat. 

KATEGORIE