BLOG

Přečtěte si poslední novinky ze světa datových technologií a BI.
Nezapomeňte se přihlásit k jejich odběru na e-mail.

Jak migrace do cloudu pomohla nastartovat data governance? | 7

Ve firmě, kterou představujeme v naší případové studii, nebyl před migrací žádný tým zaměřený na data governance. Ačkoliv ani v tuto chvíli není pro data governance dedikovaný tým a nebyl zatím implementovaný specializovaný nástroj, migrace do Snowflake poskytla příležitost položit dobré základy pro data governance. 

Jeden zdroj pravdy a datová kvalita 

Centralizace byznysové logiky ve Snowflake přispívá k tomu, aby nevznikalo více variant jedné metriky, a aby techničtí i byznysoví uživatelé dobře rozuměli definicím. Datový model je dokumentovaný a všechny důležité sloupce jsou opatřeny popisky přímo ve Snowflake. 

Data jsou při vstupu do Snowflake rovnou testována a nemůže se tak stát, že by byly v produkčních datech duplicitní řádky či nulové hodnoty tam, kde být nemají. 

Metadata 

Mocným zdrojem pro data governance jsou metadata, tedy data o datech. Procesy jsou nastavené tak, aby generovaly kvalitní metadata a metadaty jsou i řízeny – např. tak, že nápočet je spuštěn v okamžiku, kdy byla potřebná vstupní data nahrána.  

I pro samotné stahování dat do data lake jsme navrhli proces řízený datovým katalogem, podle kterého pracovníci ví, jaké datové zdroje do data lake nahrávat, v  jaké periodicitě, jaká jsou specifika jejich nahrávání a kam je chtějí ukládat. Do stejného datového katalogu pak ukládají metadata o tom, kdy byla data úspěšně nahrána. Firma tak má přesný přehled o tom, co je na data lake k dispozici. 

Datová lineage 

Datová lineage jim umožňuje zkoumat, odkud a kam data putují a jakými při tom procházejí transformacemi. Snowflake poskytuje views ACCESS_HISTORY a ACCOUNT_USAGE, díky kterým je možné objevovat lineage na úrovni sloupců, případně je lze využít i ke kontrole toho, kdo přistupuje k citlivým datům. 

Řízení přístupů  

Snowflake používají různé persony od datových inženýrů přes analytiky až po datové vědce (data scientist) a byznysové uživatele. Připojují se k němu navíc i servisní uživatelé, jako Azure Data Factory a Tableau. Každá skupina uživatelů má nastavené přístupy ke stejným datům tak, aby viděla a mohla používat vše, co je pro ni užitečné, ale zároveň nemohla vidět citlivá data či něco omylem změnit nebo dokonce vymazat. 

K tomu slouží hierarchicky nastavené role, kterým se udělují privilegia k jednotlivým objektů.  

Dynamické maskování a ochrana citlivých informací 

Právě díky chytrému nastavení rolí umožňuje využívat dynamické maskování a zajistit, že i uživatelé s jinými oprávněními přistupují ke stejným datům – není třeba vytvářet oddělené objekty bez citlivých dat a s nimi. Stačí citlivá data označit pomocí tagů a tagu přidělit tzv. masking policy. V  té je určeno, která role může citlivá data číst. Snowflake pak sám ukazuje data maskovaná či nemaskovaná podle toho, s  jakou rolí k nim uživatel přistupuje. 

Dynamické maskování spolu s přehledným a popsaným datovým modelem a katalogem zajišťuje, že uživatelé dokážou snadno dohledávat data, která potřebují, případně zjistit, že v modelu nejsou a je potřeba je doplnit z data lake. Firma tak zajišťuje, že nevzniká potřeba pro budování oddělených datových sil, protože uživatelé mají přehled o všech datech a dokážou je dohledat a opětovně použít. 

Co Vás ještě čeká?

Jak migrace do cloudu pomohla:

  • byznysu.

KATEGORIE