BLOG

Přečtěte si poslední novinky ze světa datových technologií a BI.
Nezapomeňte se přihlásit k jejich odběru na e-mail.

Data laky, zpracování dat & příklad implementace datového cloudu | část druhá

Co je Data Lake

Data lake je centralizované úložiště, které je schopné uchovávat velké množství dat v nezpracovaných formátech. Kvůli nižším nákladům spojeným s cloud computingem začalo mnoho organizací využívat data laky jako centralizované úložiště a/nebo pro jiný typ analytiky, např. business intelligence, zpracování big dat, analýzu dat v reálném čase a strojové učení.

Podle výzkumu společnosti Aberdeen společnosti, které nasadily data laky uvedly dvakrát vyšší spokojenost uživatelů v ukazatelích, jako je kvalita dat a včasnost, než ty, které data laky nenasadily.

V čem se liší data laky od datových skladů?

Data laky byly vytvořeny kvůli omezením datových skladů. Přestože datové sklady umožňují organizacím provádět analýzu dat na strukturovaných a upravených datech, jsou většinou neefektivní při ukládání big dat, která se dnes produkují ve velké míře, a nejsou schopny uspokojit potřeby dnešních organizací z pohledu analýz.

Celkově existují čtyři hlavní rozdíly mezi data laky a datovými sklady.

1. Data

Jelikož datové sklady zohledňují obchodní procesy a potřeby, je datový model udržován co nejjednodušší. Data klíčová pro analýzu uchovává pouze ve vysoce strukturovaném a zpracovaném formátu. Narozdíl od toho data laky uchovávají všechna data po celou dobu pro případ, že by data mohla být použita v budoucnu nebo pokud je potřeba časová analýza.

2. Schéma

Většina schémat datového skladu je navržena před jeho implementací a může podporovat pouze data ve strukturovaném formátu. Tento proces je známý jako „schema-on-Write“. Z tohoto důvodu jsou netradiční zdroje dat, jako protokoly webového serveru, data senzorů, aktivita na sociálních sítích, text a obrázky, většinou ignorovány. Na druhou stranu data laky byly vytvořeny speciálně pro ukládání takových dat. Bez ohledu na zdroj nebo strukturu dat uchovávají data v jejich původní podobě a pouze je transformují v době analýzy. Toto je známé jako proces „schema-on-Read“.

3. Uživatelé
Datové sklady jsou strukturovány a vytvořeny pro specifické účely nebo funkce, je tedy obvykle mnohem jednodušší je používat a pochopit. Datové sklady jsou nejvhodnější pro business uživatele, kteří vyžadují denní reporty, monitorují KPI nebo pravidelně pracují se stejnou sadou dat. Tito uživatelé obvykle nemají mnoho času ani odborných znalostí na to, aby sami připravili nebo transformovali data.
 

Pro technické uživatele (např. data scientisty), kteří mohou chtít provést hlubší analýzu nebo najít odpovědi na nové otázky, jsou data poskytovaná datovými sklady často nedostatečná. Tito uživatelé tedy obvykle preferují data laky. Ty umožňují uživatelům prozkoumávat a využívat větší a rozmanitější datové sady, avšak příprava a transformace dat pro analýzu vyžaduje více práce a technického porozumění.

4. Adaptabilita
V dnešním uspěchaném světe, kde je rychlost analýzy klíčová, se datové sklady často nedokážou dostatečně rychle přizpůsobit, protože změny struktur vyžadují čas i vývojářské zdroje. Jakékoli změny provedené ve strukturách datových skladů by navíc mohly potenciálně ovlivnit nebo narušit následné analytické procesy, které závisí na tom, že data jsou ve specifické struktuře.

Naopak data z data laků jsou relativně nezpracovaná, jsou vždy přístupná a tvárná. Pokud se prokáže, že výsledek průzkumu nebo analýzy dat v data laku je užitečný, lze použít formálnější schéma, které transformuje soubor dat do datového skladu, což umožňuje automatizaci a opětovné použití pro větší publikum.

Výzvy data laků

Zatímco možnost ukládat strukturovaná a nestrukturovaná data v jejich nezpracovaném formátu je nepochybně jednou z hlavních výhod data laků, jednou z hlavních výzev údržby data laku je správa způsobu ukládání těchto nezpracovaných dat.

Bez řádné organizace, řízení metadat a správy dat může být obtížnější data najít a z data laku se stane spíše datová bažina. Jak přibývá postupem času do této bažiny stále více dat, stávají se irelevantními, zastaralými nebo dokonce chybnými. Pokud tedy nebudou implementována žádná nápravná opatření nebo přísné kontroly, stane se datová bažina nepoužitelnou, což organizacím způsobí pouze náklady.

Datová integrace: ETL vs ELT

Typický proces integrace dat se skládá z následujících tří kroků:

  • Extract (E): Vytažení dat ze zdroje.
  • Transform (T): Úprava struktury dat do správného formátu.
  • Load (L): Uložení dat do úložiště.

Dvě nejběžnější metody integrace dat jsou procesy ETL (Extract, Transform, Load) a ELT (Extract, Load, Transform).

V minulosti, kdy neexistovaly žádné data laky nebo cloudové datové sklady, které by měly schopnost transformovat data, bylo ETL jedinou cestou. U ETL jsou data nejprve extrahována z více zdrojů do dočasné stage vrstvy, kde jsou před načtením do úložiště vyčištěna a transformována. Protože datové sklady musely pracovat s relačními datovými strukturami založenými na SQL, musela být všechna data, která měla být načtena, transformována do relačního formátu, než je datový sklad mohl zpracovat.

S ETL jsou data uložená v úložišti již ve správném formátu pro analýzu, což umožňuje mnohem rychlejší proces analýzy dat. Navíc, protože proces ETL transformuje data před načtením, žádná nezpracovaná data se nepřenášejí přímo do úložiště. To zajišťuje, že se citlivá data nedostanou do úložiště nebo dokonce do analytických zpráv dále, což organizacím umožňuje lépe dodržovat zákony na ochranu soukromí, jako je GDPR, HIPAA nebo CCPA.

Na druhou stranu je ELT relativně nedávná technologie, kterou umožnily cloudové datové sklady nabízející téměř neomezené možnosti úložiště a škálovatelný výpočetní výkon. U ELT jsou data nejprve přijata do úložiště, než jsou transformována v data laky nebo samotném datovém skladu.

Protože data jsou uložena relativně nezpracovaná, proces ELT poskytuje organizacím flexibilitu transformovat a analyzovat data jakýmkoli způsobem v závislosti na analytických potřebách. Díky ELT procesu mohou organizace přijímat téměř každý typ nezpracovaných dat, ať už nestrukturovaných nebo strukturovaných, jakmile jsou k dispozici. Tato data pak umožňují hlubší a/nebo nestrukturovanou analýzu, jakou je strojové učení.

ELT nabízí mnohem rychlejší proces integrace dat, protože data ke zpracování nemusí být odesílána na sekundární server. Uchovávání dat v jejich nezpracované podobě také umožňuje organizaci vytvářet bohaté historické úložiště, které lze transformovat a používat, i když se cíle a strategie v průběhu času mění. Přestože lze ETL stále používat pro data, která vyžadují transformace před vstupem do úložiště, většina data laků využívá proces ELT především pro jeho flexibilitu, efektivitu a škálovatelnost.

Integrace dat: Dávkové zpracování vs. Streamové zpracování

Při určování frekvence a objemu přijímaných dat existují dva primární způsoby jejich zpracování – dávkové a streamové (proudové).

Dávkové zpracování

U modelu dávkového zpracování se data shromažďují v průběhu času předtím, než jsou vložena do data laku nebo do datového skladu. Dávkové zpracování se většinou používá při práci s velkým množstvím dat, nebo když zdroje dat nepodporují doručování dat v tocích. Dávkové zpracování je také ideální, když je důležitější zpracovávat velký objem dat s jejich hlubší analýzou než provádět rychlou analýzu. Některé příklady případů použití dávkového zpracování zahrnují zpracování mezd, fakturace a objednávek.

Streamové zpracování

U modelu streamování jsou data dodávána do data laků nebo datových skladů po částech, jakmile jsou k dispozici. I když je zpracování streamů nákladnější, je ideální pro organizace vyžadující analýzy v reálném čase. Díky tomu mohou organizace odhalit problémy nebo nové poznatky téměř okamžitě, což jim umožní rychlou reakci. Některé příklady případů použití zpracování toku zahrnují detekci podvodů, analýzu chování zákazníků a analýzu sentimentu.

Stručně řečeno, dávkové i proudové zpracování nabízí jedinečné výhody i nevýhody založené na individuálních případech použití. Streamové zpracování je vhodné pro organizace, které potřebují zůstat agilní a rychle získávat přehled z big dat, zatímco dávkové zpracování se používá při práci s obrovským množstvím dat. Mnoho poskytovatelů data laků tedy často nabízí obě služby zpracování, což organizacím umožňuje používat při integraci dat buď dávkový, proudový nebo dokonce hybridní přístup.

Datový cloud Snowflake

Co říci závěrem naší dvoudílné série o modelování a zpracování dat.

Snowflake Data Cloud je jedním z nejlepších způsobů, jak vybudovat cloudový data lake a/nebo implementovat datový sklad.

Snowflake Data Cloud je plně řízená cloudová platforma MPP (Massively Parallel Processing), která podporuje více datových činností, od datových skladů a data laků po data engineering, data science a vývoj datových aplikací.

Oddělením úložišť a služeb, které mají být prováděny na vlastních výpočetních clusterech, eliminuje Snowflake problémy s paralelním zpracováním úloh, kterým čelí tradiční místní data laky/sklady, a umožňuje běžet více procesů současně bez soupeření o zdroje. Místo provozování vlastního cloudu je Snowflake k dispozici na AWS, Azure a GCP. Díky společné a zaměnitelné kódové základně umožňuje funkce globální replikace dat Snowflake uživatelům snadno přesouvat data do jakéhokoli cloudu v jakémkoliv regionu.

Kromě toho architektura Snowflake také umožňuje ukládání nejen strukturovaných dat, ale dokonce i některých polostrukturovaných dat, což eliminuje potřebu tzv. datových pipelines pro extrakci dat.

Data z interní databáze organizace a externích zdrojů, která zahrnují strukturovaná, polostrukturovaná nebo dokonce nestrukturovaná data, mohou být v tomto příkladu:

  1. uložená v data laku před transformací a přenesením do Snowflake Data Cloud prostřednictvím procesu ELT nebo,
  2. načtena přímo do Snowflake Data Cloud prostřednictvím procesu ETL.

 

S ETL jsou data nejprve extrahována v dočasné stage vrstvě, než jsou transformována a načtena do Snowflake Data Cloud a připravena k analýze. Mezi špičkové ETL/ELT pipeline nástroje, které zjednodušují zpracování dat, patří Alteryx a Matillion.

S ELT se data místo transformace před jejich načtením do Snowflake Data Cloud nejprve dostanou do cloudového data laku prostřednictvím služeb od poskytovatelů cloudu (např. AWS Lake Formation, Azure Synapse Analytics a Data Flow od Googlu) nebo externími ELT nástroji.

V terminologii Snowflake pak bude data lake známé jako externí stage (vrstva) odkazující na místo používané k ukládání dat, která mají být načtena do databáze Snowflake. Možnosti transformace dat ve Snowflake by pak byly využity k transformaci dat jakýmkoliv nezbytným způsobem před jejich načtením do datového cloudu.

U obou procesů lze data také načíst do Snowflake Data Cloud buď prostřednictvím dávkového a/nebo streamového zpracování. Pro dávkové zpracování lze hromadné načítání dat do tabulek Snowflake provést pomocí příkazu COPY INTO. Pro zpracování streamů se služba Snowflake pro nepřetržité přijímání dat, SnowPipe, používá k načítání dat, jakmile jsou k dispozici, buď pomocí oznámení o událostech z cloudového úložiště nebo vyvoláním veřejného koncového bodu REST.

A konečně, data jsou nyní připravena k integraci do front-end nástrojů a interakci s uživateli. To zahrnuje nástroje pro vytváření reportů, dotazů, analýzy nebo dolování dat. V tomto příkladu není potřeba vytvářet samostatné data marty. Inovativní datová architektura Snowflake zajišťuje, že může podporovat neomezené množství dat a uživatelů, čímž předchází problémům s pomalým nebo přetíženým datovým skladem, které vyžadují vytvoření dalších data martů.

Přesuňte svoji analytiku do cloudu!

Ve stále více konkurenčním a rychle se měnícím prostředí ve všech odvětvích musí být společnosti agilní, flexibilní a pohotové. Získání rychlejších, dostupnějších a škálovatelnějších analýz je nyní pro mnoho z nich nutností.

V Billigence  máme potřebné technické znalosti, oborové zkušenosti a referenční projekty, abychom vám pomohli vaši analýzu posunout na další úroveň. Pokud hledáte partnera pro urychlení vašeho přechodu na cloudové datové sklady a data laky nebo máte zájem o informace týkající se různých nástrojů a řešení, kontaktujte nás.

Čtěte také

KATEGORIE