BLOG

Přečtěte si poslední novinky ze světa datových technologií a BI.
Nezapomeňte se přihlásit k jejich odběru na e-mail.

Big Data & Data Warehouses | část první

V tomto dvoudílném blogovém příspěvku se zaměříme na datové modelování a koncepty využívání dat, které mohou pomoci organizacím těžit ze síly big data. V první části představíme, co to big data jsou, jak se ukládají a uvedeme příklady možných datových skladů.
Ve druhé části se podíváme na data laky, vysvětlíme, jak se liší od datových skladů a jak jsou do nich data načítána. Na závěr ukážeme implementaci hybridního cloudového data laku / datového skladu.

Vznik Big Data

Big data představují velké množství dat, která nelze uložit, zpracovat nebo analyzovat pomocí tradičních metod. Celkově lze big data charakterizovat třemi “V”:

• Objem (Volume): obrovské množství produkovaných dat,
• Rychlost (Velocity): rychlost, kterou jsou data vytvářena,
• Rozmanitost (Variety): různé typy vytvářených datových formátů.

Podle bývalého výkonného předsedy společnosti Google Erica Schmidta lidstvo produkuje každé dva dny stejné množství dat, jaké bylo vytvořeno od počátku civilizace až do roku 2013. I když koncept big data existuje již od 60. let 20. století, prošel během let obrovským vývojem.

V dnešní době mají zásadní dopad na big data mobilní technologie a zařízení napojená na internet, protože v každém okamžiku generují obrovské množství dat a v různých formátech. Vznik cloud computingu v roce 2000 výrazně snížil náklady na jejich ukládání a umožnil organizacím ukládat téměř neomezené množství nezpracovaných dat ve svých cloudových data lakes nebo datových skladech. Zrodily se nové techniky integrace dat, jako je ELT, které organizacím pomohly objevit skutečnou analytickou sílu big dat. To jim umožňuje rychleji a lépe se rozhodovat, rychle reagovat na změny na trhu a poskytovat zákazníkům to, co chtějí a kdy to chtějí.

Jak jsou big data ukládána?

Ve většině organizací jsou data ukládána do data laků, datových skladů nebo data martů.

Data Lakes

Data lakes obsahují data v převážně nezpracovaných formách přímo ze zdrojového systému. Díky možnosti snižování nákladů na uložiště, což je jednou z výhod cloud computingu, začíná většina organizací využívat data laky jako centrální úložiště. Tato data je obvykle nutné dále transformovat pro účely business intelligence nebo strojového učení.

Data Warehouses

Datové sklady jsou určeny především pro datovou analýzu. Obvykle obsahují data z více zdrojů ve strukturované nebo vyčištěné podobě, což umožňuje business uživatelům provádět analýzy, na jejichž základě se pak rozhodují. Datové sklady jsou jako takové obvykle organizovány ve formátu, který lze snadno pochopit a bezproblémově integrovat s nástroji business intelligence. Datové sklady mohou také uchovávat data transformovaná a nebo přicházející z data laků.

Data Marts

Dalším typem úložiště je data mart. Stejně jako datové sklady i data mart ukládá vyčištěná data, která jsou zpracována a připravena k analýze. Rozdíl je však v tom, že data marty uchovávají pouze data, která jsou určena pro konkrétní účel, tedy konkrétní zadání nebo obchodní jednotku. Umožňují uživatelům rychlý přístup k již zpracovaným datům bez nutnosti probírat obrovské množství irelevantních informací. Snižují také riziko zneužití dat, protože obsahují pouze nezbytná data. Data marty lze vytvářet přístupem shora dolů, kde jsou data před filtrováním pro konkrétní použití uložena na centralizovaném místě v datovém skladu nebo je možné je vytvářet nezávisle, tedy čerpat a zpracovávat data z více zdrojů dat.

Přestože se data laky, datové sklady i data marty používají k ukládání big dat, jsou všechny tři odlišné a využívají se k různým účelům. V závislosti na potřebách společnosti může být kterýkoli z těchto typů úložišť nebo jejich kombinace přínosný při zefektivnění neustále rostoucího množství dat, které společnost má, a poskytnout tak výhodu v dlouhodobém horizontu

Jak se datové sklady liší od tradičních systémů?

Datové sklady fungují jako jediné úložiště strukturovaných informací. Jakmile jsou data přidána do skladu, neměla by být měněna ani upravována. Tak je možné dosáhnout jediného zdroje pravdy, zdroje, který je bezpečný, důvěryhodný a snadno se spravuje. V dnešní době mají datové sklady při práci s big daty několik klíčových výhod oproti tradičním systémům ukládání dat, jako jsou soubory Microsoft Excel ukládající data na sdíleném disku. Patří mezi ně zlepšení efektivity, kvality dat, business intelligence a bezpečnosti.

Díky tomu, že jsou data z více zdrojů standardizována a uložena na jednom místě, jsou všechna snadno dostupná ve správném formátu. To zvyšuje efektivitu organizací, protože business uživatelé sami mohou rychle provádět datové dotazy, a to jen s malou nebo žádnou podporou technického oddělení.

Uložením dat ve správném formátu zlepšují datové sklady také jejich kvalitu tím, že organizacím umožňují snadno identifikovat a vyřešit duplicitní, neúplná nebo dokonce nesprávná data.

Dochází pak k celkovému zlepšení business intelligence, protože organizace mohou snadno získávat a konsolidovat data z jakéhokoli zdroje, místo toho, aby se spoléhaly pouze na omezená data z jednoho zdroje nebo musely odkazovat napříč na různé zdroje dat. Vzhledem k tomu, že data jsou standardizovaná, výsledky získané z dat jsou konzistentní přes všechna oddělení a poskytují jediný zdroj pravdy a pevný základ pro rozhodování.

A konečně, konsolidací všech datových zdrojů v jediném úložišti s vylepšenými funkcemi zabezpečení, datové sklady výrazně zvyšují zabezpečení dat. To zahrnuje funkce, jako je šifrování dat, které chrání citlivá data, a řízení přístupu na základě rolí dle oprávnění a zajišťující, že uživatelé získají přístup pouze k nezbytným datům.

Data Warehouse modelování a schéma

V datovém skladu je schéma logickým popisem celé databáze, včetně toho, jak jsou datové tabulky strukturovány a jak spolu souvisí. Na rozdíl od databází, které používají relační modely, datové sklady používají dimenzionální modelování, které je optimalizováno pro efektivní a všestranné získávání dat. Například v dimenzionálním modelování se místo toho, aby se datum zadávalo jako jeden řádek do tabulky dat, zadává každý aspekt (např. den, měsíc, čtvrtletí, rok) samostatně, což umožňuje rychlé vyhledání datových informací a flexibilnější analýzy.

Dimenzionální modelování zahrnuje tabulky faktů a dimenzí. Tabulky faktů představují data, která chceme analyzovat, zatímco tabulky dimenzí dekódují a dávají význam atributům v tabulkách faktů. Například tabulka faktů může obsahovat nákupy uskutečněné v obchodě, včetně toho, co bylo zakoupeno, kdo to koupil a zaměstnance, který prodej provedl. To by pak bylo doplněno o tabulky údajů pro položku, zákazníka a zaměstnance poskytující další informace, jako je jméno, adresa, věk zákazníka a zaměstnance.

Dvě z nejpopulárnějších schémat v datových skladech jsou schémata Star a Snowflake.

Schéma Star

Schéma Star se skládá z jediné tabulky faktů, která je propojena s více tabulkami dimenzí, jež jsou záměrně denormalizovány (tj. mají redundantní kopie dat nebo seskupují data pro zlepšení výkonu čtení databáze). Tabulka faktů je propojena prostřednictvím vztahu cizího klíče s primárním klíčem každé tabulky dimenzí. Vzhledem k tomu, že tabulka faktů přímo souvisí s každou tabulkou dimenzí, je dotazování na data uložená pomocí schématu Star jednodušší a rychlejší ve srovnání s normalizovanou (neredundantní / neopakující se) databází. V důsledku denormalizace tabulek dimenzí však schéma Star čelí problému s redundancí, kde se nepřetržitě opakuje více hodnot. To zvyšuje potřebný úložný prostor a riziko problémů s integritou dat.

Schéma Snowflake

Další možností pro schéma datového skladu je schéma Snowflake. Je vyvinuté na základě schématu Star, z něhož normalizuje všechny tabulky dimenzí v procesu známém jako „snowflaking“. Díky tomu mohou mít tabulky dimenzí ve schématech Snowflake své vlastní tabulky dimenzí a mohou nebo nemusí být přímo připojeny k tabulce faktů. To odstraňuje redundanci dat, snižuje požadavky na úložný prostor a problémy s integritou dat, kterým čelí schéma Star. Na druhé straně však také snižuje některé výhody, které schéma Star nabízí, včetně efektivity dotazů a získávání dat.
Celkově schéma Star i schéma Snowflake výrazně zlepšují rychlost a snadnost analýzy dat ve srovnání s tradičními relačními modely. I když existují kompromisy mezi těmito dvěma schématy, výběr schématu, které se má použít, nakonec závisí na individuálním případu použití.

Galaxy & Starflake schéma

Je možné použít i kombinaci těchto dvou schémat. Některé příklady zahrnují schéma Galaxy a Snowflake. Schéma Galaxy obsahuje více tabulek faktů, které sdílejí některé tabulky dimenzí, čímž se snižuje celková velikost databáze. Proti tomu schéma Starflake kombinuje schéma Star a Snowflake pouze normalizací určitých tabulek dimenzí, čímž se dosáhne toho nejlepšího z obou přístupů.

Data Vault model

Vzhledem k vývoji big dat, která jsou stále více nestrukturovanější a provázené neustálými změnami, začíná nabývat na popularitě metoda databázového modelování zvaná Data Vault, která byla poprvé představena v roce 2000. Data Vault je hybridní metodologie datového modelování, která kombinuje nestrukturovanou povahu data laků s rigiditou obvyklých schémat datových skladů. V modelu Data Vault jsou dimenze a tabulky faktů nahrazeny huby, satelity a odkazy. Tam, kde struktury datového modelu tvoří huby a odkazy, podobně jako tabulky dimenzí a faktů v tradičním schématu datového skladu, obsahují satelity časové a popisné atributy včetně metadat, která poskytují výkonnou detailní analýzu a možnost sledování historie.

On-premises datové sklady vs. Data Clouds 

Při vývoji datového skladu je dalším klíčovým rozhodnutím, zda nasadit datový sklad on-premise nebo v cloudu. Pro on-premise datové sklady musí organizace zakoupit, nastavit a udržovat veškerý hardware a software. Naopak pro data cloud není třeba žádný fyzický hardware. Místo toho se organizace mohou v případě úložného prostoru a výpočetního výkonu spolehnout na poskytovatele cloudu. Při výběru varianty datového skladu je třeba zvážit pět hlavních faktorů.

1. Škálovatelnost

U on-premise datových skladů vyžaduje rozšiřování a snižování škálování čas i prostředky k instalaci nebo odinstalaci fyzické infrastruktury. On-premise datové sklady nemohou pojmout množství aktivit, které potřebují více výpočetní kapacity nebo paměti, a proto společnosti často a zbytečně dimenzují své systémy na nejvyšší možné využití, které je ve skutečnosti třeba pouze na krátkou dobu. To má za následek neefektivitu a obrovské náklady, pokud není nějak řízeno.

U datových cloudů existuje prakticky nekonečná škálovatelnost, přičemž rozšiřování a snižování škálování je stejně jednoduché jako změna úrovní předplatného. Obvykle také není potřeba provádět žádné změny konfigurace při těchto úpravách.

2. Náklady

U on-premise datových skladů jsou nutné obrovské kapitálové výdaje (CapEx), protože organizace musí zakoupit fyzický hardware a software. Náklady na zřízení on-premise datového skladu se stávají aktivem v rozvaze organizace a jsou po určitou dobu odepisovány. Organizace také musí nést náklady na veškeré nezbytné softwarové licence, údržbu a bezpečnost.

Náklady u datového cloudu vycházejí z jednoduché strategie – buď z potřeby využívání nebo z provozních nákladů (OpEx). Na základě této strategie organizace platí pouze za úložiště a výpočetní techniku, kterou potřebují, a tyto platby se zaznamenávají do výkazu zisků a ztrát za dané období namísto do rozvahy. Poskytovatel cloudu také zajišťuje veškerou průběžnou údržbu, správu a aktualizace.

3. Výkon

Výkon datového skladu ovlivňuje více faktorů, ale za předpokladu, že vše ostatní je stejné, funguje v organizaci se sídlem ve stejném místě on-premise datový sklad obvykle lépe než cloudový. Je to proto, že on-premise datové sklady nejsou ovlivněny problémy s latencí (tj. dobou, kterou trvá uložení nebo načtení dat).

Na druhou stranu, při porovnání obou variant nasazených v organizaci s pobočkami ve více lokalitách může datový cloud zlepšit celkový výkon datového skladu. Důvodem je existence datových skladů na více místech po celém světě, což umožňuje, aby dotazy putovaly z nejrychlejšího (nebo nejbližšího) serveru místo z pevného umístění.

4. Konektivita

Konektivita označuje efektivitu datového skladu při připojování k různým datovým zdrojům a nástrojům. Big data dnes přicházejí z více zdrojů než dříve a jsou stahována do datových skladů. Na opačném konci jsou data uložená v datových skladech využívána v mnoha navazujících procesech.

Pro on-premise datové sklady je konektivita bezpečnější, protože organizace mají plnou kontrolu nad tím, jak a kdy je datový sklad připojen. To je důležité pro organizace, kde je bezpečnost dat zásadní pro operace, jako jsou finance a vládní sektory.

Ovšem i poskytovatelé cloudu investovali značné částky do zajištění bezpečné konektivity. Mnoho poskytovatelů datových cloudů, jako např. Snowflake, je stále častěji certifikováno nezávislými orgány jako bezpečné (Snowflake’s Security & Compliance Reports). U datových cloudů je navíc konektivita snadnější, protože obvykle přicházejí s vestavěným ekosystémem, který umožňuje snadné připojení k široké škále cloudových služeb.

5. Spolehlivost & bezpečnost

U on-premise datových skladů je organizace plně odpovědná za spolehlivost a bezpečnost nastavení. Má úplnou kontrolu nad tím, jaký hardware a software používá, kde je umístěný a kdo k němu má přístup. V případě selhání má tým IT k dispozici úplný přístup k fyzickému hardwaru a softwaru, aby mohl problém vyřešit, aniž by se musel spoléhat na třetí stranu.

V případě datových cloudů organizace nespravují infrastrukturu, jsou tedy z hlediska spolehlivosti a zabezpečení plně závislé na poskytovatelích cloudu. I když to nemusí dávat smysl, může to vést ke spolehlivějšímu a zabezpečenějšímu datovému skladu. Většina datových cloudů totiž nabízí smlouvy o úrovni služeb, které zaručují až 99,99 % dostupnosti dat a zálohují data, aby byla zajištěna maximální spolehlivost a obnova po havárii. Navíc, protože poskytovatelé cloudu obsluhují více organizací, mohou si také dovolit odborné znalosti a zdroje k zajištění průmyslového zabezpečení datových skladů typu end-to-end, čehož jednotlivé organizace nemusí být schopny dosáhnout.

Data v Cloudu jsou budoucnost

Přestože některé společnosti mohou stále preferovat on-premise datové sklady kvůli potřebě úplné kontroly nad svými daty, Data Cloud je budoucnost.

Podle studie Cloud Computing 2022 společnosti Foundry patřící do skupiny IDG, Inc. (Foundry’s Cloud Computing Research 2022) přibližně 69 % organizací začalo v posledním roce urychlovat migraci do cloudu a očekává se, že počet společností s částí nebo celou IT infrastrukturou v cloudu vzroste ze 41 % v roce 2022 na 63 % v roce 2024.

Datové cloudy jsou nejen nákladově efektivní, snadno použitelné a škálovatelné, ale technologie se v posledních několika letech také rychle vyvíjí a posouvá hranice toho, čeho jsou datové sklady schopny.

Alternativně lze také uvažovat o možnosti řešení „hybridního cloudu“ a využít výhod obou typů nasazení. Organizace může například ukládat citlivá data lokálně a přitom se spoléhat na poskytovatele cloudu pro ukládání každodenních dat. Tímto způsobem lze vyjít vstříc specifickým požadavkům na zabezpečení, dodržování předpisů nebo výkon a zároveň využívat flexibilitu a škálovatelnost cloudu.

Čtěte také

KATEGORIE