BLOG

Přečtěte si poslední novinky ze světa datových technologií a BI.
Nezapomeňte se přihlásit k jejich odběru na e-mail.

Představujeme Matillion

V tomto blogovém příspěvku chceme představit technologii Matillion, její výhody, a vysvětlit, jak ji využít ke zlepšení procesů ETL/ELT a k rychlejší přípravě dat. 

ETL & ELT

ETL a ELT jsou procesy integrace dat používané v oblasti data engineeringu. Oba procesy mají své silné stránky, existují však mezi nimi rozdíly, které je třeba vzít v úvahu při výběru pro konkrétní použití.

ETL (Extract, Transform, Load): Je proces integrace dat, který zahrnuje extrahování dat z různých zdrojů, jejich transformaci do požadovaného formátu před jejich načtením do cílové databáze nebo datového skladu. Jedná se o tradiční přístup k integraci dat, který je široce používán již mnoho let. Tradiční ETL proces však může narážet na limity omezené výpočetním výkonem systémů používaných k provádění transformací. Proto může spolykat mnoho času i zdrojů.

ELT (Extract, Load, Transform): Je moderní přístup k integraci dat, který se liší od tradičního ETL v tom, že transformace dat probíhá po načtení do cílového datového skladu. V ELT jsou data nejprve extrahována z různých zdrojů a až poté načtena do cílového datového skladu, často v nezpracovaném formátu. Data jsou poté transformována za použití výpočetního výkonu a škálovatelnosti samotného datového skladu, nikoliv dalšího samostatného systému. Tento přístup umožňuje rychlejší zpracování, snížení latence dat a zvýšení efektivity.

Co je Matillion?

Matillion je platforma pro integraci dat, která nejen bez problémů propojí datové zdroje s cloudovými platformami (např. AWS, Azure, GCP a Snowflake), ale také transformuje data do stavu připraveného na analýzu. Taková data pak mohou využít analytické a BI nástroje (např. Tableau, PowerBI a Sigma). Matillion využívá sílu těchto cloudových datových platforem k načítání, transformaci, synchronizaci a orchestraci dat, aby firma měla připravená data po ruce mnohem rychleji.

matillion

Jako cloudový software ELT/ETL Matillion pomáhá využít cloudové datové sklady na maximum. Má schopnost integrovat a transformovat data z celé řady zdrojů, včetně databází, cloudových aplikací a “plochých” souborů (neboli flat files). Matillion také nabízí:

  • Integraci dat: Usnadňuje extrahování dat z různých zdrojů a jejich načítání do datového skladu. Podporuje multicloudové platformy včetně Amazon Web Services, Google Cloud Platform, Microsoft Azure a Snowflake, což organizacím dovoluje integraci a transformaci dat z různých zdrojových a cílových systémů.
  • Transformaci dat: pomocí výkonného transformačního enginu usnadňuje různé transformace dat včetně jejich čištění, obohacování a agregace. To pomáhá dostat data do formátu potřebného pro analýzu a reportování.
  • Škálovatelnost: Matillion funguje jako škálovatelný nástroj, díky čemuž snadno můžete přidávat další zdroje dat, provádět složitější transformace a zpracovávat větší objemy dat (big data).
  • Snadné použití: Matillion nabízí uživatelsky přívětivé drag-and-drop rozhraní, které usnadňuje práci s ELT. Jde zárověň o low-code nástroj, a proto se můžete zaměřit spíše na data než na technologii.
  • Efektivita nákladů: Využitím cloudových datových skladů pomáhá Matillion snižovat náklady spojené s tradičním ukládáním dat. To zahrnuje snížení nákladů na hardware, software a údržbu, stejně jako uvolnění zdrojů pro jiné priority.


S Matillionem mohou organizace rychle a snadno provádět složité transformace dat, spojovat data z více zdrojů a načítat transformovaná data do datových skladů, vše při využití neomezené škálovatelnosti a výpočetního výkonu cloudu. Firmy tedy rychleji získají informace z vlastních dat, a mohou se na jejich základě flexibilně rozhodovat a tím podpořit digitální transformaci uvnitř podniku. 

Uživatelské rozhraní Matillion ETL

1. Panel vlastností: Zde najdete vytvořené úlohy.

2. Plátno s úlohami: Zde uvidíte obsah vybrané úlohy – její komponenty a způsob jejich propojení.

3. Panel komponent: Zde můžete najít komponenty a přetáhnout je na hlavní plátno pro vytvoření úlohy. Dostupné komponenty se liší podle vybraného typu úlohy. Ve výše uvedeném příkladu byla vybrána transformační úloha, v panelu komponent tedy vidíme transformační komponenty. Kliknutím na orchestrační úlohu zobrazíte komponenty orchestrace.

4. Panel vlastností: Výběr komponenty na plátně zobrazí další informace o komponentě na panelu vlastností, kde lze konfigurovat vlastnosti této komponenty.

5. Panel úloh: Sledování průběhu aktuální úlohy.

6. Projekt menu: Zobrazuje další možnosti o aktuálním projektu (umístěné v levém horním rohu).

7. Nápověda: Obsahuje další informace o Matillion ETL (umístěné v pravém horním rohu).

Další informace o uživatelském rozhraní a základních funkcích Matillion naleznete v tomto dokumentu.

Orchestrační a transformační úlohy

K extrahování, načítání a transformaci dat do požadované cloudové datové platformy používá Matillion úlohy transformace a orchestrace. Orchestrační úlohy zajišťují přenos externích dat do zvoleného skladu. Transformační úlohy se používají k úpravě dat v datovém skladu.

Jak vytvořit orchestrační úlohu

V navigačním panelu klikněte pravým tlačítkem na příslušné umístění (v tomto případě je to „výchozí“) a vyberte Přidat orchestrační úlohu. V tomto příkladu máme data z účtu Azure Storage (Blob Storage) a chceme je načíst do Snowflake. Jelikož jsou data v Excelu, přejděte na panel Komponenty a vyberte komponentu Excel Query, přetáhněte ji na Plátno úloh, připojte ke komponentě Start a nakonfigurujte její vlastnosti.

Jak vytvořit transformační úlohu

V navigačním panelu opět klikněte pravým tlačítkem na příslušné umístění (v tomto případě je to „výchozí“), ale tentokrát vyberte Přidat transformační úlohu. Začněte vytažením dat ze Snowflake pomocí komponenty Table Input.

Při pohledu na data můžeme vidět sloupec „Datum objednávky“, který má formát: rr-mm-dd hh:mm:ss. K rozdělení tohoto sloupce do samostatných sloupců roku, měsíce, data a času se použijí transformační komponenty. Na plátno přidejte dvě komponenty Split Field, první pro rozdělení sloupce Datum objednávky na dva sloupce – sloupec data (rr-mm-dd) a sloupec času (hh:mm:ss) a druhý pro rozdělení nového sloupce data do tří sloupců – rok, měsíc a datum.

Prohlédněte si svá data kliknutím na kartu Ukázka vedle karty Vlastnosti a kliknutím na tlačítko Data. Dále použijte komponentu Rewrite Table k zápisu transformovaných dat do konečné tabulky orderlist_final.

Pro dokončení přetáhněte úlohu transformace do úlohy orchestrace.

Nakonec můžete zahájit úlohu, která spustí všechny komponenty.

Začněte tím, že získáte data seznamu objednávek z Azure, načtěte je do tabulky seznamu objednávek ve Snowflake a poté data transformujete (tj. rozdělíte sloupec Datum objednávky tak, aby měl samostatné sloupce roku, měsíce, dne a času). Zapište takto upravená data do tabulky orderlist_final. Zaškrtnutím ve Snowflake uvidíme novou tabulku, orderlist_final, s našimi požadovanými sloupci.

Závěr

S Matillion během několika minut načtete data z Azure a upravíte je ve Snowflake by Matillion – to vše bez nutnosti psát jakýkoli vlastní SQL skript. Matillion pomáhá podnikům šetřit čas, zdroje, peníze a zvýšit přesnost.

Billigence, globální platinový partner Matillion, disponuje odbornými znalostmi, díky kterým můžeme tuto technologii integrovat do vašeho stávajícího technologického stacku. Zaujalo vás to? Kontaktujte nás pomocí formuláře níže.

KATEGORIE