BLOG

Přečtěte si poslední novinky ze světa datových technologií a BI.
Nezapomeňte se přihlásit k jejich odběru na e-mail.

Jak migrace do cloudu pomohla data science? | 6

Před migrací do Snowflaku ve firmě probíhaly pokusy o data science v  jupyter notebooks na lokálních discích. To umožnilo získat nové vhledy, ale nebylo možné data science škálovat a deployovat modely.  

Zatímco některé firmy migrují data science do cloudu z on-premise Spark clusterů, v  tomto případě byla příležitost začít data science infrastrukturu budovat na zelené louce. Mezi hlavní výhody, které Snowflake v této oblasti přinesl, patří přístup k širokému spektru dat díky data lake, jednoduché experimentování a možnost obohacovat data přes Snowflake Marketplace i adopce MLOps procesů.  

Data Lake a Feature Engineering 

Bez data lake bylo při pokusech o data science potřeba hledat správná data na mnoha místech, dotazovat se byznysových zadavatelů i technických odborníků, napojovat se do databází a data někam stahovat a ukládat. Nyní jsou všechna k dispozici v data lake, jsou tam navíc historizovaná i data, která by již z primárních systémech nebylo možné získat, to vše v  původních formátech a strukturách. 

Datoví vědci (Data Scientist) si tak mohou budovat vlastní feature store, do kterého z data lake vybírají a kalkulují data, která jsou pro jejich modely významná. 

Obohacování o externí data 

Firma a její úspěch jsou ovlivněny nejen interními, ale i externími faktory – proto i modely data science fungují lépe, pokud mají o těchto externích faktorech informace. Díky Snowflake Marketplace je možné na pár kliknutí (zdarma nebo za poplatek) externí data získat a následně je použít pro modelování – data o počasí, geografická či ekonomická data tak není nutné hledat jinde.  

Trénování dat na optimalizovaných Snowpark clusterech 

Snowflake Snowpark ML umožňuje používat Python syntax pro trénování modelů přímo ve Snowlfaku, takže data nikdy neopustí Snowflake ecosystém – proces je tak jednoduchý a především bezpečný. Na trénování modelů nyní datoví vědci ve firmě používají výpočetní clustery optimalizované přímo pro Snowpark. 

Uvedení modelů do produkce a datové aplikace 

Natrénované modely jsou uložené přímo ve Snowflaku a organizované v registru modelů (model registry). Pomocí User Defined Functions lze produkční modely aplikovat na nová data a to buď periodicky, nebo eba i ad hoc s možností manuálních vstupů prostřednictvím datové aplikace postavené ve Streamlitu, který je pro design i používání intuitivní – k vytvoření aplikace postačí znalost Pythonu a díky ní pak může modely spouštět i byznysový uživatel. 

Co Vás ještě čeká?

Jak migrace do cloudu pomohla:

  • data governance
  • byznysu.

KATEGORIE