- Data Scientist, datoví analytici, zejména v Big Data prostředí, jsou primárním auditoriem pro tento intenzivní kurz.
- Software vývojáři, kteří ovládají jazyk Python alespoň na střední az pokročilé úrovni a kteří mají za cíl vytvářet data-intenzivní aplokace pomocí enginu SPARK v prostredi Big Dat (Cloud).
- Datoví architekti
Požadované vstupní znalosti:
- Znalosti jazyka Python a datové analýzy na úrovni kurzu PYTHON_ADV a PYTHON_DATAN2
Metody výuky:
- Odborný výklad s praktickými ukázkami, cvičení na počítačích.
Studijní materiály:
- Prezentace probírané látky v tištěné nebo online formě.
Osnova:
Úvod do Apache Spark a ekosystému
- Úvod do velkých dat a jejich význam.
- Přehled ekosystému Apache Spark a jeho porovnání s jinými technologiemi elkých dat.
- Instalace a konfigurace Apache Spark a příprava vývojového prostředí.
- Základy RDD (Resilient Distributed Dataset) a jeho operace.
- Praktické cvičení: Vytvoření prvního Spark aplikace s využitím RDD.
- Diskuse o výhodách a nevýhodách RDD.
- Úvod do Datasetů a DataFrames pro efektivnější práci s daty.
Pokročilé zpracování dat s Apache Spark
- Podrobný pohled na DataFrames a operace s nimi.
- SQL dotazy ve Sparku a práce s Spark SQL.
- Praktické cvičení: Transformace dat a agregace pomocí Spark SQL a *taFrames.
- Úvod do zpracování streamových dat s Apache Spark Streaming.
- Praktické cvičení: Jednoduchá streamová aplikace.
Strojní učení a pokročilá analýza dat ve Sparku
- Přehled MLlib (Machine Learning Library) ve Sparku.
- Budování a evaluace modelů strojního učení.
- Praktické cvičení: Klasifikace, regrese a shlukování s MLlib.
- Integrace Sparku s jinými úložišti dat (např. HDFS, Amazon S3).
Optimalizace a tuning výkonu Spark aplikací
- Monitorování a ladění Spark aplikací.
- Práce s Spark UI pro analýzu výkonu aplikací.
- Optimalizace výkonu pomocí particionování a persistence.
- Praktické tipy a triky pro efektivní zpracování velkých dat.
Škálování a nasazení Spark aplikací
- Architektura Spark clusteru a jeho konfigurace.
- Skalování Spark aplikací vertikální a horizontální.
- Nasazení Spark aplikací v produkčním prostředí.
- Best practices pro práci s Apache Spark.
- Závěrečná diskuse, odpovědi na otázky a zpětná vazba od účastníků.