- Data Scientist, datoví analytici, zejména v Big Data prostředí, jsou primárním auditoriem pro tento intenzivní kurz.
- Software vývojáři, kteří ovládají jazyk Python alespoň na střední az pokročilé úrovni a kteří mají za cíl vytvářet data-intenzivní aplokace pomocí enginu SPARK v prostredi Big Dat (Cloud).
- Datoví architekti
Požadované vstupní znalosti:
- Znalosti jazyka Python a datové analýzy na úrovni kurzu PYTHON_ADV a PYTHON_DATAN
Metody výuky:
- Odborný výklad s praktickými ukázkami, cvičení na počítačích.
Studijní materiály:
- Prezentace probírané látky v tištěné nebo online formě.
Osnova:
Základy Pythonu a Úvod do NumPy
- Úvod do Pythonu jako programovacího jazyka pro analýzu dat
- Instalace a import modulu NumPy
- Práce s NumPy poli a maticemi
- Operace s NumPy poli (sčítání, násobení, indexování)
- Statistické a matematické funkce NumPy
Pandas - Manipulace s daty
- Úvod do knihovny Pandas
- Načtení a ukládání dat v Pandas DataFrame
- Práce s daty v DataFrame (výběr, filtrování, změna)
- Skupinové operace a agregace dat
- Merge a spojování datových rámců
- Praktická cvičení s Pandas
Paralelní zpracování dat s Modin
- Úvod do Modin - paralelní zpracování dat v Pandas
- Instalace a konfigurace Modin
- Porovnání rychlosti Pandas a Modin na reálných datech
- Praktická cvičení pro optimalizaci datového zpracování
Polars - Moderní datové zpracování
- Úvod do Polars - moderní knihovna pro manipulaci s daty
- Porovnání Polars a Pandas
- Práce s daty v Polars DataFrame
- Analytické funkce a SQL dotazy v Polars
- Praktická cvičení s Polars
Vaex - Rychlé a efektivní zpracování velkých dat
- Úvod do Vaex - knihovny pro rychlé zpracování velkých dat
- Práce s Vaex DataFrame
- Čtení a zapisování velkých datových souborů
- Optimalizace výkonu v Vaex
- Praktická cvičení na zpracování velkých dat s Vaex