Harmonogram
Dzień 1
- Big Data - wprowadzenie
- Spark - wprowadzenie
- Spark Core - RDD API
Dzień 2
- Spark SQL - Dataframe API
- Spark SQL - SQL API
- Spark ML
Wprowadzenie
Apache Spark określany jest mianem standardu de-facto przetwarzania Big Data.
Jego popularność, występowanie praktycznie w ramach każdej z platform chmurowych, w środowiskach on-premise, API dla języków Scala, Java, ale także Python i R oraz przede wszystkim zakres dostarczanej funkcjonalności pełni uzasadnia to twierdzenie.
Jeszcze niedawno dokumentacja Apache Spark przykładowe fragmenty kodu w ramach dostarczanych API prezentowała w kolejności: Scala, Java, Python R.
Od wersji 3.5.0 ta kolejność jest już inna: Python, Scala, Java, R. Popularność języka Python robi swoje, znaczenie dla świata Data Science to jeszcze potęguje.
Materiały dostępne w ramach kursu Data Science PRO + AI
Podstawowe cele szkolenia
- Zapoznanie z platformą Spark oraz jej API dla języka Python
- Wykorzystanie Apache Spark w różnych przypadkach analizy dużej ilości danych
Główne jego zalety
- Kompleksowe wprowadzenie do platformy Spark - po zakończonym szkoleniu znasz możliwości i zakres funkcjonalności Sparka.
- Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
- Praktyka przed teorią - nie tylko wiesz jak, ale także dlaczego
Wymagania
- Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
- Podstawowa znajomość języka programowania Python
Struktura kursu
Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali, który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.
Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.
Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.
Lista tematów
Dzień 1
- Wprowadzenie
- Materiał wykładowy
- Warsztat
- Spark - Wprowadzenie
- Materiał wykładowy
- Warsztat
- Spark Core - RDD API
- Materiał wykładowy
- Warsztat
Dzień 2
- Spark SQL - DataFrame API
- Materiał wykładowy
- Warsztat
- Spark - ML
- Materiał wykładowy
- Warsztat
Dodatek
- Dodatkowy warsztat DataFrame
- Spark SQL - SQL API
- Warsztat
- Spark Web UI
- Materiał wykładowy