Harmonogram
Dzień 1
- Scala
- Spark - wprowadzenie
- Spark - RDD API (Spark Core)
Dzień 2
- Spark - DataFrame API (Spark SQL)
- Spark - Dataset API (Spark SQL)
Dzień 3
- Spark - SQL API
- Biblioteka Delta Lake
- Spark - projekt (opcja)
- projektowanie hurtowni danych
- implementacja procesów ETL
- interaktywna analiza danych
Wprowadzenie
Apache Spark określany jest mianem standardu de-facto przetwarzania Big Data.
Jego popularność, występowanie praktycznie w ramach każdej z platform chmurowych, w środowiskach on-premise, API dla języków Scala, Java, ale także Python i R w pełni uzasadnia to twierdzenie.
Szkolenie Apache Spark z wykorzystaniem języka Scala prezentuje praktyczne wykorzystanie platformy Apache Spark w kontekście przetwarzania Big Data.
Szkolenie prowadzone we współpracy z firmą Sages.
Podstawowe cele szkolenia
- Zapoznanie z platformą Spark oraz jej API w języku Scala
- Pokazanie metod analizy dużej ilości danych
Główne jego zalety
- Kompleksowe wprowadzenie do platformy Spark - po zakończonym szkoleniu znasz możliwości i zakres funkcjonalności Sparka.
- Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
- Praktyka przed teorią - nie tylko wiesz jak, ale także dlaczego
Dla kogo?
- Programiści i analitycy, którzy znają podstawy Big Data oraz hurtowni danych i chcą rozpocząć przygodę z
wykorzystaniem platformy Spark oraz językiem Scala
Wymagania
- Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
- Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala
- Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
- Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie
Struktura kursu
Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali,
który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.
Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.
Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.
Lista tematów
Dzień 1
- Wprowadzenie
- Materiał wykładowy
- Warsztat
- Scala
- Materiał wykładowy
- Warsztat
- Spark - Wprowadzenie
- Materiał wykładowy
- Warsztat
- Spark - RDD API (Spark Core)
- Materiał wykładowy
- Warsztat
Dzień 2
- Spark SQL - DataFrame API
- Materiał wykładowy
- Warsztat
- Spark SQL - Dataset API
- Materiał wykładowy
- Warsztat
Dzień 3
- Spark SQL - SQL API
- Warsztat
- Spark - Delta Lake
- Materiał wykładowy
- Warsztat
- Spark SQL - projekt HD
- Materiał warsztatowy