Apache Spark z wykorzystaniem języka Scala

Kurs Apache Spark z wykorzystaniem języka Scala prezentuje praktyczne wykorzystanie platformy Apache Spark w kontekście przetwarzania Big Data

Podstawowe cele szkolenia to:

  • Zapoznanie z platformą Spark oraz jej API w języku Scala
  • Pokazanie metod analizy dużej ilości danych

Główne jego zalety to:

  • Kompleksowe wprowadzenie do platformy Spark - po zakończonym szkoleniu znasz możliwości i zakres funkcjonalności Sparka.
  • Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
  • Praktyka przed teorią - nie tylko wiesz jak, ale także dlaczego

Dla kogo?

  • Analitycy i programiści, którzy znają podstawy Big Data i chcą rozpocząć przygodę z wykorzystaniem platformy Spark oraz językiem Scala

Wymagania:

  • Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
  • Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala
  • Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
  • Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali, który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.

Lista tematów

  1. Wprowadzenie

  2. Scala

  3. Spark - wprowadzenie

  4. Spark - RDD (podstawy)

  5. Spark - RDD (klucz-wartość)

  6. Spark - DataFrame

  7. Spark - Dataset

  8. Spark - RDD (wydajność)

  9. Spark - Delta Lake

  10. Spark - ML