Menu Zamknij

Apache Spark z wykorzystaniem języka Scala

Harmonogram

Dzień 1

  • Scala
  • Spark - wprowadzenie
  • Spark - RDD API (Spark Core)

Dzień 2

  • Spark - DataFrame API (Spark SQL)
  • Spark - Dataset API (Spark SQL)

Dzień 3

  • Spark - SQL API
  • Biblioteka Delta Lake
  • Spark - projekt (opcja)
    • projektowanie hurtowni danych
    • implementacja procesów ETL
    • interaktywna analiza danych

Wprowadzenie

Apache Spark określany jest mianem standardu de-facto przetwarzania Big Data.
Jego popularność, występowanie praktycznie w ramach każdej z platform chmurowych, w środowiskach on-premise, API dla języków Scala, Java, ale także Python i R w pełni uzasadnia to twierdzenie.

Szkolenie Apache Spark z wykorzystaniem języka Scala prezentuje praktyczne wykorzystanie platformy Apache Spark w kontekście przetwarzania Big Data.

Szkolenie prowadzone we współpracy z firmą Sages.

Podstawowe cele szkolenia

  • Zapoznanie z platformą Spark oraz jej API w języku Scala
  • Pokazanie metod analizy dużej ilości danych

Główne jego zalety

  • Kompleksowe wprowadzenie do platformy Spark - po zakończonym szkoleniu znasz możliwości i zakres funkcjonalności Sparka.
  • Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
  • Praktyka przed teorią - nie tylko wiesz jak, ale także dlaczego

Dla kogo?

  • Programiści i analitycy, którzy znają podstawy Big Data oraz hurtowni danych i chcą rozpocząć przygodę z
    wykorzystaniem platformy Spark oraz językiem Scala

Wymagania

  • Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
  • Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala
  • Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
  • Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali,
który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.

Lista tematów

Dzień 1

  1. Wprowadzenie
  2. Scala
  3. Spark - Wprowadzenie
  4. Spark - RDD API (Spark Core)

Dzień 2

  1. Spark SQL - DataFrame API
  2. Spark SQL - Dataset API

Dzień 3

  1. Spark SQL - SQL API
  2. Spark - Delta Lake
  3. Spark SQL - projekt HD