Menu Zamknij

Apache Spark dla kursu Data Science PRO + AI

Harmonogram

Dzień 1

  • Big Data - wprowadzenie
  • Spark - wprowadzenie
  • Spark Core - RDD API

Dzień 2

  • Spark SQL - Dataframe API
  • Spark SQL - SQL API
  • Spark ML

Wprowadzenie

Apache Spark określany jest mianem standardu de-facto przetwarzania Big Data.
Jego popularność, występowanie praktycznie w ramach każdej z platform chmurowych, w środowiskach on-premise, API dla języków Scala, Java, ale także Python i R oraz przede wszystkim zakres dostarczanej funkcjonalności pełni uzasadnia to twierdzenie.

Jeszcze niedawno dokumentacja Apache Spark przykładowe fragmenty kodu w ramach dostarczanych API prezentowała w kolejności: Scala, Java, Python R.
Od wersji 3.5.0 ta kolejność jest już inna: Python, Scala, Java, R. Popularność języka Python robi swoje, znaczenie dla świata Data Science to jeszcze potęguje.

Materiały dostępne w ramach kursu Data Science PRO + AI

Podstawowe cele szkolenia

  • Zapoznanie z platformą Spark oraz jej API dla języka Python
  • Wykorzystanie Apache Spark w różnych przypadkach analizy dużej ilości danych

Główne jego zalety

  • Kompleksowe wprowadzenie do platformy Spark - po zakończonym szkoleniu znasz możliwości i zakres funkcjonalności Sparka.
  • Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
  • Praktyka przed teorią - nie tylko wiesz jak, ale także dlaczego

Wymagania

  • Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
  • Podstawowa znajomość języka programowania Python

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali, który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.

Lista tematów

Dzień 1

  1. Wprowadzenie
  2. Spark - Wprowadzenie
  3. Spark Core - RDD API

Dzień 2

  1. Spark SQL - DataFrame API
  2. Spark - ML

Dodatek

  1. Dodatkowy warsztat DataFrame
  2. Spark SQL - SQL API
  3. Spark Web UI