Harmonogram
Dzień 1
- Wprowadzenie do świata Big Data
- Hadoop - wprowadzenie
- Apache Spark - wprowadzenie
Dzień 2
- Apache Spark SQL
- Apache Kafka
Dzień 3
- Apache NiFi
- Apache Druid (opcja)
- Apache Airflow
Wprowadzenie
Big Data to nie jedna, a wiele rodzin różnorodnych produktów. W środowiskach on-premise Apache Hadoop to oczywiście fundament, ale na tym fundamencie funkcjonuje szereg narzędzi ułatwiających implementację złożonych przepływów danych.
Szkolenie Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache zaczyna się od krótkiego wprowadzenia wyjaśnienia tego jak rozumieć Big Data i jakie ma cechy, aby zaraz po tym przejść do platformy Apache Spark i jej podstawowych API. Zaglądniemy nie tylko do rozwiązań pozwalających na przetwarzanie wsadowe (Spark SQL), ale także do narzędzi pozwalających przetwarzać strumienie danych (Apache Kafka, Spark Structured Streaming). Zakończymy naszą podróż na trzech narzędziach: Apache NiFi automatyzujący przepływ danych pomiędzy systemami, Apache Druid pozwalający na analizę danych on-line oraz Apache Airflow, który zdobywa coraz większe znaczenie w dziedzinie orkiestracji przetwarzania.
Szkolenie prowadzone we współpracy z firmą Sages.
Podstawowe cele szkolenia
- Praktyczna umiejętność projektowania platformy do przetwarzania dużych ilości danych
- Zdobycie wiedzy na temat powszechnie używanych narzędzi typu open-source w Big Data
Główne jego zalety
- Warsztatowy charakter zajęć
- Użycie wielu różnych narzędzi niezbędnych w codziennej pracy z Big Data
- Ćwiczenia praktyczne odbywają się w środowisku chmury obliczeniowej (Google Cloud Platform)
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest uzupełniana praktycznymi zadaniami
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
Dla kogo?
- Programiści chcący poznać podstawy Big Data
- Osoby które chciałby rozszerzyć swoją wiedzę o podstawy różnych narzędzi Big Data
Wymagania
- Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
- Podstawowa znajomość obiektowych języków programowania (Python, Java)
- Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
- Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie
Struktura kursu
Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali,
który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.
Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.
Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.
Lista tematów
Dzień 1
- Wprowadzenie
- Materiał wykładowy
- Wprowadzenie do świata Big Data
- Materiał wykładowy
- Warsztat
- Hadoop - wprowadzenie (temat dodatkowy)
- Materiały wykładowy
- Warsztat
- Apache Spark - wprowadzenie
- Materiał wykładowy
- Warsztat
Dzień 2
- Apache Spark SQL
- Materiał wykładowy
- Spark - DataFrame
- Spark - DataFrame - notatnik (Python - Databricks)
- Warsztat
- Materiał wykładowy
- Apache Kafka PONIŻEJ TODO
- Materiał wykładowy
- Warsztat
Dzień 3
- Apache NiFi
- Materiał wykładowy
- Warsztat
- Apache Druid (opcja)
- Materiał wykładowy
- Warsztat
- Apache Airflow
- Materiał wykładowy
- Warsztat