Krzysztof Jankiewicz - Przetwarzanie strumieni danych w środowiskach Big Data

Przetwarzanie strumieni danych w środowiskach Big Data

Przetwarzanie strumieni danych (stream data processing) z roku na rok zyskuje na znaczeniu w szczególności w przypadku rozwiązań Big Data. Jest ono wymagane w wielu uznanych architekturach, oferuje możliwości, które nie sposób osiągnąć przy tradycyjnym/wsadowym przetwarzaniu danych.

Kurs wprowadza uczestników w świat mechanizmów przetwarzania strumieni danych oraz najważniejszych narzędzi Big Data, które taki typ przetwarzania udostępniają.

Zakres szkolenia obejmuje: podstawy platformy Kafka jako brokera wiadomości, Spark Streaming, Spark Structured Streaming, Kafka Streaming, a także wprowadzenie platformy Flink.

Innymi słowy, szkolenie zawiera wprowadzenie do przetwarzania strumieni danych w środowiskach Big Data oraz przegląd najważniejszych rozwiązań począwszy od najprostszych, aż po najbardziej skomplikowane.

Podstawowe cele szkolenia to:

Zrozumienie najważniejszych mechanizmów przetwarzania strumieni danych
Poznanie najważniejszych narzędzi przetwarzania strumieni danych Big Data wraz z ich możliwościami oraz specyfiką, która je wyróżnia.
Implementacja szeregu praktycznych procesów przetwarzających strumienie danych

Główne jego zalety to:

Jedno z niewielu szkoleń adresujących tematykę przetwarzania strumieni danych dokonując kompleksowego przeglądu jej mechanizmów i narzędzi
Kurs przechodzi od najbardziej podstawowych zagadnień do najbardziej złożonych co pozwala opanować skomplikowany świat przetwarzania strumieni danych
Narzędzia Apache są możliwe do uruchomienia w rozwiązaniach lokalnych (on-premise), ale także dostępne są na platformach chmurowych
Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Dla kogo?

Twórcy rozwiązań Big Data, którzy rozpoczynają swoją przygodę ze strumieniami danych
Programiści chcący poznać mechanizmy i narzędzia przetwarzania strumieni danych w systemach Big Data

Wymagania:

Praktyczna znajomość programowania obiektowego Java
Podstawowa znajomość języka Scala
Znajomość platformy Hadoop i jej podstawowych narzędzi, zalecane ukończenie kursu Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)
Znajomość platformy Spark obejmująca zarówno przetwarzanie danych RDD jak i funkcjonalność Spark SQL, zalecane ukończenie kursu Apache Spark z wykorzystaniem języka Scala (BIGDATA/SPARK)

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali, który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.

Lista tematów

Big Data Stream Processing - wprowadzenie
- Materiał wykładowy
  - Big Data Stream Processing - wprowadzenie
- Warsztat
  - Konfiguracja środowiska GCP
Apache Kafka jako broker wiadomości
- Materiał wykładowy
  - Kafka
- Warsztat
  - Kafka - warsztaty
Spark Streaming
- Materiał wykładowy
  - Spark Streaming
- Warsztat
  - Spark Streaming - warsztaty
Spark Structured Streaming
- Materiał wykładowy
  - Spark Structured Streaming
- Warsztat
  - Spark Structured Streaming - warsztaty
Kafka Streams
- Materiał wykładowy
  - Kafka Streams
- Warsztat
  - Kafka Streams - warsztaty
Wprowadzenie do Apache Flink
- Materiał wykładowy
  - Flink - wprowadzenie
- Warsztat
  - Flink - wprowadzenie - warsztaty
Flink - Table API, SQL
- Materiał wykładowy
  - Flink - Table API, SQL
- Warsztat
  - Flink - Table API, SQL - warsztat

Przetwarzanie strumieni danych w środowiskach Big Data

Struktura kursu

Lista tematów

Big Data Stream Processing - wprowadzenie

Apache Kafka jako broker wiadomości

Spark Streaming

Spark Structured Streaming

Kafka Streams

Wprowadzenie do Apache Flink

Flink - Table API, SQL