Zaawansowane przetwarzanie strumieni danych w Apache Flink

Harmonogram

Dzień 1

Wprowadzenie do systemów przetwarzania strumieni danych
Apache Flink – wprowadzenie
DataStream API – podstawy

Dzień 2

DataStream API – elementy zaawansowane – część 1
DataStream API – elementy zaawansowane – część 2
DataStream API – obsługa stanu

Dzień 3

Table API i SQL – podstawy
Complex Event Processing (CEP)
Przetwarzanie danych wsadowych

Wprowadzenie

Aplikacje analizujące napływające dane, reagujące na pojawiające się anomalie, śledzące przebieg procesów biznesowych, analizujące zmianę trendów w sieciach społecznościowych. Platformy odbierające bez przerwy dane z systemów źródłowych celem ich ciągłego przetwarzania dla przykładu zasilającego hurtownię danych, czy aktualizującego panele managerskie. To przykłady zastosowań, które jak powietrza potrzebują zaawansowanych platform przetwarzających strumienie danych.

Środowiska Big Data od ponad dekady kładą coraz większy nacisk na przetwarzanie strumieni danych. Rezultatem jest dynamiczny rozwój narzędzi służących do tego celu. Wydaje się, że szczytem obecnych rozwiązań jest Apache Flink (nie umniejszając znaczenia wielu innych narzędzi), który często uznawany jest jako standard de facto przetwarzania strumieni danych w Big Data.

Szkolenie Zaawansowane przetwarzanie strumieni danych w Apache Flink obejmuje praktycznie wszystkie najważniejsze mechanizmy dostarczane przez to złożone narzędzie. Rozpoczynamy od zagadnień dotyczącej samej platformy i jej architektury, poznajmy w szczegółach podstawowe DataStream API, ostatecznie docierając do wysokopoziomowych Table API czy Complex Event Processing.

Powyższa tematyka może być uzupełniona o dodatkowe tematy takie jak: obsługa punktów kontrolnych i punktów zachowania, tryb wysokiej dostępności (HA) z wykorzystaniem klastra Kubernetes czy też wprowadzenie dotyczące mechanizmów funkcjonujących w systemach przetwarzania strumieni danych.

Szkolenie prowadzone we współpracy z firmą Sages.

Podstawowe cele szkolenia

Zapoznanie się z architekturą i Apache Flink i mechanizmami przetwarzania za jego pomocą strumieni danych
Opanowanie poszczególnych API oferowanych przez Apache Flink, z uwzględnieniem ich specyficznych własności i zastosowań
Implementacja szeregu praktycznych procesów przetwarzających strumienie danych

Główne zalety

Kompleksowe wprowadzenie do platformy Apache Flink
Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą strumieni danych w środowiskach Big Data
Szczegółowe zapoznanie się z kluczowymi rodzajami API dostarczanymi przez Apache Flink
Jest to unikalne szkolenie na rynku, które zagłębia się w zaawansowane aspekty przetwarzania strumieniowego w Apache Flink. Dostarcza wiedzy, która wychodzi poza podstawy, umożliwiając uczestnikom pełne zrozumienie technologii

Dla kogo?

Analitycy i programiści, którzy znają podstawy i mają uporządkowaną wiedzę na temat zarówno mechanizmów Big Data jak i tych, które dotyczą przetwarzania strumieni danych i chcą zapoznać się z platformą Apache Flink oferującą w tym zakresie największe możliwości w porównaniu do alternatywnych rozwiązań

Wymagania

Dobra znajomość: języka SQL, relacyjnego modelu danych
Podstawowa znajomość obiektowego języka programowania Java, a opcjonalnie (jako uzupełnienie) Python i Scala.
Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
Uporządkowana i usystematyzowana wiedza na temat przetwarzania strumieni danych
Bardzo zalecany jest wcześniejszy udział w szkoleniach:
- Big Data i platforma Hadoop – wprowadzenie
- Przetwarzanie strumieni danych w środowiskach Big Data

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw
ćwiczeń/zadań/tutoriali, który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.

Lista tematów

Dzień 1

Wprowadzenie do systemów przetwarzania strumieni danych
- Materiał wykładowy
  - Część 1* – wprowadzenie i podstawy
  - Cześć 2** – czas, obsługa awarii
  - Cześć 3*** – dualizm strumieni i tabel i Complex Event Processing
- Warsztat
  - Konfiguracja środowiska GCP
Flink – wprowadzenie*
- Materiał wykładowy
  - Flink – wprowadzenie
- Warsztat
  - Flink – wprowadzenie – warsztat
DataStream API – podstawy
- Materiał wykładowy
  - DataStream API – podstawy
- Warsztat
  - DataStream API – podstawy – warsztat

Dzień 2

DataStream API – elementy zaawansowane – Część 1**
- Materiał wykładowy
  - DataStream API – elementy zaawansowane – część 1
- Warsztat
  - DataStream API – elementy zaawansowane – część 1 – warsztat
DataStream API – elementy zaawansowane – Część 2
- Materiał wykładowy
  - DataStream API – elementy zaawansowane – część 2
- Warsztat
  - DataStream API – elementy zaawansowane – część 2 – warsztat
DataStream API – obsługa stanu
- Materiał wykładowy
  - DataStream API – obsługa stanu
- Warsztat
  - DataStream API – punkty kontrolne – warsztaty (dodatek)
  - DataStream API – obsługa stanu – warsztaty

Dzień 3

Table API i SQL – podstawy***
- Materiał wykładowy
  - Table API i SQL – podstawy
- Warsztat
  - Table API i SQL – podstawy – warsztat
Complex Event Processing (CEP)
- Materiał wykładowy
  - Complex Event Processing (CEP)
- Warsztat
  - Complex Event Processing (CEP)
Przetwarzanie danych wsadowych
- Materiał wykładowy
  - Przetwarzanie danych wsadowych
- Warsztat
  - Przetwarzanie danych wsadowych – warsztat