Krzysztof Jankiewicz - Zaawansowane przetwarzanie strumieni danych w Apache Flink

Zaawansowane przetwarzanie strumieni danych w Apache Flink

Aplikacje analizujące napływające dane, reagujące na pojawiające się anomalie, śledzące przebieg procesów biznesowych, analizujące zmianę trendów w sieciach społecznościowych.
Platformy odbierające bez przerwy dane z systemów źródłowych celem ich ciągłego przetwarzania dla przykładu zasilającego hurtownię danych, czy aktualizującego panele managerskie.
To przykłady zastosowań, które jak powietrza potrzebują zaawansowanych platform przetwarzających strumienie danych.

Środowiska Big Data od ponad dekady kładą coraz większy nacisk na przetwarzanie strumieni danych. Rezultatem tego faktu jest dynamiczny rozwój narzędzi służących do tego celu. Wydaje się, że (nie umniejszając znaczenia wielu innych narzędzi) szczytem obecnych rozwiązań jest Apache Flink, który często uznawany jest jako standard de facto przetwarzania strumieni danych w Big Data.

Szkolenie Zaawansowane przetwarzanie strumieni danych w Apache Flink obejmuje praktycznie wszystkie najważniejsze mechanizmy dostarczane przez to złożone narzędzie.
Rozpoczynamy od zagadnień dotyczącej samej platformy i jej architektury, poznajmy w szczegółach podstawowe DataStream API, ostatecznie docierając do wysokopoziomowych Table API czy Complex Event Processing. Na deser zaglądamy do jednej z dodatkowych bibliotek pozwalających na przetwarzanie grafów, ewentualnie realizujemy jeden lub dwa projekty, które pozwolą nam sprawdzić nasze umiejętnośći.

Podstawowe cele szkolenia to:

Zapoznanie się z architekturą i Apache Flink i mechanizmami przetwarzania za jego pomocą strumieni danych
Opanowanie poszczególnych API oferowanych przez Apache Flink, z uwzględniem ich specyficznych własności i zastosowań
Implementacja szeregu praktycznych procesów przetwarzających strumienie danych

Główne jego zalety to:

Jedno z niewielu dostępnych na rynku szkoleń dotyczących Apache Flink
Kurs przechodzi od najbardziej podstawowych zagadnień do najbardziej złożonych co pozwala opanować skomplikowany świat przetwarzania strumieni danych za pomocą Apache Flink
Apache Flink jest dostępny do wykorzystania zarówno w rozwiązaniach lokalnych (on-premise), jak i na platformach chmurowych
Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

Dla kogo?

Analitycy i programiści, którzy znają podstawy Big Data oraz przetwarzania strumieni danych i chcą zapoznać się z platformą Apache Flink oferującą w tym zakresie największe możliwości w porównaniu do alternatywnych rozwiązań

Wymagania:

Dobra znajomość: języka SQL, relacyjnego modelu danych
Podstawowa znajomość obiektowych języków programowania Java oraz Scala, opcjonalnie (jako uzupełnienie) Python
Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
Zalecany jest wcześniejszy udział w szkoleniach:
- Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE) - silna rekomendacja
- Przetwarzanie strumieni danych w środowiskach Big Data (BIGDATA/STREAM)

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali, który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.

Lista tematów

Flink - wprowadzenie
- Materiał wykładowy
  - Flink - wprowadzenie
- Warsztat
  - Konfiguracja środowiska GCP
  - Flink - wprowadzenie - warsztaty
DataStream API - podstawy
- Materiał wykładowy
  - DataStream API - podstawy
- Warsztat
  - DataStream API - podstawy - warsztaty
DataStream API - elementy zaawansowane - część 1
- Materiał wykładowy
  - DataStream API - elementy zaawansowane - część 1
- Warsztat
  - DataStream API - elementy zaawansowane - część 1 - warsztaty
DataStream API - elementy zaawansowane - część 2
- Materiał wykładowy
  - DataStream API - elementy zaawansowane - część 2
- Warsztat
  - DataStream API - elementy zaawansowane - część 2 - warsztaty
DataStream API - stan, punkty kontrolne, punkty zachowania
- Materiał wykładowy
  - DataStream API - stan, punkty kontrolne, punkty zachowania
- Warsztat
  - DataStream API - stan, punkty kontrolne, punkty zachowania - warsztaty
Table API i SQL
- Materiał wykładowy
  - Table API i SQL
- Warsztat
  - Table API i SQL - warsztaty
Complex Event Processing (CEP)
- Materiał wykładowy
  - Complex Event Processing (CEP)
- Warsztat
  - Complex Event Processing (CEP)
Przetwarzanie danych wsadowych
- Materiał wykładowy
  - Przetwarzanie danych wsadowych
- Warsztat
  - Przetwarzanie danych wsadowych - warsztat
Przetwarzanie grafów - Gelly
- Materiał wykładowy
  - Flink - Gelly - podstawy
  - Flink - Gelly - zaawansowane
- Warsztat
  - Flink - Gelly - podstawy - warsztat
  - Flink - Gelly - zaawansowane - warsztat

Zaawansowane przetwarzanie strumieni danych w Apache Flink

Struktura kursu

Lista tematów

Flink - wprowadzenie

DataStream API - podstawy

DataStream API - elementy zaawansowane - część 1

DataStream API - elementy zaawansowane - część 2

DataStream API - stan, punkty kontrolne, punkty zachowania

Table API i SQL

Complex Event Processing (CEP)

Przetwarzanie danych wsadowych

Przetwarzanie grafów - Gelly