Harmonogram
Dzień 1
- Big Data Stream Processing - wprowadzenie
- Apache Kafka jako broker wiadomości
Dzień 2
- Spark Streaming
- Spark Structured Streaming
- Kafka Streams
Dzień 3
- Wprowadzenie do Apache Flink
- Projekt finałowy
Wprowadzenie
Przetwarzanie strumieni danych (stream data processing) z roku na rok zyskuje na znaczeniu w szczególności w przypadku rozwiązań Big Data. Jest ono wymagane w wielu uznanych architekturach, oferuje możliwości, które nie sposób osiągnąć przy tradycyjnym/wsadowym przetwarzaniu danych.
Kurs Przetwarzanie strumieni danych w środowiskach Big Data wprowadza uczestników w świat mechanizmów przetwarzania strumieni danych oraz najważniejszych narzędzi Big Data, które taki typ przetwarzania udostępniają.
Zakres szkolenia obejmuje: podstawy platformy Kafka jako brokera wiadomości, Spark Streaming, Spark Structured Streaming, Kafka Streaming, a także wprowadzenie do platformy Flink.
Innymi słowy, szkolenie zawiera wprowadzenie do przetwarzania strumieni danych w środowiskach Big Data oraz przegląd najważniejszych rozwiązań począwszy od najprostszych, aż po najbardziej skomplikowane.
Szkolenie prowadzone we współpracy z firmą Sages.
Podstawowe cele szkolenia
- Zrozumienie najważniejszych mechanizmów przetwarzania strumieni danych
- Poznanie najważniejszych narzędzi przetwarzania strumieni danych Big Data wraz z ich możliwościami oraz specyfiką, która je wyróżnia.
- Implementacja szeregu praktycznych procesów przetwarzających strumienie danych
Główne zalety
- Jedno z niewielu szkoleń na rynku adresujących tematykę przetwarzania strumieni danych, dokonując kompleksowego przeglądu jej mechanizmów i narzędzi
- Kurs przechodzi od najbardziej podstawowych zagadnień do najbardziej złożonych co pozwala opanować skomplikowany świat przetwarzania strumieni danych
- Narzędzia Apache są możliwe do uruchomienia w rozwiązaniach lokalnych (on-premise), ale także dostępne są na platformach chmurowych
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
- Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Dla kogo?
- Twórcy rozwiązań Big Data, którzy rozpoczynają swoją przygodę ze strumieniami danych
- Programiści chcący poznać mechanizmy i narzędzia przetwarzania strumieni danych w systemach Big Data
- Projektanci systemów Big Data, którzy rozpoczynają projekty przetwarzające strumienie danych i muszą dokonać wyboru odpowiednich narzędzi, lub zaktualizować wiedzę na ich temat
Wymagania
- Praktyczna znajomość programowania obiektowego Java
- Podstawowa znajomość języka Scala
- Znajomość platformy Hadoop i jej podstawowych narzędzi, zalecane ukończenie kursu Big Data i platforma Hadoop - wprowadzenie
- Znajomość platformy Spark obejmująca zarówno przetwarzanie danych RDD jak i funkcjonalność Spark SQL, zalecane ukończenie kursu Apache Spark z wykorzystaniem języka Scala
Struktura Kursu
Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali, który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.
Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.
Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.
Lista Tematów
Dzień 1
- Big Data Stream Processing - wprowadzenie
- Materiał wykładowy
- Warsztat
- Apache Kafka jako broker wiadomości
- Materiał wykładowy
- Warsztat
Dzień 2
- Spark Streaming
- Materiał wykładowy
- Warsztat
- Spark Structured Streaming
- Materiał wykładowy
- Warsztat
- Kafka Streams
- Materiał wykładowy
- Warsztat
Dzień 3
- Wprowadzenie do Apache Flink
- Materiał wykładowy
- Warsztat
- Projekt finałowy
- Warsztat