Harmonogram
Dzień 1
- Wprowadzenie do przetwarzania strumieni danych
- Spark Streaming
- Spark Structured Streaming - podstawy
- Spark Structured Streaming - elementy zaawansowane
Wprowadzenie
Przetwarzanie strumieni danych z roku na rok zyskuje na znaczeniu. Już wiele lat temu Jay Kreps w swoim artykule Questioning the Lambda Architecture udowadniał, że mechanizmy przetwarzania strumieni danych są już na tyle rozwinięte, że rozwiązania Big Data można opierać na nich w całości.
Dziś, praktycznie każdy podmiot, który w swojej działajności opiera się, lub po prostu wykorzystuje, przetwarzanie strumieni danych wie, że ten właśnie element jest kluczem do konkurencyjności i uzyskiwania przewagi.
Kurs Przetwarzanie strumieni danych w Apache Spark omawia mechanizmy przetwarzania strumieni danych dostępne platformie Apache Spark, w szczególności koncentrując się na Spark Structured Streaming.
Szkolenie prowadzone we współpracy z firmą Sages.
Podstawowe cele szkolenia
- Zrozumienie kluczowych mechanizmów przetwarzania strumieni danych
- Poznanie mechanizmów Apache Spark pozwalających na zaawansowane przetwarzanie strumieni danych
- Praktyczne rozpoznanie możliwości oraz ograniczeń Apache Spark w zakresie przetwarzania strumieni danych
- Implementacja szeregu procesów przetwarzających strumienie danych
Dla kogo?
- Twórców rozwiązań Big Data, którzy rozpoczynają swoją przygodę ze strumieniami danych
- Programistów chcących poznać mechanizmy i narzędzia przetwarzania strumieni danych w Apache Spark
Zalety
- Uzupełnienie wiedzy na temat platformy Apache Spark
- Kompleksowy przegląd mechanizmów Apache Spark pozwalających na przetwarzanie strumieni danych
- Szkolenie "Przetwarzanie strumieni danych w Apache Spark" opiera się na fundamentach przetwarzania strumieni danych i prezentuje to, w jaki sposób adresuje je Apache Spark, dzięki temu możliwe jest dogłębne zrozumienie wykorzystywanych mechanizmów
Wymagania
- Praktyczna znajomość programowania obiektowego Java
- Podstawowa znajomość języka Scala/Python
- Znajomość platformy Spark obejmująca zarówno przetwarzanie danych RDD jak i funkcjonalność Spark SQL, zalecane ukończenie kursu Apache Spark (BIGDATA/SPARK alternatywnie BIGDATA/PYSPARK)
- Podstawowa znajomość Apache Kafka
Struktura kursu
Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali,
który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.
Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.
Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.
Lista tematów
- Wprowadzenie do przetwarzania strumieni danych
- Materiał wykładowy
- Warsztat
- Spark Streaming
- Materiał wykładowy
- Warsztat
- Spark Structured Streaming - podstawy
- Materiał wykładowy
- Warsztat
- Spark Structured Streaming - elementy zaawansowane
- Materiał wykładowy
- Warsztat