Menu Zamknij

Przetwarzanie strumieni danych w Apache Spark

Harmonogram

Dzień 1

  • Wprowadzenie do przetwarzania strumieni danych
  • Spark Streaming
  • Spark Structured Streaming - podstawy
  • Spark Structured Streaming - elementy zaawansowane

Wprowadzenie

Przetwarzanie strumieni danych z roku na rok zyskuje na znaczeniu. Już wiele lat temu Jay Kreps w swoim artykule Questioning the Lambda Architecture udowadniał, że mechanizmy przetwarzania strumieni danych są już na tyle rozwinięte, że rozwiązania Big Data można opierać na nich w całości.

Dziś, praktycznie każdy podmiot, który w swojej działajności opiera się, lub po prostu wykorzystuje, przetwarzanie strumieni danych wie, że ten właśnie element jest kluczem do konkurencyjności i uzyskiwania przewagi.

Kurs Przetwarzanie strumieni danych w Apache Spark omawia mechanizmy przetwarzania strumieni danych dostępne platformie Apache Spark, w szczególności koncentrując się na Spark Structured Streaming.

Szkolenie prowadzone we współpracy z firmą Sages.

Podstawowe cele szkolenia

  • Zrozumienie kluczowych mechanizmów przetwarzania strumieni danych
  • Poznanie mechanizmów Apache Spark pozwalających na zaawansowane przetwarzanie strumieni danych
  • Praktyczne rozpoznanie możliwości oraz ograniczeń Apache Spark w zakresie przetwarzania strumieni danych
  • Implementacja szeregu procesów przetwarzających strumienie danych

Dla kogo?

  • Twórców rozwiązań Big Data, którzy rozpoczynają swoją przygodę ze strumieniami danych
  • Programistów chcących poznać mechanizmy i narzędzia przetwarzania strumieni danych w Apache Spark

Zalety

  • Uzupełnienie wiedzy na temat platformy Apache Spark
  • Kompleksowy przegląd mechanizmów Apache Spark pozwalających na przetwarzanie strumieni danych
  • Szkolenie "Przetwarzanie strumieni danych w Apache Spark" opiera się na fundamentach przetwarzania strumieni danych i prezentuje to, w jaki sposób adresuje je Apache Spark, dzięki temu możliwe jest dogłębne zrozumienie wykorzystywanych mechanizmów

Wymagania

  • Praktyczna znajomość programowania obiektowego Java
  • Podstawowa znajomość języka Scala/Python
  • Znajomość platformy Spark obejmująca zarówno przetwarzanie danych RDD jak i funkcjonalność Spark SQL, zalecane ukończenie kursu Apache Spark (BIGDATA/SPARK alternatywnie BIGDATA/PYSPARK)
  • Podstawowa znajomość Apache Kafka

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali,
który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.

Lista tematów

  1. Wprowadzenie do przetwarzania strumieni danych
  2. Spark Streaming
  3. Spark Structured Streaming - podstawy
  4. Spark Structured Streaming - elementy zaawansowane