Menu Zamknij

Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

Harmonogram

Dzień 1

  • Wprowadzenie do świata Big Data
  • Programowanie w Scala
  • Apache Spark – wprowadzenie

Dzień 2

  • Apache Spark SQL
  • Apache Kafka
  • Apache Spark Structured Streaming

Dzień 3

  • Apache NiFi
  • Apache Druid
  • Apache Airflow

Wprowadzenie

Big Data to nie jedna, a wiele rodzin różnorodnych produktów. W środowiskach on-premise Apache Hadoop to oczywiście fundament, ale na tym fundamencie funkcjonuje szereg narzędzi ułatwiających implementację złożonych przepływów danych.

Szkolenie Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache zaczyna się od krótkiego wprowadzenia wyjaśnienia tego jak rozumieć Big Data i jakie ma cechy, aby zaraz po tym przejść do podstaw programowania w języku Scala oraz wykorzystania Apache Spark. Zaglądniemy nie tylko do rozwiązań pozwalających na przetwarzanie wsadowe (Spark SQL), ale także do narzędzi pozwalających przetwarzać strumienie danych (Apache Kafka, Spark Structured Streaming). Zakończymy naszą podróż na trzech narzędziach: Apache NiFi automatyzujący przepływ danych pomiędzy systemami, Apache Druid pozwalający na analizę danych on-line oraz Apache Airflow, który zdobywa coraz większe znaczenie w dziedzinie orkiestracji przetwarzania.

Szkolenie prowadzone we współpracy z firmą Sages.

Podstawowe cele szkolenia

  • Praktyczna umiejętność projektowania platformy do przetwarzania dużych ilości danych
  • Zdobycie wiedzy na temat powszechnie używanych narzędzi typu open-source w Big Data

Główne jego zalety

  • Warsztatowy charakter zajęć
  • Użycie wielu różnych narzędzi niezbędnych w codziennej pracy z Big Data
  • Ćwiczenia praktyczne odbywają się w środowisku chmury obliczeniowej (Google Cloud Platform)
  • Praktyka przed teorią – wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest uzupełniana praktycznymi zadaniami
  • Konkretne umiejętności – w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

Dla kogo?

  • Programiści chcący poznać podstawy Big Data
  • Osoby które chciałby rozszerzyć swoją wiedzę o podstawy różnych narzędzi Big Data

Wymagania

  • Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
  • Podstawowa znajomość obiektowych języków programowania (Java, Scala, Python)
  • Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
  • Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop – wprowadzenie

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali,
który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/warsztatów/tutoriali do samodzielnego wykonania.

Lista tematów

Dzień 1

  1. Wprowadzenie
  2. Wprowadzenie do świata Big Data
  3. Programowanie w Scala
  4. Apache Spark – wprowadzenie

Dzień 2

  1. Apache Spark SQL
  2. Apache Kafka
  3. Spark Structured Streaming

Dzień 3

  1. Apache NiFi
  2. Apache Druid
  3. Apache Airflow