Big Data

Ilość danych generowanych w logach serwerów WWW, platformach sieci społecznościowych, aplikacjach mobilnych czy webowych, generowanych przez Internet przedmiotów czy różnorakie sensory, często przekracza rozmiary, które mogą być swobodnie przetwarzana przez scentralizowane rozwiązania oparte o tradycyjne bazy danych. Ponadto charakter tych danych - regularny szybki przyrost i żadnych zmian w danych już zebranych, zupełnie nie odpowiada modelowi przetwarzania danych w bazach danych, gdzie zakłada się ich regularne modyfikacje i usuwanie.

Dla tego typu danych odpowiednimi środowiskami bytowania są rozwiązania typu Big Data. Hadoop, Hive, Pig, czy wreszcie Spark ze swą wydajnością, rozbudowaną funkcjonalnością, przy jednoczesnym zachowaniu ogólności, to czołowe produkty tego nurtu. Jeśli te składniki połączymy ze sobą w system przetwarzania danych zgodnie z architekturą Lambda otrzymamy rozwiązanie charakteryzujące się wszystkimi wymaganiami jakie stawia się systemom klasy Big Data.

W pełni autorski kurs Big Data omawia, w zależności od konfiguracji, takie tematy jak: platforma Hadooop i jej podstawowe komponenty (HDFS, YARN i MapReduce), platformy przetwarzania danych Pig i Hive, przetwarzanie danych wsadowe i interaktywne przy wykorzystaniu języka Scala i platformy Spark, komponenty wykorzystywane do zasilania systemów Big Data oraz strumieniowego przetwarzania danych, baza danych HBase, rozwiązania Elasticsearch i Kibana, narzędzie do organizacji przetwarzania Oozie, architekturę Lambda wykorzystywaną do tworzenia systemów Big Data.

Wymagana znajomość programowania obiektowego, ugruntowana wiedza z zakresu relacyjnych baz danych, dobra znajomość SQL-a...
Przydatna jest znajomość pojęć dotyczących tematyki Hurtowni Danych.

Struktura kursu

Kurs podzielony jest na tematy. Każdy z tematów obejmuje wykładowy materiał wprowadzający i zestaw ćwiczeń/zadań/tutoriali, który w praktyczny sposób pozwala zaznajomić się z przedstawianym tematem.

Materiał wykładowy ilustrowany jest slajdami z dużą liczbą przykładów.

Materiał praktyczny ma charakter zadań/tutoriali do samodzielnego wykonania.

Lista tematów

  1. Wprowadzenie

  2. Hadoop - wprowadzenie, MapReduce

  3. HDFS, YARN

  4. Pig

  5. Hive

  6. Wprowadzenie do baz danych noSQL

  7. HBase

  8. Scala

  9. Spark - wprowadzenie

  10. Spark - RDD (podstawy)

  11. Spark - RDD (klucz-wartość)

  12. Spark - RDD (wydajność)

  13. Spark - DataFrame

  14. Spark - Dataset

  15. Spark - GraphX

  16. Spark - ML

  17. Spark Streaming

  18. Apache Kafka

  19. Spark - Structured Streaming

  20. Oozie

  21. BigData - architektura Lambda