Przetwarzanie danych za pomocą PySpark

Szkolenie Apache Spark – Kompleksowa praca z danymi od architektury po optymalizację Szkolenie Apache Spark to praktyczny, kompleksowy kurs z zakresu przetwarzania danych w środowiskach Big Data. Program został zaprojektowany tak, aby przeprowadzić uczestników przez wszystkie kluczowe obszary pracy z Apache Spark – od zrozumienia architektury silnika, przez budowę procesów przetwarzania danych, aż po optymalizację wydajności i integrację z ekosystemem Data Platform. To intensywny, warsztatowy kurs Apache Spark, w którym teoria jest zawsze powiązana z praktyką projektową i realnymi scenariuszami biznesowymi. Czym jest Apache Spark i dlaczego warto go znać? Apache Spark to jedna z najważniejszych technologii wykorzystywanych w projektach Big Data, Data Engineering oraz analityce danych. Umożliwia szybkie i skalowalne przetwarzanie dużych wolumenów danych – zarówno w trybie batch, jak i streaming. Znajomość Spark jest dziś kluczową kompetencją dla: Data Engineerów, Architektów danych, Analityków pracujących na dużych zbiorach danych, Zespołów budujących nowoczesne platformy danych.

Czas trwania: 3 dni / 21 h

Opis

Wprowadzenie do architektury

  • Architektura Apache Spark i porównanie do Apache Hadoop
  • Koncepcja RDD, DataFrame oraz DataSet
  • Mechanizmy DAG, Lazy Evaluation, Catalyst
  • Instalacja środowiska pracy
  • SparkSession oraz SparkContext

Podstawy pracy z danymi

  • Tworzenie DataFrame
  • Podstawowe operacje: selekcja, sortowanie, limit, unikaty
  • Odczytywanie danych z plików płaskich

Struktury danych

  • Wprowadzenie do typów binarnych (Apache Parquet)
  • Definicja schematu
  • StructType oraz DDL Schema
  • Projektowanie schematu

Funkcje i filtrowanie

  • Funkcje na liczbach
  • Funkcje na łańcuchach znakowych
  • Funkcje daty oraz czasu
  • Obsługa NULL

Grupowanie i agregacja

  • Kolekcje danych
  • Format struct
  • Funkcje agregacyjne
  • Grupowanie danych

Złączenia i transformacje

  • Operacje JOINS oraz UNIONS
  • Broadcast JOIN
  • Pivot / Unpivot
  • Funkcje użytkownika (UDF)

Wizualizacja i analiza

  • Funkcje okna
  • Tworzenie wykresów oraz grafów

Partycjonowanie, optymalizacja, zapis danych

  • Rodzaje partycjonowania
  • Cache vs Persist
  • Shuffling
  • Zapis danych

[Bonus] Zewnętrzne źródła danych

  • Połączenie do relacyjnych baz danych
  • Połączenie do NoSQL
  • Praca z Object Storage (S3)

FAQ – Szkolenie Apache Spark (Big Data & Data Engineering)

1. Czym jest Apache Spark i czym różni się od Hadoop?

Apache Spark to framework do przetwarzania Big Data w modelu rozproszonym. W szkoleniu omawiamy architekturę Spark, porównanie do Hadoop, mechanizmy DAG, Lazy Evaluation oraz optymalizator Catalyst. Uczestnicy poznają również konfigurację środowiska, SparkSession i SparkContext.

2. Jak pracować z DataFrame, RDD i DataSet?

Szkolenie obejmuje koncepcję RDD, DataFrame oraz DataSet. Uczestnicy uczą się tworzyć DataFrame, wykonywać operacje selekcji, sortowania, limitów i usuwania duplikatów, a także odczytywać dane z plików płaskich.

3. Jak projektować schematy i struktury danych w Spark?

Omawiane są struktury danych, definicja schematu przy użyciu StructType oraz DDL Schema, a także projektowanie schematów zoptymalizowanych pod wydajność. Szkolenie obejmuje również pracę z formatem Apache Parquet oraz typami binarnymi.

4. Jak filtrować i przekształcać dane w Apache Spark?

Uczestnicy poznają funkcje operujące na liczbach, łańcuchach znakowych, datach i czasie, a także obsługę wartości NULL. Omawiane są transformacje danych, funkcje użytkownika (UDF), operacje JOIN, UNION, Broadcast JOIN oraz Pivot i Unpivot.

5. Jak działa grupowanie i agregacja danych w Spark?

Szkolenie obejmuje kolekcje danych, funkcje agregacyjne, grupowanie danych oraz format struct. Uczestnicy uczą się budować wydajne zapytania analityczne oraz przetwarzać duże wolumeny danych w klastrze.

6. Jak optymalizować przetwarzanie danych w Spark?

Omawiamy partycjonowanie danych, różnice między cache i persist, mechanizmy shuffling oraz najlepsze praktyki zapisu danych. Uczestnicy uczą się zwiększać wydajność przetwarzania i redukować koszty operacyjne w środowiskach produkcyjnych.

7. Jak łączyć Spark z zewnętrznymi źródłami danych?

W części bonusowej omawiamy połączenia do relacyjnych baz danych, systemów NoSQL oraz pracę z Object Storage (np. S3). Szkolenie pokazuje, jak budować nowoczesne pipeline’y Data Engineering z wykorzystaniem Apache Spark.

Autor: Piotr Chudzik

ZOBACZ NASZE INNE SZKOLENIA

Zapytaj
o szkolenie

Nie widzisz szkolenia, którego szukasz?

Żadna tematyka nas nie ogranicza – jesteśmy otwarci i stworzymy szkolenie idealnie dopasowane do Twoich potrzeb.

Przykładowe szkolenia: Cisco, Analiza biznesowa, BPMN, UML, PowerBi, Elasticsearch, Sztuczna inteligencja, Python, C++, C#, Selenium, Jenkins, Szkolenia miękkie, UX, Social Media i Marketing, Sprzedaż, Zarządzanie projektami, Design Thinking, Linux, Embedded, Postman, Ms Excel, Adobe, Docker, Kubernetes, Terraform, Azure, SAP, UiPath, Machine Learning.