Przetwarzanie danych za pomocą PySpark

Analiza danych, Bazy danych, Programowanie

Szkolenie Apache Spark – Kompleksowa praca z danymi od architektury po optymalizację Szkolenie Apache Spark to praktyczny, kompleksowy kurs z zakresu przetwarzania danych w środowiskach Big Data. Program został zaprojektowany tak, aby przeprowadzić uczestników przez wszystkie kluczowe obszary pracy z Apache Spark – od zrozumienia architektury silnika, przez budowę procesów przetwarzania danych, aż po optymalizację wydajności i integrację z ekosystemem Data Platform. To intensywny, warsztatowy kurs Apache Spark, w którym teoria jest zawsze powiązana z praktyką projektową i realnymi scenariuszami biznesowymi. Czym jest Apache Spark i dlaczego warto go znać? Apache Spark to jedna z najważniejszych technologii wykorzystywanych w projektach Big Data, Data Engineering oraz analityce danych. Umożliwia szybkie i skalowalne przetwarzanie dużych wolumenów danych – zarówno w trybie batch, jak i streaming. Znajomość Spark jest dziś kluczową kompetencją dla: Data Engineerów, Architektów danych, Analityków pracujących na dużych zbiorach danych, Zespołów budujących nowoczesne platformy danych.

Czas trwania: 3 dni / 21 h

Opis

Wprowadzenie do architektury

Architektura Apache Spark i porównanie do Apache Hadoop
Koncepcja RDD, DataFrame oraz DataSet
Mechanizmy DAG, Lazy Evaluation, Catalyst
Instalacja środowiska pracy
SparkSession oraz SparkContext

Podstawy pracy z danymi

Tworzenie DataFrame
Podstawowe operacje: selekcja, sortowanie, limit, unikaty
Odczytywanie danych z plików płaskich

Struktury danych

Wprowadzenie do typów binarnych (Apache Parquet)
Definicja schematu
StructType oraz DDL Schema
Projektowanie schematu

Funkcje i filtrowanie

Funkcje na liczbach
Funkcje na łańcuchach znakowych
Funkcje daty oraz czasu
Obsługa NULL

Grupowanie i agregacja

Kolekcje danych
Format struct
Funkcje agregacyjne
Grupowanie danych

Złączenia i transformacje

Operacje JOINS oraz UNIONS
Broadcast JOIN
Pivot / Unpivot
Funkcje użytkownika (UDF)

Wizualizacja i analiza

Funkcje okna
Tworzenie wykresów oraz grafów

Partycjonowanie, optymalizacja, zapis danych

Rodzaje partycjonowania
Cache vs Persist
Shuffling
Zapis danych

[Bonus] Zewnętrzne źródła danych

Połączenie do relacyjnych baz danych
Połączenie do NoSQL
Praca z Object Storage (S3)

FAQ – Szkolenie Apache Spark (Big Data & Data Engineering)

1. Czym jest Apache Spark i czym różni się od Hadoop?

Apache Spark to framework do przetwarzania Big Data w modelu rozproszonym. W szkoleniu omawiamy architekturę Spark, porównanie do Hadoop, mechanizmy DAG, Lazy Evaluation oraz optymalizator Catalyst. Uczestnicy poznają również konfigurację środowiska, SparkSession i SparkContext.

2. Jak pracować z DataFrame, RDD i DataSet?

Szkolenie obejmuje koncepcję RDD, DataFrame oraz DataSet. Uczestnicy uczą się tworzyć DataFrame, wykonywać operacje selekcji, sortowania, limitów i usuwania duplikatów, a także odczytywać dane z plików płaskich.

3. Jak projektować schematy i struktury danych w Spark?

Omawiane są struktury danych, definicja schematu przy użyciu StructType oraz DDL Schema, a także projektowanie schematów zoptymalizowanych pod wydajność. Szkolenie obejmuje również pracę z formatem Apache Parquet oraz typami binarnymi.

4. Jak filtrować i przekształcać dane w Apache Spark?

Uczestnicy poznają funkcje operujące na liczbach, łańcuchach znakowych, datach i czasie, a także obsługę wartości NULL. Omawiane są transformacje danych, funkcje użytkownika (UDF), operacje JOIN, UNION, Broadcast JOIN oraz Pivot i Unpivot.

5. Jak działa grupowanie i agregacja danych w Spark?

Szkolenie obejmuje kolekcje danych, funkcje agregacyjne, grupowanie danych oraz format struct. Uczestnicy uczą się budować wydajne zapytania analityczne oraz przetwarzać duże wolumeny danych w klastrze.

6. Jak optymalizować przetwarzanie danych w Spark?

Omawiamy partycjonowanie danych, różnice między cache i persist, mechanizmy shuffling oraz najlepsze praktyki zapisu danych. Uczestnicy uczą się zwiększać wydajność przetwarzania i redukować koszty operacyjne w środowiskach produkcyjnych.

7. Jak łączyć Spark z zewnętrznymi źródłami danych?

W części bonusowej omawiamy połączenia do relacyjnych baz danych, systemów NoSQL oraz pracę z Object Storage (np. S3). Szkolenie pokazuje, jak budować nowoczesne pipeline’y Data Engineering z wykorzystaniem Apache Spark.

Autor: Piotr Chudzik

ZOBACZ NASZE INNE SZKOLENIA

Zapytaj
o szkolenie

Nie widzisz szkolenia, którego szukasz?

Żadna tematyka nas nie ogranicza – jesteśmy otwarci i stworzymy szkolenie idealnie dopasowane do Twoich potrzeb.

Przykładowe szkolenia: Cisco, Analiza biznesowa, BPMN, UML, PowerBi, Elasticsearch, Sztuczna inteligencja, Python, C++, C#, Selenium, Jenkins, Szkolenia miękkie, UX, Social Media i Marketing, Sprzedaż, Zarządzanie projektami, Design Thinking, Linux, Embedded, Postman, Ms Excel, Adobe, Docker, Kubernetes, Terraform, Azure, SAP, UiPath, Machine Learning.