Strona główna / Szkolenia / Przetwarzanie danych za pomocą PySpark
Apache Spark to framework do przetwarzania Big Data w modelu rozproszonym. W szkoleniu omawiamy architekturę Spark, porównanie do Hadoop, mechanizmy DAG, Lazy Evaluation oraz optymalizator Catalyst. Uczestnicy poznają również konfigurację środowiska, SparkSession i SparkContext.
Szkolenie obejmuje koncepcję RDD, DataFrame oraz DataSet. Uczestnicy uczą się tworzyć DataFrame, wykonywać operacje selekcji, sortowania, limitów i usuwania duplikatów, a także odczytywać dane z plików płaskich.
Omawiane są struktury danych, definicja schematu przy użyciu StructType oraz DDL Schema, a także projektowanie schematów zoptymalizowanych pod wydajność. Szkolenie obejmuje również pracę z formatem Apache Parquet oraz typami binarnymi.
Uczestnicy poznają funkcje operujące na liczbach, łańcuchach znakowych, datach i czasie, a także obsługę wartości NULL. Omawiane są transformacje danych, funkcje użytkownika (UDF), operacje JOIN, UNION, Broadcast JOIN oraz Pivot i Unpivot.
Szkolenie obejmuje kolekcje danych, funkcje agregacyjne, grupowanie danych oraz format struct. Uczestnicy uczą się budować wydajne zapytania analityczne oraz przetwarzać duże wolumeny danych w klastrze.
Omawiamy partycjonowanie danych, różnice między cache i persist, mechanizmy shuffling oraz najlepsze praktyki zapisu danych. Uczestnicy uczą się zwiększać wydajność przetwarzania i redukować koszty operacyjne w środowiskach produkcyjnych.
W części bonusowej omawiamy połączenia do relacyjnych baz danych, systemów NoSQL oraz pracę z Object Storage (np. S3). Szkolenie pokazuje, jak budować nowoczesne pipeline’y Data Engineering z wykorzystaniem Apache Spark.
AI w HR i rekrutacji – automatyzacja procesów
Event Storming – modelowanie procesów
AI i Microsoft Copilot – wprowadzenie
Nie widzisz szkolenia, którego szukasz?
Żadna tematyka nas nie ogranicza – jesteśmy otwarci i stworzymy szkolenie idealnie dopasowane do Twoich potrzeb.
Przykładowe szkolenia: Cisco, Analiza biznesowa, BPMN, UML, PowerBi, Elasticsearch, Sztuczna inteligencja, Python, C++, C#, Selenium, Jenkins, Szkolenia miękkie, UX, Social Media i Marketing, Sprzedaż, Zarządzanie projektami, Design Thinking, Linux, Embedded, Postman, Ms Excel, Adobe, Docker, Kubernetes, Terraform, Azure, SAP, UiPath, Machine Learning.