Big Data – Praktyczne Wprowadzenie w Pythonie – kurs online
NS/10232
Nauka i Środowisko
Kurs realizowany w formie zdalnej na platformie ZOOM.
Przetwarzanie współbieżne i równoległe w kursie koncentruje się na nauce efektywnego zarządzania dużymi wolumenami danych z użyciem współczesnych narzędzi, takich jak Apache Spark, Apache Kafka, Google BigQuery, Dask i Ray. Słuchacze poznają podstawy przetwarzania współbieżnego i równoległego, ucząc się, jak zaprojektować, wdrożyć i zoptymalizować procesy przetwarzania danych, zarówno w czasie rzeczywistym, jak i wsadowym.
Program obejmuje omówienie teoretycznych aspektów współbieżności i równoległości oraz praktyczne ćwiczenia. Pierwsze zajęcia wprowadzają w koncepcje i narzędzia, a kolejne skupiają się na przetwarzaniu równoległym w Google BigQuery, z naciskiem na optymalizację zapytań i minimalizację kosztów. Następnie Słuchacze dowiedzą się, jak wykorzystywać asyncio i aiohttp do współbieżnego przetwarzania danych w Pythonie oraz jak implementować asynchroniczne operacje I/O. Kurs omawia również bibliotekę Dask, jej zastosowanie w przetwarzaniu dużych zbiorów danych oraz integrację ze Spark do realizacji zadań równoległych.
Kolejne moduły skupiają się na przetwarzaniu strumieniowym z Apache Kafka oraz integracji z Apache Spark Streaming, ucząc Słuchaczy przetwarzania strumieni w czasie rzeczywistym. Ostatnie zajęcia obejmują techniki optymalizacji wydajności oraz projektowanie pełnych pipeline’ów Big Data, co pozwoli Słuchaczom na budowę skalowalnych, efektywnych systemów przetwarzania danych.
Grupa ze zmniejszonym limitem osób.
Cel ogólny:
dostarczenie Słuchaczom praktycznych umiejętności w zakresie przetwarzania współbieżnego i równoległego, które są kluczowe w pracy z dużymi zbiorami danych (Big Data); Słuchacze dowiedzą się, jak efektywnie projektować, wdrażać i optymalizować procesy przetwarzania danych z wykorzystaniem Apache Spark i Apache Kafka, aby skrócić czas analizy i zwiększyć wydajność przetwarzania strumieniowego oraz wsadowego.
Cele szczegółowe:
- zrozumienie różnic między tymi typami przetwarzania i ich zastosowania w analizie dużych zbiorów danych,
- analizowanie sposobów optymalizacji zapytań SQL, stosowanie technik partycjonowania danych oraz strategii zmniejszających koszty przetwarzania,
- projektowanie i implementowanie procesów I/O z użyciem bibliotek asyncio i aiohttp, aby przyspieszyć przetwarzanie danych,
- zdobycie umiejętności używania Dask do skalowania operacji na danych większych niż dostępna pamięć RAM oraz zarządzania równoległością zadań,
- przećwiczenie projektowania i optymalizacji operacji wsadowych i równoległych w dużych zbiorach danych,
- poznanie metody konfiguracji i integracji Apache Kafka z innymi systemami, w tym Apache Spark Streaming, oraz techniki optymalizacji przetwarzania strumieniowego,
- zbudowanie kompleksowych pipeline’ów przetwarzania danych, od zbierania po analizę i wizualizację, z wykorzystaniem różnych narzędzi Big Data.
Korzyści dla słuchacza:
Słuchacz:
- zna podstawowe pojęcia związane z przetwarzaniem współbieżnym i równoległym oraz rozumie różnice między tymi metodami w kontekście analizy dużych zbiorów danych,
- zna architekturę narzędzi, takich jak Apache Spark, Apache Kafka, Google BigQuery, Dask i Ray oraz rozumie ich zastosowanie w przetwarzaniu danych wsadowych i strumieniowych.
- rozumie koncepcje równoległego i asynchronicznego przetwarzania danych oraz ich wpływ na wydajność systemów,
- potrafi projektować i implementować współbieżne oraz równoległe przetwarzanie danych, wykorzystując narzędzia, takie jak Spark, Kafka, Dask i BigQuery,
- umie integrować przetwarzanie wsadowe i strumieniowe z wykorzystaniem Apache Spark Streaming i Apache Kafka,
- potrafi implementować asynchroniczne operacje I/O w Pythonie, korzystając z bibliotek asyncio i aiohttp,
- umie formułować zapytania w Google BigQuery, optymalizując je pod kątem równoległego przetwarzania danych i minimalizacji kosztów.
Metody pracy:
- kurs opiera się na wykładach wprowadzających, które dostarczają niezbędnej wiedzy teoretycznej, oraz ćwiczeniach praktycznych, podczas których Słuchacze stosują zdobytą wiedzę w realnych scenariuszach przetwarzania danych,
- w trakcie zajęć Słuchacze będą pracować z narzędziami do przetwarzania współbieżnego i równoległego, takimi jak Apache Spark, Apache Kafka, Google BigQuery, Dask i Python (asyncio, aiohttp),
- ćwiczenia są projektowane w taki sposób, aby Słuchacze mogli samodzielnie rozwiązywać problemy oraz optymalizować procesy przetwarzania danych.
Metody weryfikacji efektów kształcenia:
egzamin dla chętnych Słuchaczy będzie przeprowadzony w formie rozwiązania zadań praktycznych, które sprawdzą umiejętności Słuchaczy w zakresie przetwarzania współbieżnego i równoległego danych. Będą mieli za zadanie zaprojektować i wdrożyć rozwiązania, wykorzystując narzędzia, takie jak Apache Spark, Apache Kafka, Google BigQuery, Dask oraz Python (asyncio, aiohttp). Zadania będą oceniane pod kątem poprawności, efektywności implementacji oraz optymalizacji procesów przetwarzania danych.