Statystyczna analiza danych w Pythonie – kurs online
NS/9865
Nauka i Środowisko
Kurs realizowany w formie zdalnej na platformie ZOOM i Google Colab. Wymagane jest posiadanie konta Gmail.
Celem kursu jest wyposażenie Słuchaczy w zaawansowaną wiedzę i umiejętności analityczne z zakresu statystyki i analizy danych. Kurs jest zaprojektowany tak, aby zapewnić wszechstronne zrozumienie narzędzi i technik statystycznych, niezbędnych do skutecznej analizy danych w różnych dziedzinach.
Program kursu obejmuje następujące moduły i tematy:
- Streszczenia danych – Słuchacze nauczą się identyfikować i stosować miary położenia, takie jak średnia, mediana i moda, a także różne miary rozrzutu, w tym wariancję, odchylenie standardowe i bezwzględne. Zajęcia pokryją również zaawansowane metody statystyczne, takie jak entropia i współczynnik Giniego. W tym module zostanie także omówiony boxplot oraz miary bliskości i zależności między cechami, w tym błąd średniokwadratowy, odległość Kullbacka Leiblera i korelacje.
- Estymacja gęstości – Słuchacze zdobędą umiejętności w tworzeniu histogramów i stosowaniu estymatorów jądrowych do modelowania rozkładów danych.
- Redukcja wymiaru cech – w tym module zostaną omówione techniki, takie jak analiza składowych głównych (PCA), skalowanie wielowymiarowe i analiza odpowiedniości, które są kluczowe dla efektywnego zrozumienia i przetwarzania wysokowymiarowych zbiorów danych.
- Klasteryzacja – Słuchacze poznają różne metody grupowania danych, od k-średnich i k-medoidów po techniki aglomeracyjne i oparte na modelu statystycznym, co pozwoli na efektywne segmentowanie danych i odkrywanie w nich ukrytych wzorców.
- Obserwacje odstające i brakujące dane – kurs pokryje metody identyfikacji i obsługi obserwacji odstających oraz techniki radzenia sobie z brakującymi danymi, które są niezbędne do utrzymania wiarygodności analiz.
- Predykcja statystyczna – ten moduł wprowadzi Słuchaczy w świat predykcji za pomocą regresji, klasyfikacji i dyskryminacji. Omówione zostaną metody, takie jak k-najbliższych sąsiadów, regresja liniowa i logistyczna, a także ocena błędów predykcyjnych przez kroswalidację i inne techniki walidacji modeli.
- Metody parametryczne i nieparametryczne – Słuchacze nauczą się różnic między modelowaniem parametrycznym a nieparametrycznym oraz zastosują te metody do analizy danych, w tym regresji nieparametrycznej i metod opartych na drzewach decyzyjnych.
Kurs skierowany jest do:
- profesjonalistów, którzy chcą poszerzyć swoje kompetencje w zakresie analizy danych,
- osób rozpoczynających swoją przygodę z analizą danych, które pragną zdobyć solidne podstawy i zaawansowane umiejętności analityczne,
- badaczy i naukowców, którzy chcą zastosować techniki analizy danych w swoich pracach badawczych,
- specjalistów z różnych dziedzin, takich jak marketing, finanse, medycyna, czy inżynieria, którzy chcą wykorzystać analizę danych do podejmowania bardziej świadomych decyzji.
Wymagana wiedza i umiejętności:
- podstawowa znajomość statystyki opisowej, w tym miar położenia i rozrzutu (średnia, mediana, wariancja),
- podstawowa umiejętność pracy z arkuszami kalkulacyjnymi (np. Excel).
Grupa ze zmniejszonym limitem osób.
Cel ogólny:
wyposażenie Słuchaczy w zaawansowaną wiedzę i umiejętności analityczne z zakresu statystyki i analizy danych.
Cele szczegółowe:
- zapoznanie Słuchaczy z podstawowymi oraz zaawansowanymi miarami statystycznymi do opisywania danych, w tym miarami położenia (średnia, mediana, moda) i rozrzutu (wariancja, odchylenie standardowe), a także bardziej zaawansowanymi miarami jak entropia i współczynnik Giniego,
- poznanie metod analizy zależności między cechami za pomocą różnych technik statystycznych, takich jak korelacja liniowa, korelacja rang oraz bardziej zaawansowane metody, jak współczynnik Goodman-Kruskala i krzywe ROC,
- opanowanie umiejętności estymacji gęstości i modelowania rozkładów przy użyciu metod, takich jak histogramy i estymatory jądrowe,
- kształtowanie umiejętności redukcji wymiarowości danych przez techniki, takie jak analiza składowych głównych (PCA) i skalowanie wielowymiarowe, umożliwiające lepsze zrozumienie struktury danych i ułatwiające dalszą analizę,
- zapoznanie Słuchaczy z technikami klasteryzacji danych za pomocą różnych metod, od technik relokacyjnych (k-średnich) do metod hierarchicznych i opartych na modelach statystycznych, co pozwoli na identyfikację naturalnych grup w danych,
- opracowanie metod radzenia sobie z obserwacjami odstającymi i brakującymi danymi, co jest kluczowe w praktycznych zastosowaniach analizy danych,
- opanowanie umiejętności predykcji i klasyfikacji przy użyciu metod statystycznych i uczenia maszynowego, w tym regresji liniowej, analizy dyskryminacyjnej, regresji logistycznej oraz nielinearnych metod, jak maszyny wektorów nośnych i drzewa decyzyjne,
- kształtowanie umiejętności oceny skuteczności modeli poprzez techniki, takie jak kroswalidacja, testy permutacyjne oraz metoda bootstrap.
Kurs przygotowuje Słuchaczy do samodzielnej analizy danych i interpretacji wyników, rozwija zdolności krytycznego myślenia statystycznego oraz umożliwia efektywne stosowanie technik statystycznych i analitycznych w różnorodnych kontekstach zawodowych i badawczych.
Korzyści dla słuchacza:
Słuchacz zna:
- podstawowe oraz zaawansowane miary statystyczne do opisywania danych, w tym miary położenia (średnia, mediana, moda) i rozrzutu (wariancja, odchylenie standardowe), a także bardziej zaawansowane miary, jak entropia i współczynnik Giniego,
- różne metody statystyczne do analizy zależności między zmiennymi, takie jak korelacja liniowa, korelacja rang, współczynnik Goodman-Kruskala oraz krzywe ROC,
- techniki estymacji gęstości i modelowania rozkładów przy użyciu metod, takich jak histogramy i estymatory jądrowe,
- techniki redukcji wymiarowości danych, takie jak analiza składowych głównych (PCA) i skalowanie wielowymiarowe,
- różne metody klasteryzacji danych, od metod relokacyjnych (k-średnich) po metody hierarchiczne i oparte na modelach statystycznych,
- metody radzenia sobie z obserwacjami odstającymi i brakującymi danymi,
- metody predykcji i klasyfikacji przy użyciu technik statystycznych i uczenia maszynowego, takich jak regresja liniowa, analiza dyskryminacyjna, regresja logistyczna oraz nielinearne metody, jak maszyny wektorów nośnych i drzewa decyzyjne,
- techniki oceny skuteczności modeli, takie jak kroswalidacja, testy permutacyjne oraz metoda bootstrap.
Słuchacz umie:
- stosować miary położenia i rozrzutu do opisywania i interpretowania danych,
- wykorzystywać różne metody statystyczne do analizy zależności między zmiennymi,
- przeprowadzać estymację gęstości i modelowanie rozkładów przy użyciu histogramów i estymatorów jądrowych,
- redukować wymiarowość danych przy użyciu PCA i skalowania wielowymiarowego w celu lepszego zrozumienia struktury danych,
- klasteryzować dane za pomocą różnych technik, identyfikując naturalne grupy w danych,
- opracowywać i wdrażać metody radzenia sobie z obserwacjami odstającymi i brakującymi danymi,
- przewidywać i klasyfikować dane przy użyciu metod statystycznych i technik uczenia maszynowego,
- ocenić skuteczność modeli za pomocą kroswalidacji, testów permutacyjnych oraz metody bootstrap.
Słuchacz potrafi:
- samodzielnie analizować i interpretować dane, wykorzystując zdobyte umiejętności,
- krytycznie myśleć o statystyce i analizie danych, podejmując świadome decyzje oparte na analizie statystycznej,
- efektywnie stosować techniki statystyczne i analityczne w różnorodnych kontekstach zawodowych i badawczych,
- przeprowadzać zaawansowane analizy danych i tworzyć modele predykcyjne i klasyfikacyjne,
- ocenić i poprawiać skuteczność modeli w praktycznych zastosowaniach analizy danych.
Metody pracy:
metody pracy na kursie statystyki i analizy danych będą opierały się na zastosowaniu praktycznych zadań, które pozwolą Słuchaczom stosować teoretyczną wiedzę w kontekście rzeczywistych danych:
Metody weryfikacji efektów kształcenia:
egzamin końcowy podczas kursu będzie składał się z dwóch głównych części:
- indywidualnego projektu analizy danych,
- prezentacji wyników.
Celem egzaminu jest ocena praktycznych umiejętności Słuchaczy w zakresie analizy danych, interpretacji wyników oraz zdolności do komunikowania swoich wniosków w sposób klarowny i przekonujący.