Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Statystyka II

Informacje ogólne

Kod przedmiotu: 1000-135ST2
Kod Erasmus / ISCED: 11.203 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0542) Statystyka Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Statystyka II
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy:
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu:

fakultatywne

Założenia (lista przedmiotów):

Rachunek prawdopodobieństwa I (potok I) 1000-114aRP1a
Statystyka I 1000-135ST1

Skrócony opis:

Wykład będzie poświęcony eksploracyjnej analizie danych i predykcji statystycznej.

W pierwszej części omówione będą współczesne metody statystycznej analizy danych wielowymiarowych: streszczenia danych (miary położenia, rozrzutu i zależności między cechami), estymacja gęstości, redukcja wymiaru i klasteryzacja. Drugim tematem będzie predykcja statystyczna, czyli prognozowanie wartości cechy nieobserwowanej na podstawie cech obserwowanych. Przedstawione będą zarówno modele predykcji cechy ciągłej, nazywane tradycyjnie regresją jak również cechy dyskretnej - klasyfikacja lub alokacja. Zajęcia w laboratorium będą poświęcone wykorzystaniu pakietu "R" do analizy i wizualizacji danych oraz implementacji i porównywania algorytmów predykcji.

Pełny opis:

P R O G R A M

Wstęp

* Co to jest "statystyczna" analiza danych?

* Czy dane są próbą z populacji?

* Jaki jest problem obliczeniowy dla populacji?

* Czy dana metoda analizy danych rozwiązuje ten problem?

* Główne zadania: eksploracja danych i predykcja.

Eksploracyjna analiza danych

1. Streszczenia danych.

* Miary położenia: średnia, mediana, moda.

* Miary rozrzutu: wariancja, odchylenie standardowe i bezwzględne,

odległość międzykwartylowa, MAD, entropia, współczynnik Giniego.

* Boxplot.

* Miary bliskości między cechami: błąd średniokwadratowy, entropia względna = odległość Kullbacka-Leiblera, odległość chi-kwadrat.

* Miary zależności między cechami: korelacja liniowa, korelacja rang,

wspólna informacja, współczynnik Goodmana-Kruskala, krzywe ROC.

2. Estymacja gęstości: histogram i estymator jądrowy.

3. Redukcja wymiaru cech: analiza składowych głównych, skalowanie wielowymiarowe i analiza odpowiedniości.

4. Klasteryzacja - redukcja wymiaru danych.

* Klasteryzacja oparta na modelu statystycznym czyli estymacja parametrów mieszanki rozkładów normalnych.

* Metody relokacyjne: k-średnich, k-medoidów.

* Metody hierarchiczne: aglomeracyjne (single-, average-, complete-linkage)

i metody podziału.

Predykcja statystyczna

1. Wstęp do predykcji.

* Regresja klasyfikacja i dyskryminacja na przykładzie metody k-najbliższych sąsiadów (knn).

* E(Y|X=x) - optymalna średniokwadratowa regresja;

* argmaxy p(y|x) - optymalna klasyfikacja.

* Empiryczna ocena błędu predykcji: próba ucząca i testujaca.

* Ocena błedu predykcji za pomoca randomizacji danych: kroswalidacja, testy permutacyjne i metoda bootstrap.

2. Wielowymiarowy rozkład normalny.

* Estymacja parametrów metodą największej wiarygodności.

* Rozkłady pomocnicze: chi-kwadrat, t-studenta, F-Snedecora.

3. Metody parametryczne.

* Modele liniowe: regresja, analiza kowariancji i analiza wariancji.

* Klasyfikacja w modelu normalnym.

* Liniowa analiza dyskryminacyjna.

* Regresja logistyczna i logliniowa.

* Sieci neuronowe.

* Ocena istotności i wybór modelu, przedziały ufności dla współczynników.

* Ocena i wybór modelu.

4. Metody nieparametryczne.

* Regresja nieparametryczna.

* Metoda knn.

* Drzewa klasyfikacyjne i regresyjne.

* Maszyny wektorów podpierających.

Literatura:

1. J. Koronacki i J. Mielniczuk, Statystyka, WNT 2001.

2. J. Koronacki i J. Ćwik, Statystyczne systemy uczące się, WNT 2005.

Efekty uczenia się:

Wiedza i imiejętności

1.Wie, co to są miary położenia, rozrzutu, zależności i bliskości między zmiennymi losowymi. Umie streścić informację o rozkładzie jednowymiarym i zaprogramować to w środowisku do obliczeń statystycznych R.

2.Wie, co to jest i zna podstawowe własności histogramu i estymatora jądrowego gęstości prawdopodobieństwa. Umie tego używać – obliczać i rysować estymatory gęstości jedno- i dwuwymiarowych w R.

3.Rozumie analizę składowych głównych, zna podstawowe charakteryzacje rozkładu spektralnego macierzy kowariancji. Wie jaki ma ona związek z rozkładem na wartości szczególne (SVD) macierzy danych. Umie policzyć rozkład SVD i przedstawić dane na płaszczyźnie dwóch pierwszych składowych głównych. Umie policzyć istotność redukcji całkowitej wariancji danych do k-głównych składowych.

4.Rozumie inne metody redukcji wymiaru danych: skalowanie wielowymiarowe i analizę odpowiedniości (correspondence analysis). Umie to policzyć i przedstawić graficznie w R.

5.Rozumie algorytmy klasteryzacji k-średnich i k-medoidów, umie je wyprowadzić jako zachłanne rozwiązania problemów optymalizacyjnych. Wie, co to jest separowalność - podstawowa ocena istotności podziału danych na k-częsci. Zna metody klasteryzacji aglomeracyjnej. Umie klasteryzować dane w R.

6.Zna podstawowe własności wielowymiarowego rozkładu normalnego. Umie wyprowadzić wzory na estymatory największej wiarygodności dla parametrów tego rozkładu.

7.Rozumie zwiazek optymalnej i bayesowskiej reguły klasyfikacyjnej. Umie wyprowadzić wzory na estymator bajesowskiej reguły klasyfikacyjnej w modelu normalnym. Rozumie estymację błędu klasyfikacji za pomocą kroswalidacji k-krotnej.

8.Wie, co to jest model liniowy. Zna wzory na estymatory najmniejszych kwadratów dla parametrów tego modelu. Umie je wyprowadzić z zasady największej wiarygodności oraz, alternatywnie, przy pomocy rozkładu QR macierzy planu eksperymentu. Umie policzyć streszczenie modelu liniowego w R.

9.Wie, co to jest test ilorazu wiarygodności (LR) . Umie wyprowadzić wzór na LR dla hipotez liniowych w modelu liniowym. Umie policzyć statystykę testową i jej p-wartość w R.

10.Zna residua obserwacji - zwykłe, studentyzowane i kroswalidacyjne. Umie za ich pomocą sprawdzać założenie normalności błędu i szukać obserwacji odstających. Zna główne kryteria informacyjne.

11.Umie budować modele liniowe dla empirycznych danych za pomocą środowiska R.

12.Wie, co to jest uogólniony model liniowy. Rozumie algorytm estymacji jego parametrów za pomocą metody największej wiarygodności. Umie budować uogólnione modele liniowe w R.

Kompetencje społeczne

Rozumie główne metody statystycznej analizy danych. Umie wykonać rutynową analizę w R.

Może analizować dane i budować proste modele we współpracy z przyrodnikiem, inżynierem czy ekonomistą.

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.3.0-2b06adb1e (2024-03-27)