Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Statystyczna analiza danych

Informacje ogólne

Kod przedmiotu: 1000-714SAD
Kod Erasmus / ISCED: 11.303 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0612) Database and network design and administration Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Statystyczna analiza danych
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty obowiązkowe dla II roku bioinformatyki
Przedmioty obowiązkowe dla III roku matematyki
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

obowiązkowe

Założenia (opisowo):

Oczekuje się dobrej znajomości zagadnień ujętych w sylabusach przedmiotów Analiza matematyczna II.1 oraz Rachunek prawdopodobieństwa I.

Skrócony opis:

Wprowadzenie podstawowych pojęć i narzędzi statystycznych takich jak estymacja i weryfikacja hipotez, a także statystycznej analizy danych, w tym klasyfikacji i klasteryzacji.

Studenci kierunku Matematyka mogą alternatywnie wybrać 1000-116bST o nieco innym charakterze.

Pełny opis:

1. Podstawowe pojęcia rachunku prawdopodobieństwa i statystyki: zmienne losowe, ich rozkłady i charakterystyki liczbowe, przestrzeń probabilistyczna,

2. Podstawowe pojęcia statystyki przestrzeń statystyczna, eksperyment losowy, statystyka, model statystyczny, miary poprawności modelu

3. Estymacja. Obciążenie i efektywność estymatora, estymatory największej wiarygodności, estymacja przedziałowa

4. Podsumowywanie, wizualizacja danych. Wykres kwantyl-kwantyl, histogram, gładki estymator funkcji gęstości, wykres pudełkowy

5. Testowanie hipotez statystycznych Pojęcie hipotezy statystycznej, zasady weryfikacji hipotez, błędy I i II rodzaju, moc testu, podstawowy lemat Neymanna-Pearsona, parametryczne testy istotności, testy istotności dla wartości średniej, test istotności dla wariancji

6. Pojęcie p-wartości i pułapki testowania hipotez. P-wartość, wielkość efektu, korekcja błędów wielokrotnego testowania

7. Przydatne testy. Testy istotności dla dwóch średnich, testowanie nieparametrycznych hipotez dla median, testy zgodności, analiza wariancji.

8. Regresja liniowa, prosta, wielokrotna i z rozszerzeniami, założenia, estymacja parametrów i ocenianie dopasowania modelu liniowego.

9. Klasyfikacja. Regresja logistyczna, LDA, QDA, KNN

10. Metody re-próbkowania. Walidacja krzyżowa, bootstrap

11. Selekcja modelu i regularyzacja. Wybór podzbioru cech predykcyjnych, korzystanie z modelu walidacyjnego i walidacji krzyżowej, dane wielkowymiarowe, regularyzacja lasso i siodłowa, metoda częściowych najmniejszych kwadratów.

12. Metody drzewiaste, drzewa decyzyjne, bagging, drzewa losowe, boosting

13. Maszyny wektorów wspierających. Hiperpłaszczyzny separujące, klasyfikator największego marginesu, klasyfikatory wektorów wspierających, maszyny wektorów wspierających.

14. Metody redukcji wymiaru. PCA

15. Uczenie bez nadzoru. Klasteryzacja, algorytmy hierarchicznego klastrowania, k-średnich.

16. Modele nieliniowe. Regresja wielomianowa, splajny, uogólnione modele addytywne.

Literatura:

Lesław Gajek, Marek Kałuszka, Wnioskowanie statystyczne, modele i metody.

John A. Rice, Mathematical Statistics and Data Analysis.

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Introduction to Statistical Learning in R.

Efekty uczenia się:

Wiedza:

1. Ma ogólna wiedzę o problemach statystycznej analizy danych.

2. Ma podstawową wiedzę w zakresie podstawowych narzędzi statystycznych stosowanych w modelowaniu i analizie danych.

3. Ma wiedzę z zakresu podstawowych metod rachunku prawdopodobieństwa i statystyki, w tym elementów teorii estymacji i testowania hipotez

Umiejętności:

1. Potrafi wykonać proste analizy i testy statystyczne.

2. Potrafi stosować techniki nowoczesnej statystycznej analizy danych.

3. Potrafi konstruować modele probabilistyczne i stosować metody statystyczne do analizy danych.

Kompetencje społeczne:

1. Umie wyjaśnić w zrozumiałym języku sens wnioskowania statystycznego.

Metody i kryteria oceniania:

Wpływ na ocenę końcową: egzamin 40%, kolokwium 20%, zadanie zaliczające 20%, aktywność na ćwiczeniach 10%, aktywność na labach 10%.

Zajęcia w cyklu "Semestr letni 2023/24" (w trakcie)

Okres: 2024-02-19 - 2024-06-16
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Błażej Miasojedow
Prowadzący grup: Barbara Domżał, Błażej Miasojedow, Szymon Nowakowski, Piotr Pokarowski, Łukasz Rajkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.2.0-80474ed05 (2024-03-12)