Machine Learning 1: classification methods
Informacje ogólne
| Kod przedmiotu: | 2400-DS1ML1 |
| Kod Erasmus / ISCED: |
14.3
|
| Nazwa przedmiotu: | Machine Learning 1: classification methods |
| Jednostka: | Wydział Nauk Ekonomicznych |
| Grupy: |
Anglojęzyczna oferta zajęć WNE UW Przedmioty 4EU+ (z oferty jednostek dydaktycznych) Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 1 (6*30h) Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 2 (2*30h) Przedmioty obowiązkowe dla I roku Data Science and Business Analytics |
| Punkty ECTS i inne: |
4.00
|
| Język prowadzenia: | angielski |
| Rodzaj przedmiotu: | obowiązkowe |
| Skrócony opis: |
Kurs oferuje szeroki przegląd zastosowań metod uczenia maszynowego w kontekście uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych. Obejmuje zarówno opis podstaw teoretycznych, jak i praktyczne przykłady i zastosowania poszczególnych metod. W ramach kursu omówione zostaną podstawy uczenia maszynowego, w tym mierzenie jakości predykcji, testowanie modelu, metody jego walidacji, dobór zmiennych, prostą regresję liniową i logistyczną, analizę dyskryminacyjną oraz metodę k-najbliższych sąsiadów, maszyny wektorów nośnych, regresję grzbietową (ridge) i metodę Lasso. |
| Pełny opis: |
1. Wprowadzenie do uczenia maszynowego a. Czym jest, a czym nie jest uczenie maszynowe b. Różnice między klasyfikacją, regresją i grupowaniem c. wprowadzenie funkcji kosztu d. Przykładowe metody parametryczne - regresja liniowa i regresja logistyczna 2. Pomiar skuteczności modelu, diagnostyka uczenia maszynowego 3. Miary jakości algorytmów uczenia nadzorowanego a. (skuteczność modelu, pomiar błędu, tabela klasyfikacji i miary na niej oparte, krzywa ROC, AUC, RMSE) b. Krzywa uczenia c. dane uczące i dane testowe 3. Testowanie modelu a. zwiększenie złożoności modelu w celu poprawy dopasowania b. kompromis między wariancją modelu i jego obciążeniem c. walidacja krzyżowa, wybór liczby kroków 4. Zarządzanie zmiennymi a. Transformacja zmiennych b. Dyskretyzacja cech ciągłych c. Standaryzacja / normalizacja 5. k-NN a. Klasyfikacja za pomocą metody k-najbliższych sąsiadów b. Regresja za pomocą metody k-najbliższych sąsiadów 6. Maszyna wektorów nośnych a. Optymalizowana funkcja celu b. Rozdzielanie danych za pomocą maksymalnego marginesu c. Wybór funkcji jądra dla bardziej złożonych danych d. Modyfikacja algorytmu SVM dla problemów regresyjnych 7. Metody wyboru zmiennych a. Metody automatycznego wyboru podzbioru zmiennych (selekcja krokowa, eliminacja wsteczna, selekcja postępująca) b. Metody filtrowania - określanie przydatności zmiennych (np. test Chi kwadrat, information gain, współczynniki korelacji) 8. Metody regularyzacji a. wprowadzenie kary za złożoność modelu b. Regularyzacja L1 dla dodatkowej rzadkości współczynników c. Regularyzacja L2 dla penalizacji dużych współczynników d. regularyzowana regresja liniowa e. regularyzowana regresja logistyczna 9. Regresja Lasso 10. Praktyczne warsztaty na rzeczywistych danych 11. Prezentacje projektów |
| Literatura: |
Harrington, Peter. Machine learning in action. Vol. 5. Greenwich, CT: Manning, 2012. Zumel, Nina, John Mount, and Jim Porzak. Practical data science with R. Manning, 2014. Lantz, Brett. Machine learning with R. Packt Publishing Ltd, 2013. Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "The Elements of Statistical Learning: Data Mining, Inference, and Prediction." Springer Series in Statistics ( (2009). |
| Efekty uczenia się: |
Po ukończeniu przedmiotu przeciętny student będzie posiadał rzetelną, uporządkowaną wiedzę dotyczącą szerokiego zakresu narzędzi uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych, takich jak regresja liniowa i logistyczna, liniowa analiza dyskryminacyjna, kNN, regresja grzbietowa, LASSO, Support Vector Machine. Będzie znał podstawy teoretyczne wymienionych algorytmów, jak i umiejętności programistyczne pozwalające na ich zastosowanie w praktyce. Będzie potrafił dobrać algorytmy modelowania predykcyjnego najlepiej dopasowane do specyfiki badanego problemu, dokonać rzetelnej walidacji modeli, wyboru i transformacji zmiennych, a także wykonać samodzielny projekt badawczy z wykorzystaniem poznanych metod. K_U02, K_U05 |
| Metody i kryteria oceniania: |
Dwa praktyczne projekty uczenia maszynowego przygotowane w grupach co najwyżej 2 studentów - jeden dla problemu regresji i jeden dla klasyfikacji. Każdy projekt powinien być przygotowany na innym zbiorze danych wybranym przez studentów - jeden rozsądnie mały zbiór danych i jeden duży zbiór danych - zaakceptowanym przez prowadzącego (na przykład z https://www.kaggle.com). Studenci mają przygotować prezentację i rozszerzony raport w RMarkdown lub Python notebook, zawierający bloki kodu, które pozwolą w pełni odtworzyć zastosowaną analizę. |
Zajęcia w cyklu "Semestr letni 2024/25" (zakończony)
| Okres: | 2025-02-17 - 2025-06-08 |
Przejdź do planu
PN KON
KON
WT ŚR CZ PT KON
KON
|
| Typ zajęć: |
Konwersatorium, 30 godzin
|
|
| Koordynatorzy: | Piotr Wójcik | |
| Prowadzący grup: | Szymon Lis, Michał Woźniak, Piotr Wójcik | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę |
Zajęcia w cyklu "Semestr letni 2025/26" (jeszcze nie rozpoczęty)
| Okres: | 2026-02-16 - 2026-06-07 |
Przejdź do planu
PN KON
KON
WT ŚR CZ PT KON
KON
|
| Typ zajęć: |
Konwersatorium, 30 godzin
|
|
| Koordynatorzy: | Piotr Wójcik | |
| Prowadzący grup: | Szymon Lis, Michał Woźniak, Piotr Wójcik | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę |
|
| Skrócony opis: |
Celem kursu jest wprowadzenie do zagadnień uczenia maszynowego w kontekście klasyfikacji, czyli modelowania zjawisk o charakterze jakościowym i regresji, służącej do modelowania zjawisk o charakterze ilościowym. Klasyfikacja może mieć charakter binarny (dwuwartościowa zmienna zależna) albo wielowartościowy. Obejmuje on zarówno opis podstaw teoretycznych, jak i praktyczne przykłady i zastosowania poszczególnych metod. Szczegółowo omówione zostaną kwestie związane z oceną jakości modelu, problemem przeuczenia modelu, podziałem na próbę uczącą i testową, a także walidacją krzyżową modeli. Wśród metod modelowania przypomniana zostanie regresja liniowa i logistyczna (binarna i wielomianowa). W dalszej części kursu przedstawiona zostanie również metoda k-najbliższych sąsiadów z zastosowaniem zarówno do problemów klasyfikacji, jak i regresji, maszyna i regresja wektorów nośnych (ang. support vector machine), a także metody regularyzacji, w tym regresja grzbietowa (ang. ridge regression), metoda Lasso, czy sieć elastyczna. Ważną częścią kursu będzie również omówienie kwestii doboru zmiennych do modelu, bilansowania próby w problemach klasyfikacyjnych, transformacji zmiennych (ang. feature engineering) czy obsługiwania braków danych. |
|
| Pełny opis: |
1. Wprowadzenie do uczenia maszynowego a. czym jest uczenie maszynowe b. różnica między klasyfikacją a regresją c. prognozowanie vs wnioskowanie d. ogólna notacja używana w modelowaniu predykcyjnym e. metody parametryczne vs nieparametryczne 2. Przygotowanie danych do analizy a. wstępna analiza typów danych i rozkładów zmiennych b. właściwe zakodowanie zmiennych jakościowych – nominalnych i porządkowych na potrzeby modelowania 3. Metody wyboru zmiennych a. Metody automatycznego wyboru podzbioru zmiennych (selekcja krokowa, eliminacja wsteczna, selekcja postępująca) b. Metody filtrowania - określanie przydatności zmiennych (np. test Chi kwadrat, information gain, współczynniki korelacji) 4. Przypomnienie metod parametrycznych a. regresja liniowa b. regresja logistyczna binarna c. wielomianowa regresja logistyczna 5. Funkcja kosztu, ocena jakości algorytmów uczenia nadzorowanego a. regresja – metryki błędów: RMSE, MAE, MedAE, MAPE, R2 b. klasyfikacja – tabela klasyfikacji i miary na niej oparte, krzywa ROC, AUC 6. Problem przeuczenia i metody walidacji modeli a. kompromis między wariancją modelu i jego obciążeniem b. cele walidacji – pomiar błędu na nowych danych, strojenie hiperparametrów modelu c. rodzaje walidacji 7. Algorytm k najbliższych sąsiadów (KNN) a. Klasyfikacja za pomocą metody k-najbliższych sąsiadów b. Regresja za pomocą metody k-najbliższych sąsiadów 8. Maszyna wektorów nośnych i regresja wektorów nośnych a. rozdzielanie grup w danych za pomocą maksymalnego marginesu b. kernel trick i maszyna wektorów nośnych c. wybór funkcji jądra d. zastosowanie algorytmu SVR dla problemów regresyjnych 9. Metody regularyzacji a. wprowadzenie kary za złożoność modelu b. metoda LASSO - regularyzacja L1 c. regresja grzbietowa - regularyzacja L2 d. sieć elastyczna 10. Egzamin połówkowy (teoretyczny) 11. Zarządzanie zmiennymi a. transformacja zmiennych, w tym ilościowej zmiennej objaśnianej b. standaryzacja vs. normalizacja c. dyskretyzacja cech ciągłych (binning) d. metoda optimal binning 12. Metody bilansowania próby w problemie klasyfikacyjnym a. losowy upsampling (oversampling) i downsampling (undersampling) b. niestandardowy upsampling: SMOTE, ADASYN c. niestandardowy downsampling: Tomek Links 13. Braki danych – sprawdzenie i metody imputacji (OPCJONALNIE) a. imputacja z wykorzystaniem prostych statystyk opisowych b. imputacja na podstawie modelu c. imputacja na podstawie podobnych obserwacji 14. Liniowa i kwadratowa analiza dyskryminacji (OPCJONALNIE) 15. Prezentacje projektów |
|
| Literatura: |
Polecana literatura: Podręcznik podstawowy: Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani (2021/2023), “Introduction to statistical learning. With Applications in R/Python”, Springer-Verlag Podręcznik dodatkowy: Hastie Trevor, Robert Tibshirani and Jerome Friedman (2009), “Elements of statistical learning”, Springer-Verlag |
|
Właścicielem praw autorskich jest Uniwersytet Warszawski.
