Uczenie ze wzmocnieniem (wspólnie z 1000-318bRL)
Informacje ogólne
Kod przedmiotu: | 1000-2M20UZW |
Kod Erasmus / ISCED: |
11.3
|
Nazwa przedmiotu: | Uczenie ze wzmocnieniem (wspólnie z 1000-318bRL) |
Jednostka: | Wydział Matematyki, Informatyki i Mechaniki |
Grupy: |
Przedmioty obieralne dla informatyki Przedmioty obieralne na studiach drugiego stopnia na kierunku bioinformatyka |
Punkty ECTS i inne: |
(brak)
|
Język prowadzenia: | angielski |
Rodzaj przedmiotu: | monograficzne |
Skrócony opis: |
Na zajęciach przedstawione zostaną współczesne techniki oraz algorytmy uczenia ze wzmocnieniem. |
Pełny opis: |
1. Metody bezmodelowe a) Formalizm uczenia ze wzmocnieniem: procesy decyzyjne Markowa (MDP) & programowanie dynamiczne (DP) b) Metody oparte na wartościach\ * SARSA i TD(1) * kompromis pomiędzy stronniczością i warianacją oraz TD(lambda) * aproksymatory funkcji i związane z tym wyzwania c) Metody gradiantu polityki * Proste gradienty polityki * Uogólniony estymator przewagi (GAE) * Problemy związane z metodami gradientu polityki d) Metody typu aktor-krytyk * Optymalizacja polityki z użyciem regionów zaufania (TRPO) * Optymalizacja bliskiej polityki (PPO) * Algorytm stonowany aktor-krytyk (SAC) 2. Metody z użyciem modelu a) Szacowanie modelu b) Planowanie * Ciągłe i dyskretne problemy sterowania * Przeszukiwanie drzew Monte-Carlo * Alfa-zero 3. Przeszukiwania a) Model wielorękiego bandyty b) Strategie przeszukiwania związane z niepewnością 4. Tematy badawcze 5. Wystąpienia praktyków |
Literatura: |
R. Sutton, G. Barto, Reinforcement Learning: An Introduction Francois-Lavet, F., Henderson P., Islam R., Bellemare M. G., Pineau J.,, An Introduction to Deep Reinforcement Learning. Szepesvari, C., Algorithms for Reinforcement Learning |
Efekty uczenia się: |
Wiedza * Student zna matematyczne sformułowanie uczenia ze wzmocnieniem, które pozwala na opracowywanie efektywnych algorytów uczenia ze wzmocnieniem oraz na analizę istniejących rozwiązań * Student rozumie podstawowe części składowe algorytów uczenia ze wzmocnieniem i wie, jak ze sobą współdziałają. * Student wie, kiedy zastosować i jak zaimplementować najważniejsze algorytmy uczenia ze wzmocnieniem z klasy opartych na gradiencie polityki, z klasy opartych na wartości oraz z klasy aktor-krytyk. * Student ma podstawową wiedzę na temat popularnych bibliotek uczenia ze wzmocnieniem. Umiejętności * Student umie opracowywać efektywne alogorytmy i je testować. * Student umie rozróżniać problemy uczenia ze wzmocnieniem oraz oceniać ich trudność. * Student umie odpowiednio stosować metody w celu opracowania dedykowanego algorytmu lub stosować istniejące metody w swoich projektach badawczych. * Student umie implementować własne algorytmy i używać istniejące biblioteki oferujące procedury uczenia ze wzmocnieniem. * Student umie testować zaimplementowane algorytmy. * Student umie wykorzystywać informacje zawarte w publikacjach naukowych. Kompetencje społeczne * Student zna ograniczenia swojej wiedzy z zakresu uczenia ze wzmocnieniem i zdaje sobie sprawę z konieczności ciągłego zdobywania wiedzy. * Student rozumie potrzebę systematycznej pracy i terminowości w oddawaniu jej wyników. * Student rozumie i docenia wagę intelektualnej uczciwości w korzystaniu z oprogramowania innych osób. Zachowuje się etycznie w trakcie implementacji projektów algorytmicznych. * Student jest zdolny do niezależnego poszukiwania i wykorzystywania różnych rodzajów informacji na temat algorytmów, w tym też w językach obcych. |
Metody i kryteria oceniania: |
Obecność i projekt. |
Właścicielem praw autorskich jest Uniwersytet Warszawski.