Uczenie ze wzmocnieniem (wspólnie z 1000-318bRL)

Informacje ogólne

Kod przedmiotu:	1000-2M20UZW
Kod Erasmus / ISCED:	11.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0612) Database and network design and administration Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu:	Uczenie ze wzmocnieniem (wspólnie z 1000-318bRL)
Jednostka:	Wydział Matematyki, Informatyki i Mechaniki
Grupy:	Przedmioty obieralne dla informatyki Przedmioty obieralne na studiach drugiego stopnia na kierunku bioinformatyka
Punkty ECTS i inne:	(brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS: roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS; tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h; 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się; tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS; nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta. zobacz reguły punktacji
Język prowadzenia:	angielski
Rodzaj przedmiotu:	monograficzne
Skrócony opis:	Na zajęciach przedstawione zostaną współczesne techniki oraz algorytmy uczenia ze wzmocnieniem.
Pełny opis:	1. Metody bezmodelowe a) Formalizm uczenia ze wzmocnieniem: procesy decyzyjne Markowa (MDP) & programowanie dynamiczne (DP) b) Metody oparte na wartościach\ * SARSA i TD(1) * kompromis pomiędzy stronniczością i warianacją oraz TD(lambda) * aproksymatory funkcji i związane z tym wyzwania c) Metody gradiantu polityki * Proste gradienty polityki * Uogólniony estymator przewagi (GAE) * Problemy związane z metodami gradientu polityki d) Metody typu aktor-krytyk * Optymalizacja polityki z użyciem regionów zaufania (TRPO) * Optymalizacja bliskiej polityki (PPO) * Algorytm stonowany aktor-krytyk (SAC) 2. Metody z użyciem modelu a) Szacowanie modelu b) Planowanie * Ciągłe i dyskretne problemy sterowania * Przeszukiwanie drzew Monte-Carlo * Alfa-zero 3. Przeszukiwania a) Model wielorękiego bandyty b) Strategie przeszukiwania związane z niepewnością 4. Tematy badawcze 5. Wystąpienia praktyków
Literatura:	R. Sutton, G. Barto, Reinforcement Learning: An Introduction Francois-Lavet, F., Henderson P., Islam R., Bellemare M. G., Pineau J.,, An Introduction to Deep Reinforcement Learning. Szepesvari, C., Algorithms for Reinforcement Learning
Efekty uczenia się:	Wiedza * Student zna matematyczne sformułowanie uczenia ze wzmocnieniem, które pozwala na opracowywanie efektywnych algorytów uczenia ze wzmocnieniem oraz na analizę istniejących rozwiązań * Student rozumie podstawowe części składowe algorytów uczenia ze wzmocnieniem i wie, jak ze sobą współdziałają. * Student wie, kiedy zastosować i jak zaimplementować najważniejsze algorytmy uczenia ze wzmocnieniem z klasy opartych na gradiencie polityki, z klasy opartych na wartości oraz z klasy aktor-krytyk. * Student ma podstawową wiedzę na temat popularnych bibliotek uczenia ze wzmocnieniem. Umiejętności * Student umie opracowywać efektywne alogorytmy i je testować. * Student umie rozróżniać problemy uczenia ze wzmocnieniem oraz oceniać ich trudność. * Student umie odpowiednio stosować metody w celu opracowania dedykowanego algorytmu lub stosować istniejące metody w swoich projektach badawczych. * Student umie implementować własne algorytmy i używać istniejące biblioteki oferujące procedury uczenia ze wzmocnieniem. * Student umie testować zaimplementowane algorytmy. * Student umie wykorzystywać informacje zawarte w publikacjach naukowych. Kompetencje społeczne * Student zna ograniczenia swojej wiedzy z zakresu uczenia ze wzmocnieniem i zdaje sobie sprawę z konieczności ciągłego zdobywania wiedzy. * Student rozumie potrzebę systematycznej pracy i terminowości w oddawaniu jej wyników. * Student rozumie i docenia wagę intelektualnej uczciwości w korzystaniu z oprogramowania innych osób. Zachowuje się etycznie w trakcie implementacji projektów algorytmicznych. * Student jest zdolny do niezależnego poszukiwania i wykorzystywania różnych rodzajów informacji na temat algorytmów, w tym też w językach obcych.
Metody i kryteria oceniania:	Obecność i projekt.

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.