Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Uczenie ze wzmocnieniem (wspólnie z 1000-318bRL)

Informacje ogólne

Kod przedmiotu: 1000-2M20UZW
Kod Erasmus / ISCED: 11.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0612) Database and network design and administration Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Uczenie ze wzmocnieniem (wspólnie z 1000-318bRL)
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty obieralne dla informatyki
Przedmioty obieralne na studiach drugiego stopnia na kierunku bioinformatyka
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu:

monograficzne

Skrócony opis:

Na zajęciach przedstawione zostaną współczesne techniki oraz algorytmy uczenia ze wzmocnieniem.

Pełny opis:

1. Metody bezmodelowe

a) Formalizm uczenia ze wzmocnieniem: procesy decyzyjne Markowa (MDP) & programowanie dynamiczne (DP)

b) Metody oparte na wartościach\

* SARSA i TD(1)

* kompromis pomiędzy stronniczością i warianacją oraz TD(lambda)

* aproksymatory funkcji i związane z tym wyzwania

c) Metody gradiantu polityki

* Proste gradienty polityki

* Uogólniony estymator przewagi (GAE)

* Problemy związane z metodami gradientu polityki

d) Metody typu aktor-krytyk

* Optymalizacja polityki z użyciem regionów zaufania (TRPO)

* Optymalizacja bliskiej polityki (PPO)

* Algorytm stonowany aktor-krytyk (SAC)

2. Metody z użyciem modelu

a) Szacowanie modelu

b) Planowanie

* Ciągłe i dyskretne problemy sterowania

* Przeszukiwanie drzew Monte-Carlo

* Alfa-zero

3. Przeszukiwania

a) Model wielorękiego bandyty

b) Strategie przeszukiwania związane z niepewnością

4. Tematy badawcze

5. Wystąpienia praktyków

Literatura:

R. Sutton, G. Barto, Reinforcement Learning: An Introduction

Francois-Lavet, F., Henderson P., Islam R., Bellemare M. G., Pineau J.,, An Introduction to Deep Reinforcement Learning.

Szepesvari, C., Algorithms for Reinforcement Learning

Efekty uczenia się:

Wiedza

* Student zna matematyczne sformułowanie uczenia ze wzmocnieniem, które pozwala na opracowywanie efektywnych algorytów uczenia ze wzmocnieniem oraz na analizę istniejących rozwiązań

* Student rozumie podstawowe części składowe algorytów uczenia ze wzmocnieniem i wie, jak ze sobą współdziałają.

* Student wie, kiedy zastosować i jak zaimplementować najważniejsze algorytmy uczenia ze wzmocnieniem z klasy opartych na gradiencie polityki, z klasy opartych na wartości oraz z klasy aktor-krytyk.

* Student ma podstawową wiedzę na temat popularnych bibliotek uczenia ze wzmocnieniem.

Umiejętności

* Student umie opracowywać efektywne alogorytmy i je testować.

* Student umie rozróżniać problemy uczenia ze wzmocnieniem oraz oceniać ich trudność.

* Student umie odpowiednio stosować metody w celu opracowania dedykowanego algorytmu lub stosować istniejące metody w swoich projektach badawczych.

* Student umie implementować własne algorytmy i używać istniejące biblioteki oferujące procedury uczenia ze wzmocnieniem.

* Student umie testować zaimplementowane algorytmy.

* Student umie wykorzystywać informacje zawarte w publikacjach naukowych.

Kompetencje społeczne

* Student zna ograniczenia swojej wiedzy z zakresu uczenia ze wzmocnieniem i zdaje sobie sprawę z konieczności ciągłego zdobywania wiedzy.

* Student rozumie potrzebę systematycznej pracy i terminowości w oddawaniu jej wyników.

* Student rozumie i docenia wagę intelektualnej uczciwości w korzystaniu z oprogramowania innych osób. Zachowuje się etycznie w trakcie implementacji projektów algorytmicznych.

* Student jest zdolny do niezależnego poszukiwania i wykorzystywania różnych rodzajów informacji na temat algorytmów, w tym też w językach obcych.

Metody i kryteria oceniania:

Obecność i projekt.

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.3.0-2b06adb1e (2024-03-27)