Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Reinforcement learning

Informacje ogólne

Kod przedmiotu: 1000-318bRL
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Reinforcement learning
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty obieralne dla informatyki
Przedmioty obowiązkowe dla I roku Machine Learning
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu:

monograficzne

Założenia (lista przedmiotów):

Głębokie sieci neuronowe (wspólne z 1000-317bDNN) 1000-2M16GSN

Skrócony opis:

Celem przedmiotu jest przedstawienie współczesnych technik oraz algorytmów uczenia ze wzmocnieniem ze szczególnym uwzględnieniem metod bezmodelowych, metod z użyciem modelu oraz metod opartych o przeszukiwanie.

Pełny opis:

1. Metody bezmodelowe

a) Formalizm uczenia ze wzmocnieniem: procesy decyzyjne Markowa (MDP) & programowanie dynamiczne (DP)

b) Metody oparte na wartościach

* SARSA i TD(1)

* kompromis pomiędzy stronniczością i wariancją oraz TD(lambda)

* aproksymatory funkcji i związane z tym wyzwania

c) Metody gradiantu polityki

* Proste gradienty polityki

* Uogólniony estymator przewagi (GAE)

* Problemy związane z metodami gradientu polityki

d) Metody typu aktor-krytyk

* Optymalizacja polityki z użyciem regionów zaufania (TRPO)

* Optymalizacja bliskiej polityki (PPO)

* Algorytm stonowany aktor-krytyk (SAC)

2. Metody z użyciem modelu

a) Szacowanie modelu

b) Planowanie

* Ciągłe i dyskretne problemy sterowania

* Przeszukiwanie drzew Monte-Carlo

* Alfa-zero

3. Przeszukiwania

a) Model wielorękiego bandyty

b) Strategie przeszukiwania związane z niepewnością

4. Tematy badawcze

5. Wystąpienia praktyków.

Literatura:

R. Sutton, G. Barto, Reinforcement Learning: An Introduction

Francois-Lavet, F., Henderson P., Islam R., Bellemare M. G., Pineau J.,, An Introduction to Deep Reinforcement Learning.

Szepesvari, C., Algorithms for Reinforcement Learning

Efekty uczenia się:

Wiedza: student zna i rozumie

* własności algorytmów uczenia ze wzmocnieniem, wie kiedy które zastosować i jak zaimplementować najważniejsze z nich ze szczególnym uwzględnieniem klasy algorytmów opartych na gradiencie polityki, z klasy opartych na wartości oraz z klasy aktor-krytyk [K_W14].

Umiejętności: student potrafi

* odpowiednio stosować metody w celu opracowania dedykowanego algorytmu uczenia ze wzmocnieniem lub stosować istniejące metody w swoich projektach badawczych. [K_U17]

* implementować własne algorytmy i używać istniejące biblioteki oferujące procedury uczenia ze wzmocnieniem. [K_U18]

Kompetencje społeczne: student jest gotów do

* krytycznej oceny posiadanej wiedzy i odbieranych treści [K_K01];

* uznawania znaczenia wiedzy w rozwiązywaniu problemów poznawczych i praktycznych oraz zasięgania opinii ekspertów w przypadku trudności z samodzielnym rozwiązaniem problemu [K_K02];

* myślenia i działania w sposób przedsiębiorczy [K_K03].

Metody i kryteria oceniania:

Egzamin i projekt.

Zajęcia w cyklu "Semestr letni 2023/24" (w trakcie)

Okres: 2024-02-19 - 2024-06-16
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Łukasz Kuciński, Piotr Miłoś
Prowadzący grup: Bartłomiej Cupiał, Gracjan Góral, Łukasz Kuciński, Piotr Miłoś, Michał Nauman, Mateusz Olko, Alicja Ziarko
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.3.0-2b06adb1e (2024-03-27)