Uczenie maszynowe w dużej skali
Informacje ogólne
Kod przedmiotu: | 1000-319bBML |
Kod Erasmus / ISCED: |
11.3
|
Nazwa przedmiotu: | Uczenie maszynowe w dużej skali |
Jednostka: | Wydział Matematyki, Informatyki i Mechaniki |
Grupy: |
Grupa przedmiotów obieralnych dla informatyki magisterskiej- specjalność Systemy informatyczne Przedmioty obieralne dla informatyki i ML Przedmioty obieralne na studiach drugiego stopnia na kierunku bioinformatyka Przedmioty obowiązkowe dla II roku Machine Learning |
Punkty ECTS i inne: |
6.00
|
Język prowadzenia: | angielski |
Rodzaj przedmiotu: | monograficzne |
Wymagania (lista przedmiotów): | Głębokie sieci neuronowe 1000-317bDNN |
Założenia (opisowo): | parallel programming, sieci komputerowe, algorytmy i struktury danych |
Skrócony opis: |
Celem przedmiotu jest zbudowanie teoretycznej podstawy oraz praktycznych umiejętności pozwalających używać w wielkiej skali algorytmów i technik uczenia maszynowego. Omówimy architekturę współczesnych klastrów obliczeniowych (ML, chmurowych i HPC). Przedstawimy metody rozpraszania obliczeń na klastrach oraz podstawowe modele algorytmiczne pozwalające na szacowanie wydajności. Na przykładach typowych algorytmów MLowych (drzewa decyzyjne, uczenie sieci neuronowych) pokażemy teoretyczne i praktyczne wyzwania użycia ich w skali kilku do kilkuset maszyn. Następnie omówimy problemy trenowania i wykorzystania wielkoskalowych modeli językowych (LLM). Przedmiot podsumujemy przedstawiając podstawowe problemy użycia modeli ML w wielkoskalowej produkcji. |
Pełny opis: |
- Sprzęt: od karty graficznej (GPU) do centrum danych, i dlaczego architektura ma znaczenie w dużej skali. - Optymalizacja równoległa i rozproszona: jak zrównoleglać algorytmy i jak analizować ich wydajność. - Zrównoleglanie klasycznych algorytmów uczenia maszynowego (ML). - Wprowadzenie do dużych modeli językowych (LLM): motywacja, transformery i prawa skalowania. - Zrównoleglanie trenowania LLM: rodzaje zrównoleglania, wąskie gardła, powszechne optymalizacje pamięci. - Zbiory danych i benchmarking LLM. - Przetwarzanie danych: wprowadzenie do inżynierii danych. - Uczenie maszynowe w środowisku produkcyjnym: ryzyka, korzyści, częste problemy. - Studium przypadku: Uczenie maszynowe w infrastrukturze obliczeniowej. |
Literatura: |
- Artykuły naukowe podawane na wykładach - “The Datacenter as a Computer: Designing Warehouse-Scale Machines”, Luiz André Barroso, Jimmy Clidaras, and Urs Hölzle - “Fundamentals of Data Engineering”, Joe Reis and Matt Housley |
Efekty uczenia się: |
Wiedza: student zna i rozumie techniki wielkoskalowego przetwarzania danych używane w kontekście uczenia maszynowego [K_W04] metody rozpraszania i zrównoleglania obliczeń [K_W06] Umiejętności: student potrafi stosować współczesne systemy rozpraszania i zrównoleglania obliczeń [K_U20] przetwarzać duże zbiory danych [K_U21] Kompetencje społeczne: student jest gotów do krytycznej oceny posiadanej wiedzy i odbieranych treści [K_K01] uznawania znaczenia wiedzy w rozwiązywaniu problemów poznawczych i praktycznych oraz zasięgania opinii ekspertów w przypadku trudności z samodzielnym rozwiązaniem problemu [K_K02] |
Metody i kryteria oceniania: |
Ocena końcowa na podstawie punktów z programów zaliczeniowych, zadań domowych (w formie programów komputerowych) oraz egzaminu. |
Zajęcia w cyklu "Semestr zimowy 2024/25" (zakończony)
Okres: | 2024-10-01 - 2025-01-26 |
Przejdź do planu
PN LAB
WYK
LAB
WT ŚR LAB
LAB
CZ PT LAB
|
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Marek Cygan, Krzysztof Rządca | |
Prowadzący grup: | Marek Cygan, Tomasz Kanas, Jakub Krajewski, Michał Krutul, Adrian Naruszko, Krzysztof Rządca | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Egzamin |
Zajęcia w cyklu "Semestr zimowy 2025/26" (jeszcze nie rozpoczęty)
Okres: | 2025-10-01 - 2026-01-25 |
Przejdź do planu
PN LAB
WYK
LAB
WT ŚR LAB
LAB
CZ PT LAB
|
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Krzysztof Rządca | |
Prowadzący grup: | Jakub Krajewski, Michał Krutul, Adrian Naruszko, Krzysztof Rządca | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Egzamin
Wykład - Egzamin |
Właścicielem praw autorskich jest Uniwersytet Warszawski.