Uczenie maszynowe w dużej skali
Informacje ogólne
Kod przedmiotu: | 1000-319bBML |
Kod Erasmus / ISCED: |
11.3
|
Nazwa przedmiotu: | Uczenie maszynowe w dużej skali |
Jednostka: | Wydział Matematyki, Informatyki i Mechaniki |
Grupy: |
Przedmioty obieralne dla informatyki Przedmioty obowiązkowe dla II roku Machine Learning |
Punkty ECTS i inne: |
6.00
|
Język prowadzenia: | angielski |
Rodzaj przedmiotu: | monograficzne |
Wymagania (lista przedmiotów): | Głębokie sieci neuronowe 1000-317bDNN |
Założenia (opisowo): | programowanie obiektowe, sieci komputerowe, algorytmy i struktury danych |
Skrócony opis: |
Celem zajęć jest prezentacja techniki i narzędzia przetwarzania dużych zbiorów danych (ang. Big data) stosowanych przy uczeniu maszynowym. Przedstawimy najważniejsze modele i podstawowe techniki algorytmiczne dla nich. Omówimy metody analizy algorytmów rozpraszających obliczenia na klastrach. Przestawimy optymalizacje stosowane przy rozpraszaniu typowych algorytmów uczenia maszynowego jak regresja liniowa, klastrowanie, drzewa decyzyjne czy sieci neuronowe. |
Pełny opis: |
-Rozpraszanie obliczeń na klastrach oraz rozproszone systemy plików. -Model Map-reduce i podstawowe techniki algorytmiczne dla tego modelu, metody analizy algorytmów na przykładzie typowych problemów (mnożenie macierzy, wielozłączenia, algorytmy minimalne, zliczanie trójkątów w dużych grafach). -Całkowity vs mijający koszt komunikacji (ang. total vs elapsed communication cost) oraz metody radzenia sobie ze skew. -Spark i model Resilient Distributed Dataset. -Spark SQL i jego optymalizacje. -Metody serializacji dużych danych i formaty kolumnowe. -Architektury rozwiązań managed cloud data warehouse. -Algorytmy strumieniowe. -Rozpraszanie typowych algorytmów uczenia maszynowego, np. regresja liniowa - wariant strumieniowy, optymalizacje stosowane w metodach opartych o drzewa decyzyjne oraz przy rozpraszaniu klastrowania. -Sieci neuronowe w dużej skali (data parallelism, model parallelism). -Indeksowanie z wykorzystaniem uczenia maszynowego (learned index structores). |
Literatura: |
-Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. Mining of Massive Datasets. Cambridge University Press -Guglielmo Iozzia, Hands-On Deep Learning with Apache Spark, Packt Publishing -Butch Quinto, Next-Generation Machine Learning with Spark: Covers XGBoost, -LightGBM, Spark NLP, Distributed Deep Learning with Keras, and More, Apress |
Efekty uczenia się: |
Wiedza: student zna i rozumie techniki wielkoskalowego przetwarzania danych używane w kontekście uczenia maszynowego [K_W04] metody rozpraszania i zrównoleglania obliczeń [K_W06] Umiejętności: student potrafi stosować współczesne systemy rozpraszania i zrównoleglania obliczeń [K_U20] przetwarzać duże zbiory danych [K_U21] Kompetencje społeczne: student jest gotów do krytycznej oceny posiadanej wiedzy i odbieranych treści [K_K01] uznawania znaczenia wiedzy w rozwiązywaniu problemów poznawczych i praktycznych oraz zasięgania opinii ekspertów w przypadku trudności z samodzielnym rozwiązaniem problemu [K_K02] |
Metody i kryteria oceniania: |
Ocena końcowa na podstawie punktów z programów zaliczeniowych, zadań domowych (w formie programów komputerowych) oraz egzaminu. |
Zajęcia w cyklu "Semestr zimowy 2023/24" (zakończony)
Okres: | 2023-10-01 - 2024-01-28 |
Przejdź do planu
PN WT ŚR WYK
LAB
LAB
CZ PT LAB
|
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Krzysztof Rządca, Jacek Sroka | |
Prowadzący grup: | Tomasz Kanas, Krzysztof Rządca, Jacek Sroka | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Egzamin |
Zajęcia w cyklu "Semestr zimowy 2024/25" (w trakcie)
Okres: | 2024-10-01 - 2025-01-26 |
Przejdź do planu
PN LAB
WYK
LAB
WT ŚR LAB
LAB
CZ PT LAB
|
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Marek Cygan, Krzysztof Rządca | |
Prowadzący grup: | Marek Cygan, Tomasz Kanas, Jakub Krajewski, Michał Krutul, Adrian Naruszko, Krzysztof Rządca | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Egzamin |
Właścicielem praw autorskich jest Uniwersytet Warszawski.