Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Large-scale machine learning

Informacje ogólne

Kod przedmiotu: 1000-319bBML
Kod Erasmus / ISCED: 11.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0612) Database and network design and administration Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Large-scale machine learning
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty obowiązkowe dla II roku Machine Learning
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: angielski
Rodzaj przedmiotu:

monograficzne

Założenia (opisowo):

programowanie obiektowe, sieci komputerowe, algorytmy i struktury danych

Skrócony opis:

Celem zajęć jest prezentacja techniki i narzędzia przetwarzania dużych zbiorów danych (ang. Big data) stosowanych przy uczeniu maszynowym. Przedstawimy najważniejsze modele i podstawowe techniki algorytmiczne dla nich. Omówimy metody analizy algorytmów rozpraszających obliczenia na klastrach. Przestawimy optymalizacje stosowane przy rozpraszaniu typowych algorytmów uczenia maszynowego jak regresja liniowa, klastrowanie, drzewa decyzyjne czy sieci neuronowe.

Pełny opis:

-Rozpraszanie obliczeń na klastrach oraz rozproszone systemy plików.

-Model Map-reduce i podstawowe techniki algorytmiczne dla tego modelu, metody analizy algorytmów na przykładzie typowych problemów (mnożenie macierzy, wielozłączenia, algorytmy minimalne, zliczanie trójkątów w dużych grafach).

-Całkowity vs mijający koszt komunikacji (ang. total vs elapsed communication cost) oraz metody radzenia sobie ze skew.

-Spark i model Resilient Distributed Dataset.

-Spark SQL i jego optymalizacje.

-Metody serializacji dużych danych i formaty kolumnowe.

-Architektury rozwiązań managed cloud data warehouse.

-Algorytmy strumieniowe.

-Rozpraszanie typowych algorytmów uczenia maszynowego, np. regresja liniowa - wariant strumieniowy, optymalizacje stosowane w metodach opartych o drzewa decyzyjne oraz przy rozpraszaniu klastrowania.

-Sieci neuronowe w dużej skali (data parallelism, model parallelism).

-Indeksowanie z wykorzystaniem uczenia maszynowego (learned index structores).

Literatura:

-Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. Mining of Massive Datasets. Cambridge University Press

-Guglielmo Iozzia, Hands-On Deep Learning with Apache Spark, Packt Publishing

-Butch Quinto, Next-Generation Machine Learning with Spark: Covers XGBoost, -LightGBM, Spark NLP, Distributed Deep Learning with Keras, and More, Apress

Efekty uczenia się:

Wiedza: student zna i rozumie

techniki wielkoskalowego przetwarzania danych używane w kontekście uczenia maszynowego [K_W04]

metody rozpraszania i zrównoleglania obliczeń [K_W06]

Umiejętności: student potrafi

stosować współczesne systemy rozpraszania i zrównoleglania obliczeń [K_U20]

przetwarzać duże zbiory danych [K_U21]

Kompetencje społeczne: student jest gotów do

krytycznej oceny posiadanej wiedzy i odbieranych treści [K_K01]

uznawania znaczenia wiedzy w rozwiązywaniu problemów poznawczych i praktycznych oraz zasięgania opinii ekspertów w przypadku trudności z samodzielnym rozwiązaniem problemu [K_K02]

Metody i kryteria oceniania:

Ocena końcowa na podstawie punktów z programów zaliczeniowych, zadań domowych (w formie programów komputerowych) oraz egzaminu.

Zajęcia w cyklu "Semestr zimowy 2022/23" (w trakcie)

Okres: 2022-10-01 - 2023-01-29
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Krzysztof Rządca, Jacek Sroka
Prowadzący grup: Tomasz Pawłowski, Krzysztof Rządca, Jacek Sroka
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności USOSweb 6.8.0.0-e459be735 (2022-11-16)