Data mining
Informacje ogólne
Kod przedmiotu: | 1000-2M03DM |
Kod Erasmus / ISCED: |
11.303
|
Nazwa przedmiotu: | Data mining |
Jednostka: | Wydział Matematyki, Informatyki i Mechaniki |
Grupy: |
Przedmioty obieralne dla informatyki Przedmioty obieralne dla Machine Learning Przedmioty obieralne na studiach drugiego stopnia na kierunku bioinformatyka |
Punkty ECTS i inne: |
6.00
|
Język prowadzenia: | angielski |
Kierunek podstawowy MISMaP: | informatyka |
Rodzaj przedmiotu: | monograficzne |
Założenia (lista przedmiotów): | Systemy uczące się 1000-2N09SUS |
Założenia (opisowo): | Rekomendujemy by osoba rejestrująca się na kurs posiadała podstawową wiedzę z zakresu metod uczenia maszynowego i przetwarzania danych. |
Tryb prowadzenia: | w sali |
Skrócony opis: |
Przedstawienie głównych zagadnień w dziedzinie eksploracji danych (data mining) i metod ich rozwiązywania; omówienia podstawowych algorytmów i ich efektywnych realizacji na dużych zbiorach danych dla trudnych problemów takich, jak reguły asocjacyjne, redukty, dyskretyzacja atrybutów ciągłych, wzorce czasowe, drzewo decyzyjne; przedstawienie nowoczesnych technik obliczeń takich, jak równoległe przetwarzania, obliczenia ewolucyjne, heurystyki za pomocą standardowych baz danych lub logicznie zbudowanych struktur danych. |
Pełny opis: |
1. Wstęp: Przedstawienie problemów "eksploracji danych" (ang. data mining - DM) oraz "odkrywania wiedzy" (ang. Knowledge Discovery from Databases - KDD). Podstawowe pojęcia i zastosowania DM i KDD w praktyce. 2. Efektywne metody szukania reguł asocjacyjnych: algorytmy Apriori, AprioriTid, FP growth, ... 3. Problem klasyfikacji: Metody kNN, Naive Bayes, sieci Bayesowskie. Metody oceniania klasyfikatorów. 4. Miara entropii, Drzewo decyzyjne, Drzewo decyzyjne dla dużych zbiorów danych. 5. Metody grupowania danych, analiza skupień (klastrowanie). Metody grupowania w dużych zbiorach danych. 6. Teoria uczenia się. 7. Wzorce, klasyfikacja zbiorem reguł w dużych zbiorach danych. 8. Metody obróbki i przygotowywania danych. 9. Ukryty model Markowa i jego zastosowania w data mining. 10. Wzorce czasowe i sekwencyjne. 11. OLAP i Data mining. 12. Web mining i text mining. |
Literatura: |
1. "Data Mining: Concepts and Techniques". J. Han and M. Kamber. Morgan Kaufmann Publishers. 2001 2. "Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations". I. Witten and E. Frank. Morgan Kaufmann Publishers. 2000. 3. "Advances in Knowledge Discovery and Data Mining". Eds.: Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy. The MIT Press, 1995. 4. Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. 2014. Mining of Massive Datasets (2nd. ed.). Cambridge University Press, USA. |
Efekty uczenia się: |
Wiedza i umiejętności: 1. Zna podstawowe klasy problemów związanych z eksploracją i odkrywaniem wiedzy z danych. 2. Zna i potrafi wykorzystać w praktyce metody analizy koszykowej, rozumie działanie i potrafi stosować algorytmy wyszukiwania częstych zbiorów. 3. Zna i potrafi stosować podstawowe algorytmy ML. 4. Potrafi ewaluować skuteczność modeli ML w problemach klasyfikacji, regresji oraz grupowania. 5. Zna podstawowe techniki przetwarzania tekstów na potrzeby konstruowania modeli ML i potrafi je zastosować w praktyce. 6. Potrafi konstruować proste systemy rekomendacyjne i rozumie ich działanie. 7. Zna podstawowe metody konstruowania modeli predykcyjnych dla szeregów czasowych. Potrafi je zastosować dla rzeczywistych zbiorów danych oraz ocenić ich faktyczną skuteczność. 8. Zna najważniejsze aktualne trendy w dziedzinie uczenia maszynowego i odkrywania wiedzy z danych. Kompetencje społeczne: 1. Potrafi przygotować raport z eksploracyjnej analizy danych przedstawiający najważniejsze informacje przy wykorzystaniu technik wizualizacji danych. 2. Potrafi zaprezentować wyniki przeprowadzonych analiz. |
Metody i kryteria oceniania: |
Ocena końcowa jest ustalana podstawie sumy punktów z laboratorium i egzaminu. Dodatkowo, studenci szkoły doktorskiej mogą zaliczać przedmiot przez przygotowanie specjalnego projektu związanego z startem w międzynarodowym konkursie eksploracji danych. |
Zajęcia w cyklu "Semestr letni 2023/24" (zakończony)
Okres: | 2024-02-19 - 2024-06-16 |
Przejdź do planu
PN LAB
WT ŚR CZ PT LAB
WYK
|
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Hung Son Nguyen | |
Prowadzący grup: | Hung Son Nguyen | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Egzamin |
Zajęcia w cyklu "Semestr letni 2024/25" (jeszcze nie rozpoczęty)
Okres: | 2025-02-17 - 2025-06-08 |
Przejdź do planu
PN WT ŚR CZ LAB
PT WYK
LAB
|
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Hung Son Nguyen | |
Prowadzący grup: | Hung Son Nguyen, Marcin Szczuka | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Egzamin |
Właścicielem praw autorskich jest Uniwersytet Warszawski.