Analiza danych nieustrukturyzowanych ( ścieżka SAS)
Informacje ogólne
Kod przedmiotu: | 2400-ZEWW330 |
Kod Erasmus / ISCED: |
14.3
|
Nazwa przedmiotu: | Analiza danych nieustrukturyzowanych ( ścieżka SAS) |
Jednostka: | Wydział Nauk Ekonomicznych |
Grupy: |
Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 2 (2*30h) Przedmioty wyboru kierunkowego dla studiów licencjackich IE Przedmioty wyboru kierunkowego dla studiów licencjackich MSEM |
Punkty ECTS i inne: |
3.00
|
Język prowadzenia: | polski |
Rodzaj przedmiotu: | nieobowiązkowe |
Założenia (opisowo): | Założenia wstępne Podstawowa wiedza z zakresu informatyki |
Skrócony opis: |
Celem zajęć jest zapoznanie studentów z metodami statystycznymi przydatnymi w analizie danych nieustrukturyzowanych oraz metodami sztucznej inteligencji, które umożliwiają strukturyzację informacji tekstowych oraz doskonalenie analiz i metod podejmowania decyzji poprzez przeprowadzenie analizy zawartości różnorodnych dokumentów tekstowych oraz znajdywanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych zbiorach danych. Podczas wykładu zostaną omówione poszczególne metody i przykładowe zastosowania. Zajęcia praktyczne obejmują przeprowadzanie analiz przez studentów z wykorzystaniem programu SAS Enterprise Miner oraz SAS Text Miner. UWAGA: Zajęcia są prowadzone w ramach ścieżki DMCP, po ukończeniu której studenci mogą uzyskać certyfikatu SAS |
Pełny opis: |
1. Wprowadzenie do metod analizy danych nieustrukturyzowanych. Techniki Data Mining, Text Mining, Web Mining 2. Funkcjonalności i działanie programu SAS Enterprise Miner 4.3 i Text Miner 3.1. 3. Funkcjonalności i działanie programu SAS Enterprise Miner 5.3 i Text Miner 3.2 4. Metody przeszukiwania informacji tekstowych. Dekompozycja danych tekstowych. Ilościowa reprezentacja zbioru dokumentów. 5. Automatyczne przetwarzanie danych tekstowych. Identyfikacja słów kluczowych. 6. Stop lista, start lista. Formy kanoniczne. Funkcje ważące. Wagi częstości. 7. Transformacja danych tekstowych. Redukcja wymiarów macierzy częstości. 8. Wizualizacja danych. Tworzenie drzewa powiązań. 9. Analiza dużych repozytoriów dokumentów. Zastosowanie makra %tmfilter w procesie text mining. 10. Analiza treści stron WWW. Zastosowanie makra %tmfilter w procesie web mining. 11. Metody klasteryzacji. Analiza profili segmentów i skupień. 12. Modele klasyfikacji. Scoring. Ocena wygenerowanego modelu. 13. Grupowanie danych tekstowych i modelowanie prognostyczne. 14. Prognozwanie na podstawie nieuporządkowanego tekstu. 15. Współpraca z innymi programami pakietu SAS Enterprise Miner. Inne narzędzia Text Miningu. |
Literatura: |
Literatura obowiązkowa: [1] Lasek M., Pęczkowski M., Enterprise Miner. Wykorzystywanie narzędzi Data Mining w systemie SAS, podręcznik w przygotowaniu. [2] Lasek M., Data Mining. Zastosowania w analizach i ocenach klientów bankowych, Oficyna Wydawnicza „Zarządzanie i finanse”, Warszawa 2002. [3] Witkowska D., Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienie finansowe, Wydawnictwo C.H. Beck, Warszawa 2002. [4] Text Mining Using SAS Software, SAS Education. Literatura uzupełniająca: [1] Frątczak E., Pęczkowski M., Sienkiewicz K., Skaskiewicz K., Statystyka od podstaw z systemem SAS, ISBN 83-7225-179-7, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2002. [2] Giudici P., Applied Data Mining. Statistical Methods for Business and Industry, Wiley 2003. [3] Hadasik D. (1998), Upadłość przedsiębiorstw w Polsce i metody jej prognozowania, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań. [4] Jagielska J., Matthews Ch. Whitfort T. (1999), An investigation into the application of neural networks, fuzzy logic, genetic algorithms, and rough sets to automated knowledge acquisition for classification problems, Neurocomputing 24, 37-54. [5] Jain L.B., Martin N.M. (eds.) (1999), Fusion of Neural Networks, Fuzzy Sets, and Genetic Algorithms. Industrial Applications, CRC Press. [6] Kudyba S., Managing Data Mining. Advice from Experts, IT Solutions Series, ISBN 1-59140-243-3, CyberTech Publishing, Idea Group Inc. 2004. [7] Nelles O. (2001), Nonlinear System Identification. From Classical Approaches to Neural Networks and Fuzzy Models, Springer Verlag, Berlin Heidelberg. [8] Osowski S. (2001), Sieci neuronowe wykorzystujące systemy wnioskowania rozmytego, Software nr 2, 18-20 i 62. [9] Raudys Š. (2001), Statistical and Neural Classifiers. An Integrated Approach to Design, Springer-Verlag, London. [10]Ribeiro R., Zimmermann H.-J., Yager R., Kacprzyk J. (1999), Soft Computing in Financial Engineering, Studies in Fuzzines and Soft Computing, vol. 28, Physica Verlag, Heidelberg. [11]Wang J. (ed.), Data Mining. Opportunities and Challenges, IRM Press 2003. [12]Witten J.H., Frank E. (2000), Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations, Academic Press, Morgan Kaufmann Publishers. [13]Zwierz U., Wstęp do systemu SAS, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2001. [14]Data & Text Mining, wydawca Prentice Hall |
Efekty uczenia się: |
Wiedza opanowana poprzez uczestnictwo w przedmiocie to znajomość poszczególnych metod statystycznych przydatnych w analizie danych nieustrukturyzowanychi oraz ich przykładowe zastosowania umożliwiające znajdywanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych zbiorach danych, a także praktyczna umiejętność posługiwania się programem SAS Enterprise Miner oraz SAS Text Miner. KW01, KW02, KW03, KU01, KU02, KU03, KK01, KK02, KK03 |
Metody i kryteria oceniania: |
Zaliczenie studenci uzyskują na podstawie pracy zaliczeniowej polegającej na samodzielnie zaprojektowanym i zrealizowanym modelu analizy danych tekstowych. |
Zajęcia w cyklu "Semestr letni 2023/24" (zakończony)
Okres: | 2024-02-19 - 2024-06-16 |
Przejdź do planu
PN WT ŚR CZ PT |
Typ zajęć: |
Konwersatorium, 30 godzin
|
|
Koordynatorzy: | Karolina Kuligowska | |
Prowadzący grup: | (brak danych) | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę |
Właścicielem praw autorskich jest Uniwersytet Warszawski.