Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Analiza danych nieustrukturyzowanych ( ścieżka SAS)

Informacje ogólne

Kod przedmiotu: 2400-ZEWW330
Kod Erasmus / ISCED: 14.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0311) Ekonomia Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Analiza danych nieustrukturyzowanych ( ścieżka SAS)
Jednostka: Wydział Nauk Ekonomicznych
Grupy: Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 2 (2*30h)
Przedmioty wyboru kierunkowego dla studiów licencjackich IE
Przedmioty wyboru kierunkowego dla studiów licencjackich MSEM
Punkty ECTS i inne: 3.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

nieobowiązkowe

Założenia (opisowo):

Założenia wstępne

Podstawowa wiedza z zakresu informatyki


Skrócony opis:

Celem zajęć jest zapoznanie studentów z metodami statystycznymi przydatnymi w analizie danych nieustrukturyzowanych oraz metodami sztucznej inteligencji, które umożliwiają strukturyzację informacji tekstowych oraz doskonalenie analiz i metod podejmowania decyzji poprzez przeprowadzenie analizy zawartości różnorodnych dokumentów tekstowych oraz znajdywanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych zbiorach danych. Podczas wykładu zostaną omówione poszczególne metody i przykładowe zastosowania. Zajęcia praktyczne obejmują przeprowadzanie analiz przez studentów z wykorzystaniem programu SAS Enterprise Miner oraz SAS Text Miner.

UWAGA: Zajęcia są prowadzone w ramach ścieżki DMCP, po ukończeniu której studenci mogą uzyskać certyfikatu SAS

Pełny opis:

1. Wprowadzenie do metod analizy danych nieustrukturyzowanych. Techniki Data Mining, Text Mining, Web Mining

2. Funkcjonalności i działanie programu SAS Enterprise Miner 4.3 i Text Miner 3.1.

3. Funkcjonalności i działanie programu SAS Enterprise Miner 5.3 i Text Miner 3.2

4. Metody przeszukiwania informacji tekstowych. Dekompozycja danych tekstowych. Ilościowa reprezentacja zbioru dokumentów.

5. Automatyczne przetwarzanie danych tekstowych. Identyfikacja słów kluczowych.

6. Stop lista, start lista. Formy kanoniczne. Funkcje ważące. Wagi częstości.

7. Transformacja danych tekstowych. Redukcja wymiarów macierzy częstości.

8. Wizualizacja danych. Tworzenie drzewa powiązań.

9. Analiza dużych repozytoriów dokumentów. Zastosowanie makra %tmfilter w procesie text mining.

10. Analiza treści stron WWW. Zastosowanie makra %tmfilter w procesie web mining.

11. Metody klasteryzacji. Analiza profili segmentów i skupień.

12. Modele klasyfikacji. Scoring. Ocena wygenerowanego modelu.

13. Grupowanie danych tekstowych i modelowanie prognostyczne.

14. Prognozwanie na podstawie nieuporządkowanego tekstu.

15. Współpraca z innymi programami pakietu SAS Enterprise Miner. Inne narzędzia Text Miningu.

Literatura:

Literatura obowiązkowa:

[1] Lasek M., Pęczkowski M., Enterprise Miner. Wykorzystywanie narzędzi Data Mining w systemie SAS, podręcznik w przygotowaniu.

[2] Lasek M., Data Mining. Zastosowania w analizach i ocenach klientów bankowych, Oficyna Wydawnicza „Zarządzanie i finanse”, Warszawa 2002.

[3] Witkowska D., Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienie finansowe, Wydawnictwo C.H. Beck, Warszawa 2002.

[4] Text Mining Using SAS Software, SAS Education.

Literatura uzupełniająca:

[1] Frątczak E., Pęczkowski M., Sienkiewicz K., Skaskiewicz K., Statystyka od podstaw z systemem SAS, ISBN 83-7225-179-7, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2002.

[2] Giudici P., Applied Data Mining. Statistical Methods for Business and Industry, Wiley 2003.

[3] Hadasik D. (1998), Upadłość przedsiębiorstw w Polsce i metody jej prognozowania, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.

[4] Jagielska J., Matthews Ch. Whitfort T. (1999), An investigation into the application of neural networks, fuzzy logic, genetic algorithms, and rough sets to automated knowledge acquisition for classification problems, Neurocomputing 24, 37-54.

[5] Jain L.B., Martin N.M. (eds.) (1999), Fusion of Neural Networks, Fuzzy Sets, and Genetic Algorithms. Industrial Applications, CRC Press.

[6] Kudyba S., Managing Data Mining. Advice from Experts, IT Solutions Series, ISBN 1-59140-243-3, CyberTech Publishing, Idea Group Inc. 2004.

[7] Nelles O. (2001), Nonlinear System Identification. From Classical Approaches to Neural Networks and Fuzzy Models, Springer Verlag, Berlin Heidelberg.

[8] Osowski S. (2001), Sieci neuronowe wykorzystujące systemy wnioskowania rozmytego, Software nr 2, 18-20 i 62.

[9] Raudys Š. (2001), Statistical and Neural Classifiers. An Integrated Approach to Design, Springer-Verlag, London.

[10]Ribeiro R., Zimmermann H.-J., Yager R., Kacprzyk J. (1999), Soft Computing in Financial Engineering, Studies in Fuzzines and Soft Computing, vol. 28, Physica Verlag, Heidelberg.

[11]Wang J. (ed.), Data Mining. Opportunities and Challenges, IRM Press 2003.

[12]Witten J.H., Frank E. (2000), Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations, Academic Press, Morgan Kaufmann Publishers.

[13]Zwierz U., Wstęp do systemu SAS, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2001.

[14]Data & Text Mining, wydawca Prentice Hall

Efekty uczenia się:

Wiedza opanowana poprzez uczestnictwo w przedmiocie to znajomość poszczególnych metod statystycznych przydatnych w analizie danych nieustrukturyzowanychi oraz ich przykładowe zastosowania umożliwiające znajdywanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych zbiorach danych, a także praktyczna umiejętność posługiwania się programem SAS Enterprise Miner oraz SAS Text Miner.

KW01, KW02, KW03, KU01, KU02, KU03, KK01, KK02, KK03

Metody i kryteria oceniania:

Zaliczenie studenci uzyskują na podstawie pracy zaliczeniowej polegającej na samodzielnie zaprojektowanym i zrealizowanym modelu analizy danych tekstowych.

Zajęcia w cyklu "Semestr letni 2023/24" (zakończony)

Okres: 2024-02-19 - 2024-06-16
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Konwersatorium, 30 godzin więcej informacji
Koordynatorzy: Karolina Kuligowska
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności mapa serwisu USOSweb 7.1.0.0-360daf7b8 (2024-08-28)