Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Text-mining i analiza źródeł internetowych w języku Python

Informacje ogólne

Kod przedmiotu: 2400-ZEWW853
Kod Erasmus / ISCED: 14.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0311) Ekonomia Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Text-mining i analiza źródeł internetowych w języku Python
Jednostka: Wydział Nauk Ekonomicznych
Grupy: Przedmioty kierunkowe do wyboru - studia II stopnia EM - grupa 2 (1*30h)
Przedmioty kierunkowe do wyboru - studia II stopnia EP - grupa 4 (1*30h)
Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 2 (2*30h)
Przedmioty kierunkowe do wyboru- studia I stopnia EP
Przedmioty wyboru kierunkowego dla studiów licencjackich EM
Przedmioty wyboru kierunkowego dla studiów licencjackich IE
Przedmioty wyboru kierunkowego dla studiów licencjackich MSEM
Przedmioty wyboru kierunkowego dla studiów licencjackich MSEMen
Punkty ECTS i inne: 3.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

nieobowiązkowe

Założenia (opisowo):

Uczestnictwo w zajęciach “Wprowadzenie do programowania w języku Python” lub w innym kursie z zbliżonym programem



Skrócony opis:

W ramach zajęć studentki i studenci poznają metody służące pozyskaniu danych ze źródeł internetowych, w tym z mediów społecznościowych (np. Reddit,Mastodon), oraz metody przetwarzania danych tekstowych (metody przetwarzania języka naturalnego oraz text-miningu). Nabyte umiejętności umożliwią im samodzielną pracę z wykorzystaniem metod data science na studiach licencjackich/magisterskich

Pełny opis:

Zbieranie danych z platform społecznościowych z wykorzystaniem BigQuery

• Zbieranie danych z Reddit oraz Mastodon z wykorzystaniem API

• Zbieranie wiadomości z portali internetowych

• Przegląd metod Natural Language Processing

• Wyrażenia regularne (regular expressions)

• Tokenizacja słów, stemming, n-gramy, lematyzacja, tagowanie części mowy

• Analiza sentymentu

• Analiza semantyczna, modelowanie tematyczne

(LSA, LDA, PCA)

• Wykorzystanie sieci neuronowych w text- miningu

• Wektory słów: Word2Vec

• Klastrowanie tekstów z wykorzystaniem algorytmu t-SNE

• Konsultacje wyboru tematu i metodologii do case study

• Prezentacja case study wykorzystującego wybraną technikę poznaną w trakcie kursu (2 zajęcia)

Literatura:

Hobson Lane Cole Howard, Hannes Max Hapke (2021),

Przetwarzanie języka naturalnego w akcji. Rozumienie,

analiza i generowanie tekstu w Pythonie na przykładzie

języka angielskiego, Wydawnictwo Naukowe PWN

Efekty uczenia się:

WIEDZA

• Student zna popularne zastosowania języka Python w różnych obszarach badawczych

• Student zna podstawowe biblioteki służące do analizy tekstu w języku Python

• Student zna popularne metody analizy tekstu stosowane przy użyciu języka Python

• Student zna możliwości oraz ograniczenia wynikające z pracy z danymi sieciowymi

UMIEJĘTNOŚCI

- Student potrafi stworzyć i zarządzać bazą danych w języku Python

- Student umie przeanalizować duży zbiór tekstowy przy użyciu technik text miningowych

- Student umie sprawnie wizualizować dane z wykorzystaniem dobrych praktyk prezentacji

KOMPETENCJE SPOŁECZNE

- Student jest zaznajomiony z zasadami etycznego oraz legalnego przetwarzania danych

Metody i kryteria oceniania:

Prezentacja końcowa

Zajęcia w cyklu "Semestr letni 2023/24" (w trakcie)

Okres: 2024-02-19 - 2024-06-16
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Konwersatorium, 30 godzin więcej informacji
Koordynatorzy: Kristóf Gyódi
Prowadzący grup: Kristóf Gyódi
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.1.0-03d50b88b (2024-02-19)