Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Text-mining i analiza źródeł internetowych w języku Python

Informacje ogólne

Kod przedmiotu: 2400-ZEWW853
Kod Erasmus / ISCED: 14.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0311) Ekonomia Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Text-mining i analiza źródeł internetowych w języku Python
Jednostka: Wydział Nauk Ekonomicznych
Grupy:
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

nieobowiązkowe

Założenia (opisowo):

Uczestnictwo w zajęciach “Wprowadzenie do programowania w języku Python” lub w innym kursie z zbliżonym programem



Skrócony opis:

W ramach zajęć studentki i studenci poznają metody służące pozyskaniu danych ze źródeł internetowych, w tym z mediów społecznościowych (np. Reddit,Mastodon), oraz metody przetwarzania danych tekstowych (metody przetwarzania języka naturalnego oraz text-miningu). Nabyte umiejętności umożliwią im samodzielną pracę z wykorzystaniem metod data science na studiach licencjackich/magisterskich

Pełny opis:

Zbieranie danych z platform społecznościowych z wykorzystaniem BigQuery

• Zbieranie danych z Reddit oraz Mastodon z wykorzystaniem API

• Zbieranie wiadomości z portali internetowych

• Przegląd metod Natural Language Processing

• Wyrażenia regularne (regular expressions)

• Tokenizacja słów, stemming, n-gramy, lematyzacja, tagowanie części mowy

• Analiza sentymentu

• Analiza semantyczna, modelowanie tematyczne

(LSA, LDA, PCA)

• Wykorzystanie sieci neuronowych w text- miningu

• Wektory słów: Word2Vec

• Klastrowanie tekstów z wykorzystaniem algorytmu t-SNE

• Konsultacje wyboru tematu i metodologii do case study

• Prezentacja case study wykorzystującego wybraną technikę poznaną w trakcie kursu (2 zajęcia)

Literatura:

Hobson Lane Cole Howard, Hannes Max Hapke (2021),

Przetwarzanie języka naturalnego w akcji. Rozumienie,

analiza i generowanie tekstu w Pythonie na przykładzie

języka angielskiego, Wydawnictwo Naukowe PWN

Efekty uczenia się:

WIEDZA

• Student zna popularne zastosowania języka Python w różnych obszarach badawczych

• Student zna podstawowe biblioteki służące do analizy tekstu w języku Python

• Student zna popularne metody analizy tekstu stosowane przy użyciu języka Python

• Student zna możliwości oraz ograniczenia wynikające z pracy z danymi sieciowymi

UMIEJĘTNOŚCI

- Student potrafi stworzyć i zarządzać bazą danych w języku Python

- Student umie przeanalizować duży zbiór tekstowy przy użyciu technik text miningowych

- Student umie sprawnie wizualizować dane z wykorzystaniem dobrych praktyk prezentacji

KOMPETENCJE SPOŁECZNE

- Student jest zaznajomiony z zasadami etycznego oraz legalnego przetwarzania danych

Metody i kryteria oceniania:

Prezentacja końcowa

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności mapa serwisu USOSweb 7.1.2.0-bc9fa12b9 (2025-06-25)