Text-mining i analiza źródeł internetowych w języku Python
Informacje ogólne
Kod przedmiotu: | 2400-ZEWW853 |
Kod Erasmus / ISCED: |
14.3
|
Nazwa przedmiotu: | Text-mining i analiza źródeł internetowych w języku Python |
Jednostka: | Wydział Nauk Ekonomicznych |
Grupy: | |
Punkty ECTS i inne: |
(brak)
|
Język prowadzenia: | polski |
Rodzaj przedmiotu: | nieobowiązkowe |
Założenia (opisowo): | Uczestnictwo w zajęciach “Wprowadzenie do programowania w języku Python” lub w innym kursie z zbliżonym programem |
Skrócony opis: |
W ramach zajęć studentki i studenci poznają metody służące pozyskaniu danych ze źródeł internetowych, w tym z mediów społecznościowych (np. Reddit,Mastodon), oraz metody przetwarzania danych tekstowych (metody przetwarzania języka naturalnego oraz text-miningu). Nabyte umiejętności umożliwią im samodzielną pracę z wykorzystaniem metod data science na studiach licencjackich/magisterskich |
Pełny opis: |
Zbieranie danych z platform społecznościowych z wykorzystaniem BigQuery • Zbieranie danych z Reddit oraz Mastodon z wykorzystaniem API • Zbieranie wiadomości z portali internetowych • Przegląd metod Natural Language Processing • Wyrażenia regularne (regular expressions) • Tokenizacja słów, stemming, n-gramy, lematyzacja, tagowanie części mowy • Analiza sentymentu • Analiza semantyczna, modelowanie tematyczne (LSA, LDA, PCA) • Wykorzystanie sieci neuronowych w text- miningu • Wektory słów: Word2Vec • Klastrowanie tekstów z wykorzystaniem algorytmu t-SNE • Konsultacje wyboru tematu i metodologii do case study • Prezentacja case study wykorzystującego wybraną technikę poznaną w trakcie kursu (2 zajęcia) |
Literatura: |
Hobson Lane Cole Howard, Hannes Max Hapke (2021), Przetwarzanie języka naturalnego w akcji. Rozumienie, analiza i generowanie tekstu w Pythonie na przykładzie języka angielskiego, Wydawnictwo Naukowe PWN |
Efekty uczenia się: |
WIEDZA • Student zna popularne zastosowania języka Python w różnych obszarach badawczych • Student zna podstawowe biblioteki służące do analizy tekstu w języku Python • Student zna popularne metody analizy tekstu stosowane przy użyciu języka Python • Student zna możliwości oraz ograniczenia wynikające z pracy z danymi sieciowymi UMIEJĘTNOŚCI - Student potrafi stworzyć i zarządzać bazą danych w języku Python - Student umie przeanalizować duży zbiór tekstowy przy użyciu technik text miningowych - Student umie sprawnie wizualizować dane z wykorzystaniem dobrych praktyk prezentacji KOMPETENCJE SPOŁECZNE - Student jest zaznajomiony z zasadami etycznego oraz legalnego przetwarzania danych |
Metody i kryteria oceniania: |
Prezentacja końcowa |
Właścicielem praw autorskich jest Uniwersytet Warszawski.