Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Wprowadzenie do przetwarzania języka naturalnego

Informacje ogólne

Kod przedmiotu: 3003-C3N-JK1
Kod Erasmus / ISCED: (brak danych) / (0232) Literatura i językoznawstwo Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Wprowadzenie do przetwarzania języka naturalnego
Jednostka: Instytut Języka Polskiego
Grupy: Konwersatoria do wyboru dla filologii polskiej - stacjonarne 2go stopnia 2023/2024
Konwersatoria do wyboru dla FP - stacjonarne 2. stopnia 2023/2024 - moduł nowoczesność
Moduł "Nowoczesność" - filologia polska od cyklu 2019 - stacjonarne 2-go stopnia
Wszystkie przedmioty polonistyczne - oferta ILP (3001...) , IJP (3003...) i IPS (3007...)
Punkty ECTS i inne: 7.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

obowiązkowe

Założenia (opisowo):

Celem zajęć będzie praktyczne wprowadzenie uczestniczek i uczestników w zagadnienia i metody przetwarzania języka naturalnego. Jest to praktyczna i interdyscyplinarna dziedzina oparta na wiedzy z zakresu lingwistyki, programowania i uczenia maszynowego, która w ostatnim czasie zyskała na znaczeniu i rozgłosie m.in. dzięki narzędziom takim jak ChatGPT.

Przetwarzanie języka naturalnego umożliwia zautomatyzowaną analizę zbiorów tekstów oraz tworzenie systemów sztucznej inteligencji opartych na danych tekstowych (wyszukiwarki, czatboty, narzędzia korpusowe itp.). W ramach zajęć przejdziemy błyskawiczny kurs programowania w Pythonie oraz poznamy od strony praktycznej pakiety pozwalające na automatyczną analizę tekstu, m.in. spaCy, StyloMetrix, BERTopic, i inne, np. służące do tworzenia zestawień statystycznych oraz wizualizacji uzyskanych rezultatów.

Tryb prowadzenia:

w sali

Skrócony opis:

Celem zajęć będzie praktyczne wprowadzenie uczestniczek i uczestników w zagadnienia dotyczące przetwarzania języka naturalnego, lingwistyki komputerowej i programowania, w szczególności – przetwarzania korpusów tekstów z wykorzystaniem technik przetwarzania języka naturalnego dostępnych w języku programowania Python.

Od uczestniczek i uczestników nie wymaga się wcześniejszej znajomości języków programowania i umiejętności programistycznych.

Pełny opis:

Celem zajęć będzie praktyczne wprowadzenie uczestniczek i uczestników w zagadnienia dotyczące przetwarzania języka naturalnego, lingwistyki komputerowej i programowania, w szczególności – przetwarzania korpusów tekstów z wykorzystaniem technik przetwarzania języka naturalnego dostępnych w języku programowania Python.

Od uczestniczek i uczestników nie wymaga się wcześniejszej znajomości języków programowania i umiejętności programistycznych, oczekuje się jednak motywacji i zaangażowania potrzebnych do opanowania umiejętności programistycznych w zakresie przetwarzania języka naturalnego.

Zagadnienia wyznaczające zakres zajęć:

1. Podstawy programowania w Pythonie: typy zmiennych, struktury danych, warunki i pętle, funkcje i klasy, praca z plikami i wykorzystanie pakietów

2. Wykorzystanie Pythona do gromadzenia i przetwarzania danych tekstowych (scraping, odpytywanie API, OCR i transkrypcja audio)

3. Pakiet spaCy i różne poziomy anotacji lingwistycznej: analiza i znakowanie morfo-syntaktyczne, parsowanie zależnościowe

4. Semantyka wektorowa i modele językowe

5. Modele klasyfikacji sekwencji i klasyfikacji tokenów w spaCy

6. Przeszukiwanie tekstu ze spaCy: wyszukiwanie oparte na regułach i warstwach anotacji, wyszukiwanie semantyczne

7. Analiza stylometryczna tekstów z wykorzystaniem pakietów StyloMetrix, pandas i scikit learn

8. Modelowanie tematyczne z wykorzystaniem pakietu BERTopic

9. Wizualizacja wyników przetwarzania korpusu

Literatura:

Altinuk, D. (2021). Mastering spaCy: An end-to-end practical guide to implementing NLP applications using the Python ecosystem. Birmingham: Packt Publishing.

Hobson, L., Cole, H., Hannes, H. (2021). Przetwarzanie języka naturalnego w akcji. Rozumienie, analiza i generowanie tekstu w Pythonie na przykładzie języka angielskiego. Warszawa: PWN.

Mattingly, W. (2022). Introduction to Python for Digital Humanities, 2022, URL: www.python-textbook.pythonhumanities.com.

Mattingly, W. (2021). Introduction to spaCy 3, URL: www.spacy.pythonhumanities.com.

Sweigart, A. (2020). Automatyzacja nudnych zadań z Pythonem. Nauka programowania. Gliwice: Helion.

Efekty uczenia się:

Student/Studentka

- zna narzędzia służące do przetwarzania i analizy danych tekstowych dostępne w języku Python

- zna podstawy programowania w Pythonie oraz pakiety tego języka służące do przetwarzania i analizy danych tekstowych

- zna najważniejsze pojęcia i techniki przetwarzania języka naturalnego

- potrafi przeprowadzić analizę korpusu danych tekstowych z wykorzystaniem pakietów języka Python

- potrafi sformułować hipotezę dotyczącą zbioru tekstu i zweryfikować ją z wykorzystaniem technik przetwarzania języka naturalnego

- potrafi zwizualizować uzyskane rezultaty analizy korpusu tekstów

- potrafi krytycznie ocenić informacje dotyczące systemów sztucznej inteligencji opartych na danych tekstowych

- rozumie znaczenie przetwarzania języka naturalnego w rozwiązywaniu problemów poznawczych i praktycznych oraz stosowania metod tej dziedziny do realizacji własnych celów badawczych

Metody i kryteria oceniania:

Uczestnictwo w zajęciach (dopuszczalne dwie nieobecności).

Regularne rozwiązywanie zadań dotyczących programowania i przetwarzania języka naturalnego.

Zrealizowanie małego projektu indywidualnego lub grupowego wykorzystującego metody przetwarzania języka naturalnego.

Zajęcia w cyklu "Semestr letni 2023/24" (w trakcie)

Okres: 2024-02-19 - 2024-06-16
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Konwersatorium, 30 godzin, 15 miejsc więcej informacji
Koordynatorzy: Marcin Będkowski, Iwona Burkacka
Prowadzący grup: Marcin Będkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.3.0-2b06adb1e (2024-03-27)