Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Inżynieria lingwistyczna

Informacje ogólne

Kod przedmiotu: 3800-KOG-MS2-IL
Kod Erasmus / ISCED: 08.1 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0223) Filozofia i etyka Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Inżynieria lingwistyczna
Jednostka: Wydział Filozofii
Grupy: Przedmioty MS2, kognitywistyka, studia stacjonarne, pierwszego stopnia
Punkty ECTS i inne: 3.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Założenia (opisowo):

Znajomość podstaw programowania

Skrócony opis:

Celem zajęć jest przedstawienie często wykorzystywanych w praktyce metod i technik przetwarzania języków naturalnych takich jak polski i angielski, szczególnie metod zaawansowanych lingwistycznie.

Pełny opis:

Seminarium dotyczy przetwarzania języka naturalnego. Omówione zostaną fundamentalne wyzwania w pracy z tekstem: ujednoznacznienie morfoskładniowe, ekstrakcja informacji, modele językowe, matematyczna reprezentacja słów, generowanie tekstu. Przedstawiane są najważniejsze metody stosowane do ww. zagadnień - zarówno statystyczne jak i oparte na uczeniu maszynowym. Uczestnicy będą rozwiązywać problemy praktyczne korzystając z środowiska programistycznego, co pozwoli na samodzielną analizę tekstu w przyszłości.

Program:

1. Wprowadzenie. Terminologia, historia, zastosowania, paradygmaty. Narzędzia programistyczne: Python, Colab, Git. (1 seminarium)

2. Sztuczne sieci neuronowe przy przetwarzaniu języka naturalnego - geneza, zastosowania. (1-2 seminarium)

3. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 seminarium)

4. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne i statystyczne. (1-2 seminaria)

5. Matematyczna reprezentacja słów. Embeddings. Badanie zależności w reprezentacjach wektorowych. Metody alternatywne do reprezentacji wektorowych. (2-3 seminaria)

6. Modele językowe oparte na N-gramach i sztucznych sieciach neuronowych. Ekstrakcja informacji. (2-3 seminaria)

7. Generowanie tekstu w oparciu o metody statystyczne oraz przy użyciu sieci neuronowych. (1–2 seminaria)

8. Implementacja fragmentów gramatyki języka polskiego. Semantyka w gramatykach. (1-2 seminaria)

9. Etyka w przetwarzaniu języka naturalnego. (1 seminarium)

Literatura:

Materiały własne oraz wybrane fragmenty monografii:

Steven Bird, Ewan Klein i Edward Loper 2016, „Natural Language Processing with Python”

(2. wydanie; http://www.nltk.org/book/).

Daniel Jurafsky i James H. Martin 2009, „Speech and Language Processing”, Prentice-Hall

(2. wydanie).

Efekty uczenia się:

Nabyta wiedza:

- znajomość wybranych technik znakowania morfoskładniowego, w tym technik dezambiguacji interpretacji morfoskładniowych.

- znajomość wybranych technik uczenia maszynowego przy pracy analizie tekstu

- znajomość wybranych technik matematycznej reprezentacji słów oraz modeli językowych

- znajomość wybranych technik generowania tekstu

- znajomość wybranych zasobów wykorzystywanych w przetwarzaniu języka naturalnego

- znajomość typów i technik przetwarzania składniowego

Nabyte umiejętności:

- umiejętność implementacji metod uczenia maszynowego dla typowych problemów inżynierii lingwistycznej

- umiejętność wyprowadzania reprezentacji semantycznej zdania

- umiejętność korzystania ze znakowanych morfosyntaktycznie korpusów

- umiejętność ekstrakcji informacji z tekstu

Nabyte kompetencje społeczne:

- umiejętność analizy korpusów pod kątem zagadnień społecznych

Metody i kryteria oceniania:

Metody weryfikacji efektów uczenia się: Prace domowe oraz jeden projekt semestralny, w którym są wykorzystane techniki omawiane na zajęciach.

Składowe oceny końcowej i ich waga: projekt 80%, prace domowe 20%

Semestralna liczba dopuszczalnych nieobecności zajęciach oraz w wypadkach, których to dotyczy, sposoby ich zaliczania: 2

Skala ocen 5! – 95% pkt., 5 (bdb.) – od 90%, 4+ (db. plus) – od 82%, 4 (db.) – od 75%, 3+ (dst. plus) - od 68%, 3 – (dst.) od 60%, 2 – (ndst.) mniej niż 60%

Warunki dopuszczenia do poprawy: Projekt złożony w terminie

Zajęcia w cyklu "Semestr letni 2023/24" (zakończony)

Okres: 2024-02-19 - 2024-06-16
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Seminarium, 30 godzin, 15 miejsc więcej informacji
Koordynatorzy: Grzegorz Wojdyga
Prowadzący grup: Grzegorz Wojdyga
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Seminarium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności mapa serwisu USOSweb 7.1.1.0-5cfec1137 (2024-12-11)