Inżynieria lingwistyczna
Informacje ogólne
Kod przedmiotu: | 3800-KOG-MS2-IL |
Kod Erasmus / ISCED: |
08.1
|
Nazwa przedmiotu: | Inżynieria lingwistyczna |
Jednostka: | Wydział Filozofii |
Grupy: |
Przedmioty MS2, kognitywistyka, studia stacjonarne, pierwszego stopnia |
Punkty ECTS i inne: |
3.00
|
Język prowadzenia: | polski |
Założenia (opisowo): | Znajomość podstaw programowania |
Skrócony opis: |
Celem zajęć jest przedstawienie często wykorzystywanych w praktyce metod i technik przetwarzania języków naturalnych takich jak polski i angielski, szczególnie metod zaawansowanych lingwistycznie. |
Pełny opis: |
Seminarium dotyczy przetwarzania języka naturalnego. Omówione zostaną fundamentalne wyzwania w pracy z tekstem: ujednoznacznienie morfoskładniowe, ekstrakcja informacji, modele językowe, matematyczna reprezentacja słów, generowanie tekstu. Przedstawiane są najważniejsze metody stosowane do ww. zagadnień - zarówno statystyczne jak i oparte na uczeniu maszynowym. Uczestnicy będą rozwiązywać problemy praktyczne korzystając z środowiska programistycznego, co pozwoli na samodzielną analizę tekstu w przyszłości. Program: 1. Wprowadzenie. Terminologia, historia, zastosowania, paradygmaty. Narzędzia programistyczne: Python, Colab, Git. (1 seminarium) 2. Sztuczne sieci neuronowe przy przetwarzaniu języka naturalnego - geneza, zastosowania. (1-2 seminarium) 3. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 seminarium) 4. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne i statystyczne. (1-2 seminaria) 5. Matematyczna reprezentacja słów. Embeddings. Badanie zależności w reprezentacjach wektorowych. Metody alternatywne do reprezentacji wektorowych. (2-3 seminaria) 6. Modele językowe oparte na N-gramach i sztucznych sieciach neuronowych. Ekstrakcja informacji. (2-3 seminaria) 7. Generowanie tekstu w oparciu o metody statystyczne oraz przy użyciu sieci neuronowych. (1–2 seminaria) 8. Implementacja fragmentów gramatyki języka polskiego. Semantyka w gramatykach. (1-2 seminaria) 9. Etyka w przetwarzaniu języka naturalnego. (1 seminarium) |
Literatura: |
Materiały własne oraz wybrane fragmenty monografii: Steven Bird, Ewan Klein i Edward Loper 2016, „Natural Language Processing with Python” (2. wydanie; http://www.nltk.org/book/). Daniel Jurafsky i James H. Martin 2009, „Speech and Language Processing”, Prentice-Hall (2. wydanie). |
Efekty uczenia się: |
Nabyta wiedza: - znajomość wybranych technik znakowania morfoskładniowego, w tym technik dezambiguacji interpretacji morfoskładniowych. - znajomość wybranych technik uczenia maszynowego przy pracy analizie tekstu - znajomość wybranych technik matematycznej reprezentacji słów oraz modeli językowych - znajomość wybranych technik generowania tekstu - znajomość wybranych zasobów wykorzystywanych w przetwarzaniu języka naturalnego - znajomość typów i technik przetwarzania składniowego Nabyte umiejętności: - umiejętność implementacji metod uczenia maszynowego dla typowych problemów inżynierii lingwistycznej - umiejętność wyprowadzania reprezentacji semantycznej zdania - umiejętność korzystania ze znakowanych morfosyntaktycznie korpusów - umiejętność ekstrakcji informacji z tekstu Nabyte kompetencje społeczne: - umiejętność analizy korpusów pod kątem zagadnień społecznych |
Metody i kryteria oceniania: |
Metody weryfikacji efektów uczenia się: Prace domowe oraz jeden projekt semestralny, w którym są wykorzystane techniki omawiane na zajęciach. Składowe oceny końcowej i ich waga: projekt 80%, prace domowe 20% Semestralna liczba dopuszczalnych nieobecności zajęciach oraz w wypadkach, których to dotyczy, sposoby ich zaliczania: 2 Skala ocen 5! – 95% pkt., 5 (bdb.) – od 90%, 4+ (db. plus) – od 82%, 4 (db.) – od 75%, 3+ (dst. plus) - od 68%, 3 – (dst.) od 60%, 2 – (ndst.) mniej niż 60% Warunki dopuszczenia do poprawy: Projekt złożony w terminie |
Zajęcia w cyklu "Semestr letni 2023/24" (zakończony)
Okres: | 2024-02-19 - 2024-06-16 |
Przejdź do planu
PN WT ŚR SEM
CZ PT |
Typ zajęć: |
Seminarium, 30 godzin, 15 miejsc
|
|
Koordynatorzy: | Grzegorz Wojdyga | |
Prowadzący grup: | Grzegorz Wojdyga | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Seminarium - Zaliczenie na ocenę |
Właścicielem praw autorskich jest Uniwersytet Warszawski.