Serwisy internetowe Uniwersytetu Warszawskiego | USOSownia - uniwersyteckie forum USOSoweNie jesteś zalogowany | zaloguj się
In English
AKTUALNOŚCI KATALOG MÓJ USOSWEB DLA STUDENTÓW DLA PRACOWNIKÓW MODUŁY DODATKOWE
Inżynieria lingwistyczna - słowa
katalog przedmiotów - pomoc

Inżynieria lingwistyczna - słowa

Informacje ogólne

Kod przedmiotu: 1000-2M07LS Kod Erasmus: 11.303
Nazwa przedmiotu: Inżynieria lingwistyczna - słowa
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty monograficzne dla III - V roku informatyki
Przedmioty obieralne dla informatyki
Punkty ECTS i inne: (brak)
zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu: monograficzne
Skrócony opis:

Celem wykładu jest przedstawienie często wykorzystywanych w praktyce metod i technik przetwarzania języków naturalnych takich jak polski i angielski. Techniki te będą wprowadzane kontekście konkretnych zadań: wydobywania informacji (Information Retrieval), automatycznego streszczania, sprawdzania pisowni itp. Niniejszy wykład skupia się na metodach niskopoziomowych, tylko w niewielkim stopniu zależnych od danego języka. Wykład jest w dużym stopniu niezależny od wykładu Inżynieria lingwistyczna - konstrukcje, ale dopiero uczestnictwo w obu wykładach da pełny obraz Inżynierii lingwistycznej.

W przypadku braku studentów obcojęzycznych, zajęcia będą prowadzone po polsku.

Pełny opis:

1. Wprowadzenie. Terminologia (inżynieria lingwistyczna, lingwistyka informatyczna, NLP, HLT itp.), historia, zastosowania, dwa paradygmaty (symboliczny i statystyczny). (1 wykład)

2. Znajdowanie słów kluczowych i wydobywanie informacji (ang. Information Retrieval), tf.idf, dokładność (ang. precision), kompletność (ang. recall). (1 wykład)

3. Znajdowanie rdzeni wyrazów (stemming) i ich form podstawowych (lematyzacja).

4. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. (1 wykład)

5. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 wykład)

6. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne. (1 wykład)

7. N-gramy, modele Markowa (ang. HMMs). Dezambiguacja morfosyntaktyczna: metody statystyczne. Wygładzanie (ang. smoothing). (1 wykład)

8. Tager Brilla i tagery hybrydowe. Porównywanie jakości tagerów. (1 wykład)

9. Segmentacja tekstu na zdania. Automatyczne streszczanie przez wycinanie (ang. summarisation by extraction). (1 wykład)

10. Wykrywanie błędów i poprawianie pisowni: metody ogólne i dziedzinowe. (1 wykład)

11. Semantyka leksykalna, sieci semantyczne (wordnety), angielski WordNet, ontologie. (1 wykład)

12. Słowosieć (polski wordnet), metody automatycznego uczenia się leksykalnych relacji semantycznych. (1 wykład)

13. Leksykalna dezambiguacja semantyczna (ang. Word Sense Disambiguation). (1 wykład)

14. Statystyczne tłumaczenie maszynowe (lub przetwarzanie mowy), podsumowanie. (1-2 wykłady)

W przypadku braku studentów obcojęzycznych, zajęcia będą prowadzone po polsku.

Literatura:

1. Steven Bird, Ewan Klein i Edward Loper 2009, "Natural Language Processing - Analyzing Text with Python and the Natural Language Toolkit", http://www.nltk.org/book.

2. Daniel Jurafsky i James H. Martin 2009, "Speech and Language Processing", Prentice-Hall (2. wydanie).

3. Adam Przepiórkowski 2008, "Powierzchniowe przetwarzanie języka polskiego", EXIT, Warszawa.

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
 
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.