Inżynieria lingwistyczna - słowa
Informacje ogólne
Kod przedmiotu: | 1000-2M07LS |
Kod Erasmus / ISCED: |
11.303
|
Nazwa przedmiotu: | Inżynieria lingwistyczna - słowa |
Jednostka: | Wydział Matematyki, Informatyki i Mechaniki |
Grupy: |
Przedmioty obieralne dla informatyki Przedmioty obieralne na studiach drugiego stopnia na kierunku bioinformatyka |
Punkty ECTS i inne: |
(brak)
|
Język prowadzenia: | angielski |
Rodzaj przedmiotu: | monograficzne |
Skrócony opis: |
Celem wykładu jest przedstawienie często wykorzystywanych w praktyce metod i technik przetwarzania języków naturalnych takich jak polski i angielski. Techniki te będą wprowadzane kontekście konkretnych zadań: wydobywania informacji (Information Retrieval), automatycznego streszczania, sprawdzania pisowni itp. Niniejszy wykład skupia się na metodach niskopoziomowych, tylko w niewielkim stopniu zależnych od danego języka. Wykład jest w dużym stopniu niezależny od wykładu Inżynieria lingwistyczna - konstrukcje, ale dopiero uczestnictwo w obu wykładach da pełny obraz Inżynierii lingwistycznej. W przypadku braku studentów obcojęzycznych, zajęcia będą prowadzone po polsku. |
Pełny opis: |
1. Wprowadzenie. Terminologia (inżynieria lingwistyczna, lingwistyka informatyczna, NLP, HLT itp.), historia, zastosowania, dwa paradygmaty (symboliczny i statystyczny). (1 wykład) 2. Znajdowanie słów kluczowych i wydobywanie informacji (ang. Information Retrieval), tf.idf, dokładność (ang. precision), kompletność (ang. recall). (1 wykład) 3. Znajdowanie rdzeni wyrazów (stemming) i ich form podstawowych (lematyzacja). 4. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. (1 wykład) 5. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 wykład) 6. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne. (1 wykład) 7. N-gramy, modele Markowa (ang. HMMs). Dezambiguacja morfosyntaktyczna: metody statystyczne. Wygładzanie (ang. smoothing). (1 wykład) 8. Tager Brilla i tagery hybrydowe. Porównywanie jakości tagerów. (1 wykład) 9. Segmentacja tekstu na zdania. Automatyczne streszczanie przez wycinanie (ang. summarisation by extraction). (1 wykład) 10. Wykrywanie błędów i poprawianie pisowni: metody ogólne i dziedzinowe. (1 wykład) 11. Semantyka leksykalna, sieci semantyczne (wordnety), angielski WordNet, ontologie. (1 wykład) 12. Słowosieć (polski wordnet), metody automatycznego uczenia się leksykalnych relacji semantycznych. (1 wykład) 13. Leksykalna dezambiguacja semantyczna (ang. Word Sense Disambiguation). (1 wykład) 14. Statystyczne tłumaczenie maszynowe (lub przetwarzanie mowy), podsumowanie. (1-2 wykłady) W przypadku braku studentów obcojęzycznych, zajęcia będą prowadzone po polsku. |
Literatura: |
1. Steven Bird, Ewan Klein i Edward Loper 2009, "Natural Language Processing - Analyzing Text with Python and the Natural Language Toolkit", http://www.nltk.org/book. 2. Daniel Jurafsky i James H. Martin 2009, "Speech and Language Processing", Prentice-Hall (2. wydanie). 3. Adam Przepiórkowski 2008, "Powierzchniowe przetwarzanie języka polskiego", EXIT, Warszawa. |
Właścicielem praw autorskich jest Uniwersytet Warszawski.