Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Inżynieria lingwistyczna - słowa

Informacje ogólne

Kod przedmiotu: 1000-2M07LS
Kod Erasmus / ISCED: 11.303 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0612) Database and network design and administration Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Inżynieria lingwistyczna - słowa
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty obieralne dla informatyki
Przedmioty obieralne na studiach drugiego stopnia na kierunku bioinformatyka
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu:

monograficzne

Skrócony opis:

Celem wykładu jest przedstawienie często wykorzystywanych w praktyce metod i technik przetwarzania języków naturalnych takich jak polski i angielski. Techniki te będą wprowadzane kontekście konkretnych zadań: wydobywania informacji (Information Retrieval), automatycznego streszczania, sprawdzania pisowni itp. Niniejszy wykład skupia się na metodach niskopoziomowych, tylko w niewielkim stopniu zależnych od danego języka. Wykład jest w dużym stopniu niezależny od wykładu Inżynieria lingwistyczna - konstrukcje, ale dopiero uczestnictwo w obu wykładach da pełny obraz Inżynierii lingwistycznej.

W przypadku braku studentów obcojęzycznych, zajęcia będą prowadzone po polsku.

Pełny opis:

1. Wprowadzenie. Terminologia (inżynieria lingwistyczna, lingwistyka informatyczna, NLP, HLT itp.), historia, zastosowania, dwa paradygmaty (symboliczny i statystyczny). (1 wykład)

2. Znajdowanie słów kluczowych i wydobywanie informacji (ang. Information Retrieval), tf.idf, dokładność (ang. precision), kompletność (ang. recall). (1 wykład)

3. Znajdowanie rdzeni wyrazów (stemming) i ich form podstawowych (lematyzacja).

4. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. (1 wykład)

5. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 wykład)

6. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne. (1 wykład)

7. N-gramy, modele Markowa (ang. HMMs). Dezambiguacja morfosyntaktyczna: metody statystyczne. Wygładzanie (ang. smoothing). (1 wykład)

8. Tager Brilla i tagery hybrydowe. Porównywanie jakości tagerów. (1 wykład)

9. Segmentacja tekstu na zdania. Automatyczne streszczanie przez wycinanie (ang. summarisation by extraction). (1 wykład)

10. Wykrywanie błędów i poprawianie pisowni: metody ogólne i dziedzinowe. (1 wykład)

11. Semantyka leksykalna, sieci semantyczne (wordnety), angielski WordNet, ontologie. (1 wykład)

12. Słowosieć (polski wordnet), metody automatycznego uczenia się leksykalnych relacji semantycznych. (1 wykład)

13. Leksykalna dezambiguacja semantyczna (ang. Word Sense Disambiguation). (1 wykład)

14. Statystyczne tłumaczenie maszynowe (lub przetwarzanie mowy), podsumowanie. (1-2 wykłady)

W przypadku braku studentów obcojęzycznych, zajęcia będą prowadzone po polsku.

Literatura:

1. Steven Bird, Ewan Klein i Edward Loper 2009, "Natural Language Processing - Analyzing Text with Python and the Natural Language Toolkit", http://www.nltk.org/book.

2. Daniel Jurafsky i James H. Martin 2009, "Speech and Language Processing", Prentice-Hall (2. wydanie).

3. Adam Przepiórkowski 2008, "Powierzchniowe przetwarzanie języka polskiego", EXIT, Warszawa.

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
ul. Banacha 2
02-097 Warszawa
tel: +48 22 55 44 214 https://www.mimuw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.2.0-80474ed05 (2024-03-12)