NLP 2019 vizsgatematika

Hivatalos könyv: Dan Jurafsky és James H. Martin, Speech and Language Processing
 1. Bevezetés, a nyelvi algoritmusok korszakai, fejlődése: Turing, Chomsky, Bayesiánus, empirikus (versus szabály alapú) megközelítés, neurális hálók.
 2. A szavak megszámolása, Zipf (és Zipf-Mandelbrot) törvény. Szó ill. betű statisztikák. A szótár mérete és a különböző frekvencia-kategóriák.
 3. Morfológia véges állapotú automatákkal, Hunspell.
 4. Levenshtein távolság és fajtái, körülbelüli találat keresése szövegben.
 5. Indexépítés: prefix-kód, Huffman-fa, várható értékben legsekélyebb fa, Shannon tétele.
 6. Szófaj címkézés (POS tagging): Hidden Markov Model, Viterbi algoritmus segédanyagok itt
 7. Környezetfüggetlen nyelvtanok (CFG) és CYK parser és kiterjesztéseik (szórend, morfológia)
 8. n-gram, nyelvmodellezés, Markov tree (trie), perplexitás, n-gram simítások
 9. Hangfelismerés
 10. Szóvektorok
 11. Neurális hálók