NLP 2019 vizsgatematika

Hivatalos könyv: Dan Jurafsky és James H. Martin, Speech and Language Processing
  1. Bevezetés, a nyelvi algoritmusok korszakai, fejlődése: Turing, Chomsky, Bayesiánus, empirikus (versus szabály alapú) megközelítés, neurális hálók.
  2. A szavak megszámolása, Zipf (és Zipf-Mandelbrot) törvény. Szó ill. betű statisztikák. A szótár mérete és a különböző frekvencia-kategóriák.
  3. Morfológia véges állapotú automatákkal, Hunspell.
  4. Levenshtein távolság és fajtái, körülbelüli találat keresése szövegben.
  5. Indexépítés: prefix-kód, Huffman-fa, várható értékben legsekélyebb fa, Shannon tétele.
  6. Szófaj címkézés (POS tagging): Hidden Markov Model, Viterbi algoritmus segédanyagok itt
  7. Környezetfüggetlen nyelvtanok (CFG) és CYK parser és kiterjesztéseik (szórend, morfológia)
  8. n-gram, nyelvmodellezés, Markov tree (trie), perplexitás, n-gram simítások
  9. Hangfelismerés
  10. Szóvektorok
  11. Neurális hálók