NLP 2019 vizsgatematika
Hivatalos könyv: Dan Jurafsky és James H. Martin,
Speech and Language Processing
- Bevezetés, a nyelvi algoritmusok korszakai, fejlődése: Turing, Chomsky, Bayesiánus, empirikus (versus szabály alapú) megközelítés, neurális hálók.
- A szavak megszámolása, Zipf (és Zipf-Mandelbrot) törvény. Szó ill. betű statisztikák. A szótár mérete és a különböző frekvencia-kategóriák.
- Morfológia véges állapotú automatákkal, Hunspell.
- Levenshtein távolság és fajtái, körülbelüli találat keresése szövegben.
- Hamming, Levenshtein, Damerau–Levenshtein, ezek súlyozott változatai
- Indexépítés: prefix-kód, Huffman-fa, várható értékben legsekélyebb fa, Shannon tétele.
- entropia, KL divergencia és egyenlőtlenségeik
- Szófaj címkézés (POS tagging): Hidden Markov Model, Viterbi algoritmus segédanyagok itt
- backtracking, mondat inicializálás
- Környezetfüggetlen nyelvtanok (CFG) és CYK parser és kiterjesztéseik (szórend, morfológia)
- n-gram, nyelvmodellezés, Markov tree (trie), perplexitás, n-gram simítások
- Hangfelismerés
- Szóvektorok
- word2vec és film-vektorok (k-SVD dekompozícióval)
- Neurális hálók
- seq2seq, rekurrens, GRU, LSTM, mondat fordítás, attention, sub-word modell