User:TJones (WMF)/Notes/Folding Diacritics in Slovak/Stemmer Struggles

Slovak Stemmer Struggles

edit

Below is a collection of inflected forms of Slovak words, taken from English Wikipedia, presented as the headword (with link) followed by the stem and the forms that got that stem.

The collection is unrepresentative because I picked some examples at random, and some to be different from others. The first few have perfect stemming—all forms get the same stem—later ones do not. Some, like ísť ("to go") are irregular and so a simple rules-based stemmer isn't going to get everything, but we can probably make it better (see T227924).

Slovák
slovák Slováci, Slovák, Slováka, Slovákmi, Slovákoch, Slovákom, Slovákov, Slovákovi
slovenský
slovensk slovenská, slovenské, slovenského, slovenskej, slovenskému, slovenskí, slovenskom, slovenskou, slovenskú, slovenský, slovenských, slovenským, slovenskými
pekný
pekn pekná, pekné, pekného, peknej, peknému, pekní, peknom, peknom, peknou, peknú, pekný, pekných, pekným, peknými
nesčíselný
nesčíseln nesčíselná, nesčíselné, nesčíselného, nesčíselnej, nesčíselnému, nesčíselní, nesčíselnom, nesčíselnou, nesčíselnú, nesčíselný, nesčíselných, nesčíselným, nesčíselnými
roztomilý
roztomil roztomilá, roztomilé, roztomilého, roztomilej, roztomilému, roztomilí, roztomilom, roztomilou, roztomilú, roztomilý, roztomilých, roztomilým, roztomilými
žĺtkový
žĺtk žĺtková, žĺtkové, žĺtkového, žĺtkovej, žĺtkovému, žĺtkoví, žĺtkovom, žĺtkovou, žĺtkovú, žĺtkový, žĺtkových, žĺtkovým, žĺtkovými
otrok
otrok otroci, otrok, otroka, otrokmi, otrokoch, otrokom, otrokov, otrokovi
boháč
boháč boháč, boháča, boháčmi, boháčoch, boháčom, boháčov, boháčovi
bohák boháči
biotit
biotit biotit, biotite, biotitmi, biotitoch, biotitom, biotitov, biotity
biotitu biotitu
matkin
matk matkin, matkina, matkine, matkinej, matkini, matkino, matkinom, matkinou, matkiných, matkiným, matkinými
matkinh matkinho
matkinmu matkinmu
matkinu matkinu
cudzí
cud cudzím
cudz cudzej, cudzí, cudzí, cudzích, cudzími, cudzom, cudzou
cudzi cudzia, cudzie
cudzieh cudzieho
cudziemu cudziemu
cudziu cudziu
krásny
krásn krásna, krásne, krásnej, krásni, krásnom, krásnou, krásny
krásneh krásneho
krásnemu krásnemu
krásnu krásnu
krásny krásnymi
krásnych krásnych
krásnym krásnym
budúci
budúc budúca, budúcej, budúcom, budúcou
budúceh budúceho
budúcemu budúcemu
budúci budúcimi
budúcim budúcim
budúcu budúcu
budúk budúce, budúci, budúcich
obtiažny
obtiažn obtiažna, obtiažne, obtiažnej, obtiažni, obtiažnom, obtiažnou, obtiažny
obtiažneh obtiažneho
obtiažnemu obtiažnemu
obtiažnu obtiažnu
obtiažny obtiažnymi
obtiažnych obtiažnych
obtiažnym obtiažnym
aktínium
aktíni aktínia, aktíniom
aktíniu aktíniu
aktínium aktínium
chlapec
chlapc chlapca, chlapcami, chlapcoch, chlapcom, chlapcov, chlapcovi
chlapec chlapec
chlapk chlapci
bezpečnosť
bezpečnosť bezpečnosť, bezpečnosťami, bezpečnosťou
bezpečnost bezpečnosti, bezpečností
bezpečnostiach bezpečnostiach
bezpečnostiam bezpečnostiam
Slovinec
slovinc Slovinca, Slovincami, Slovincoch, Slovincom, Slovincov, Slovincovi
slovinec Slovinec
slovink Slovinci
lyžica
lyžíc lyžíc
lyžic lyžica, lyžicami, lyžicou
lyžiciach lyžiciach
lyžiciam lyžiciam
lyžicu lyžicu
lyžik lyžice, lyžici
tisíci
tisíc tisíca, tisícej, tisícom, tisícou
tisíceh tisíceho
tisícemu tisícemu
tisíci tisícimi
tisícim tisícim
tisícu tisícu
tisík tisíce, tisíci, tisícich
bombardovať
bombardoval bombardoval, bombardovala, bombardovali, bombardovalo
bombardovan bombardovaný
bombardovani bombardovanie
bombardovať bombardovať
bombarduj bombarduj, bombarduje, bombardujete, bombardujú
bombardujem bombardujem, bombardujeme
bombarduješ bombarduješ
bombardujm bombardujme
bombardujt bombardujte
bombardujúc bombardujúc
bombardujúk bombardujúci
oponovať
oponoval oponoval, oponovala, oponovali, oponovalo
oponovan oponovaný
oponovani oponovanie
oponovať oponovať
oponuj oponuj, oponuje, oponujete, oponujú
oponujem oponujem, oponujeme
oponuješ oponuješ
oponujm oponujme
oponujt oponujte
oponujúc oponujúc
oponujúk oponujúci
pomôcť
pomôcť pomôcť
pomôh pomôže, pomôžete
pomohl pomohla, pomohli, pomohlo
pomohol pomohol
pomôž pomôž
pomôžem pomôžem, pomôžeme
pomôžeš pomôžeš
pomôžm pomôžme
pomôžt pomôžte
pomôžu pomôžu
pomôžuc pomôžuc
aktualizovať
aktualizoval aktualizoval, aktualizovala, aktualizovali, aktualizovalo
aktualizovan aktualizovaný
aktualizovani aktualizovanie
aktualizovať aktualizovať
aktualizuj aktualizuj, aktualizuje, aktualizujete, aktualizujú
aktualizujem aktualizujem, aktualizujeme
aktualizuješ aktualizuješ
aktualizujm aktualizujme
aktualizujt aktualizujte
aktualizujúc aktualizujúc
aktualizujúk aktualizujúci
cestovať
cestoval cestoval, cestovala, cestovali, cestovalo
cestovani cestovanie
cestovať cestovať
cestuj cestuj, cestuje, cestujete, cestujú
cestujem cestujem, cestujeme
cestuješ cestuješ
cestujm cestujme
cestujt cestujte
cestujúc cestujúc
cestujúk cestujúci
ísť
ide ide
idem idem, ideme
iden idený
ideš ideš
idet idete
iďm iďme
iďt iďte
idú idú
idúc idúc
idúk idúci
išiel išiel
išl išla, išli, išlo
ísť ísť
pôjd pôjde, pôjdete
pôjdem pôjdem, pôjdeme
pôjdeš pôjdeš
pôjdu pôjdu