Corpus Frequencies in Morphological Inflection: Do They Matter?
( Korpusové frekvence v morfologické inflexi: Jsou důležité? )

Autor
Ciencialová, Lucie
Čechová, Monika
Denti, Luca
Holeňa, Martin
Mačaj, Martin
Mráz, František
Ostertág, Richard
Pardubská, Dana
Plátek, Martin
Stanek, Martin
Datum vydání
2025Publikováno v
Proceedings of the 25th Conference Information Technologies – Applications and Theory (ITAT 2025)Nakladatel / Místo vydání
CEUR-WS.org (Košice, Slovakia)ISBN / ISSN
ISBN: 0-000-00000-0eISSN: 1613-0073Informace o financování
MSM//EH22_008/0004605
Metadata
Zobrazit celý záznamKolekce
Abstrakt
The traditional approach to morphological inflection (the task of modifying a base word (lemma) to express grammatical categories) has been for decades to consider lexical entries of lemma-tag-form triples uniformly, lacking any information about their frequency distribution. However, in production deployment one might expect the user inputs to reflect a real-world distribution of frequencies in natural texts. With future deployment in mind, we explore the incorporation of corpus frequency information into the task of morphological inflection along three key dimensions during system development: (i) for train-dev-test split, we combine a lemma-disjoint approach, which evaluates the model's generalization capabilities, with a frequency-weighted strategy to better reflect the realistic distribution of items across different frequency bands in training and test sets; (ii) for evaluation, we complement the standard type accuracy (often referred to simply as accuracy), which treats all items equally regard
Tradiční přístup k morfologické inflexi (úkol modifikace základního slova (lemmatu) pro vyjádření gramatických kategorií) po desetiletí spočíval v uniformním posuzování lexikálních záznamů trojic lemma-tag-forma bez jakýchkoli informací o jejich frekvenčním rozložení. V produkčním prostředí by se však dalo očekávat, že uživatelské vstupy budou odrážet reálné rozložení frekvencí v přirozených textech. S ohledem na budoucí nasazení zkoumáme začlenění informací o četnosti korpusu do úlohy morfologické inflexe ve třech klíčových dimenzích během vývoje systému: (i) pro rozdělení typu trénování-vývoj-testování kombinujeme přístup lemma-disjunkt, který hodnotí generalizační schopnosti modelu, s frekvenčně váženou strategií, abychom lépe odráželi realistické rozložení položek napříč různými frekvenčními pásmy v trénovacích a testovacích sadách; (ii) pro vyhodnocení doplňujeme standardní typovou přesnost (často označovanou jednoduše jako přesnost), která zachází se všemi položkami stejně bez ohledu na frekvenc
Klíčová slova
corpus, frequencies, morphological, inflection, they, matter
korpusové, frekvence, morfologické, inflexi, jsou, důležité
Trvalý odkaz
https://hdl.handle.net/20.500.14178/3571Licence
Licence pro užití plného textu výsledku: Creative Commons Uveďte původ 4.0 International
