Flexing in 73 Languages: A Single Small Model for Multilingual Inflection
( Flexíme v 73 jazycích: Jeden malý model pro vícejazyčnou morfologickou inflexi )

Autor
Ekštein, Kamil
Konopík, Miloslav
Pražák, Ondřej
Pártl, František
Datum vydání
2025Publikováno v
28th International Conference on Text, Speech and Dialogue (Part II)Nakladatel / Místo vydání
Springer (Cham, Switzerland)ISBN / ISSN
ISBN: 978-3-032-02551-7Informace o financování
MSM//EH22_008/0004605
Metadata
Zobrazit celý záznamKolekce
Tato publikace má vydavatelskou verzi s DOI 10.1007/978-3-032-02551-7_5
Abstrakt
We present a compact, single-model approach to multilingual inflection, the task of generating inflected word forms from base lemmas to express grammatical categories. Our model, trained jointly on data from 73 languages, is lightweight, robust to unseen words, and outperforms monolingual baselines in most languages. This demonstrates the effectiveness of multilingual modeling for inflection and highlights its practical benefits: simplifying deployment by eliminating the need to manage and retrain dozens of separate monolingual models. In addition to the standard SIGMORPHON shared task benchmarks, we evaluate our monolingual and multilingual models on 73 Universal Dependencies (UD) treebanks, extracting lemma-tag-form triples and their frequency counts. To ensure realistic data splits, we introduce a novel frequency-weighted, lemma-disjoint train-dev-test resampling procedure. Our work addresses the lack of an open-source, general-purpose, multilingual morphological inflection system capable of handli
Představujeme kompaktní, jednomodelový přístup k vícejazyčné inflexi, což je úkol generovat inflektované slovní formy od základních tvarů. Náš model, trénovaný společně na datech ze 73 jazyků, je lehký, robustní vzhledem k neznámým slovům a ve většině jazyků překonává jednojazyčné základní modely. To demonstruje efektivitu vícejazyčného modelování pro inflexi a vyzdvihuje jeho praktické výhody, které spočívají ve zjednodušení nasazení eliminací nutnosti natrénovat desítky samostatných jednojazyčných modelů. Kromě standardních SIGMORPHON sdílených úloh hodnotíme naše jednojazyčné a vícejazyčné modely na 73 treebancích projektu Universal Dependencies (UD), z nichž jsme extrahovali trojice lemma-tag-form a frekvence výskytu. Abychom zajistili realistické rozdělení dat, zavádíme novou frekvenčně váženou, lemma-disjunktní resamplovací proceduru pro splitování dat. Naše práce přispívá k řešení absence open-source, univerzálního, vícejazyčného morfologického inflexního systému schopného pracovat i s neznámým
Klíčová slova
flexing, languages, single, small, model, multilingual, inflection
flexíme, jazycích, jeden, malý, model, vícejazyčnou, morfologickou, inflexi
Trvalý odkaz
https://hdl.handle.net/20.500.14178/3570Licence
Licence pro užití plného textu výsledku: Creative Commons Uveďte původ 4.0 International
