Flexing in 73 Languages: A Single Small Model for Multilingual Inflection

Sourada, Tomáš; Straková, Jana

doi:10.1007/978-3-032-02551-7_5

Flexing in 73 Languages: A Single Small Model for Multilingual Inflection

( Flexíme v 73 jazycích: Jeden malý model pro vícejazyčnou morfologickou inflexi )

příspěvek v recenzovaném konferenčním sborníku

Získat publikaci

Autor

Sourada, Tomáš

Straková, Jana

Ekštein, Kamil

Konopík, Miloslav

Pražák, Ondřej

Pártl, František

Zobrazit další autory

Datum vydání

2025

Publikováno v

28th International Conference on Text, Speech and Dialogue (Part II)

Nakladatel / Místo vydání

Springer (Cham, Switzerland)

ISBN / ISSN

ISBN: 978-3-032-02551-7

Informace o financování

MSM//EH22_008/0004605

Metadata

Zobrazit celý záznam

Kolekce

Matematicko-fyzikální fakulta

Tato publikace má vydavatelskou verzi s DOI 10.1007/978-3-032-02551-7_5

Abstrakt

We present a compact, single-model approach to multilingual inflection, the task of generating inflected word forms from base lemmas to express grammatical categories. Our model, trained jointly on data from 73 languages, is lightweight, robust to unseen words, and outperforms monolingual baselines in most languages. This demonstrates the effectiveness of multilingual modeling for inflection and highlights its practical benefits: simplifying deployment by eliminating the need to manage and retrain dozens of separate monolingual models. In addition to the standard SIGMORPHON shared task benchmarks, we evaluate our monolingual and multilingual models on 73 Universal Dependencies (UD) treebanks, extracting lemma-tag-form triples and their frequency counts. To ensure realistic data splits, we introduce a novel frequency-weighted, lemma-disjoint train-dev-test resampling procedure. Our work addresses the lack of an open-source, general-purpose, multilingual morphological inflection system capable of handli

Představujeme kompaktní, jednomodelový přístup k vícejazyčné inflexi, což je úkol generovat inflektované slovní formy od základních tvarů. Náš model, trénovaný společně na datech ze 73 jazyků, je lehký, robustní vzhledem k neznámým slovům a ve většině jazyků překonává jednojazyčné základní modely. To demonstruje efektivitu vícejazyčného modelování pro inflexi a vyzdvihuje jeho praktické výhody, které spočívají ve zjednodušení nasazení eliminací nutnosti natrénovat desítky samostatných jednojazyčných modelů. Kromě standardních SIGMORPHON sdílených úloh hodnotíme naše jednojazyčné a vícejazyčné modely na 73 treebancích projektu Universal Dependencies (UD), z nichž jsme extrahovali trojice lemma-tag-form a frekvence výskytu. Abychom zajistili realistické rozdělení dat, zavádíme novou frekvenčně váženou, lemma-disjunktní resamplovací proceduru pro splitování dat. Naše práce přispívá k řešení absence open-source, univerzálního, vícejazyčného morfologického inflexního systému schopného pracovat i s neznámým

Zobrazit v dalších jazycích