Přeskočit na obsah

Repozitář publikační činnosti

    • čeština
    • English
  • čeština 
    • čeština
    • English
  • Přihlásit se
Zobrazit záznam 
  •   Repozitář publikační činnosti UK
  • Fakulty
  • Matematicko-fyzikální fakulta
  • Zobrazit záznam
  • Repozitář publikační činnosti UK
  • Fakulty
  • Matematicko-fyzikální fakulta
  • Zobrazit záznam
JavaScript is disabled for your browser. Some features of this site may not work without it.

Corpus Frequencies in Morphological Inflection: Do They Matter?

( Korpusové frekvence v morfologické inflexi: Jsou důležité? )

jiný příspěvek v konferenčním sborníku
Creative Commons License IconCreative Commons BY Icon
en
vydavatelská verze
  • žádná další verze
Thumbnail
File can be accessed.Získat publikaci
Autor
Sourada, TomášORCiD Profile - 0009-0003-6792-825XWoS Profile - OQK-2968-2025Scopus Profile - 59121294300
Straková, JanaORCiD Profile - 0000-0003-0075-2408WoS Profile - L-5805-2017Scopus Profile - 57193758664
Ciencialová, Lucie
Čechová, Monika
Denti, Luca
Holeňa, Martin
Mačaj, Martin
Mráz, František
Ostertág, Richard
Pardubská, Dana
Plátek, Martin
Stanek, Martin

Zobrazit další autory

Datum vydání
2025
Publikováno v
Proceedings of the 25th Conference Information Technologies – Applications and Theory (ITAT 2025)
Nakladatel / Místo vydání
CEUR-WS.org (Košice, Slovakia)
ISBN / ISSN
ISBN: 0-000-00000-0eISSN: 1613-0073
Informace o financování
MSM//EH22_008/0004605
Metadata
Zobrazit celý záznam
Kolekce
  • Matematicko-fyzikální fakulta
Abstrakt
The traditional approach to morphological inflection (the task of modifying a base word (lemma) to express grammatical categories) has been for decades to consider lexical entries of lemma-tag-form triples uniformly, lacking any information about their frequency distribution. However, in production deployment one might expect the user inputs to reflect a real-world distribution of frequencies in natural texts. With future deployment in mind, we explore the incorporation of corpus frequency information into the task of morphological inflection along three key dimensions during system development: (i) for train-dev-test split, we combine a lemma-disjoint approach, which evaluates the model's generalization capabilities, with a frequency-weighted strategy to better reflect the realistic distribution of items across different frequency bands in training and test sets; (ii) for evaluation, we complement the standard type accuracy (often referred to simply as accuracy), which treats all items equally regard
 
Tradiční přístup k morfologické inflexi (úkol modifikace základního slova (lemmatu) pro vyjádření gramatických kategorií) po desetiletí spočíval v uniformním posuzování lexikálních záznamů trojic lemma-tag-forma bez jakýchkoli informací o jejich frekvenčním rozložení. V produkčním prostředí by se však dalo očekávat, že uživatelské vstupy budou odrážet reálné rozložení frekvencí v přirozených textech. S ohledem na budoucí nasazení zkoumáme začlenění informací o četnosti korpusu do úlohy morfologické inflexe ve třech klíčových dimenzích během vývoje systému: (i) pro rozdělení typu trénování-vývoj-testování kombinujeme přístup lemma-disjunkt, který hodnotí generalizační schopnosti modelu, s frekvenčně váženou strategií, abychom lépe odráželi realistické rozložení položek napříč různými frekvenčními pásmy v trénovacích a testovacích sadách; (ii) pro vyhodnocení doplňujeme standardní typovou přesnost (často označovanou jednoduše jako přesnost), která zachází se všemi položkami stejně bez ohledu na frekvenc
Zobrazit v dalších jazycích
Klíčová slova
corpus, frequencies, morphological, inflection, they, matter
 
korpusové, frekvence, morfologické, inflexi, jsou, důležité
Zobrazit v dalších jazycích
Trvalý odkaz
https://hdl.handle.net/20.500.14178/3571
Licence

Licence pro užití plného textu výsledku: Creative Commons Uveďte původ 4.0 International

Zobrazit podmínky licence

xmlui.dri2xhtml.METS-1.0.item-publication-version-

DSpace software copyright © 2002-2016  DuraSpace
Kontaktujte nás | Vyjádření názoru
Theme by 
Atmire NV
 

 

O repozitáři

O tomto repozitářiAkceptované druhy výsledkůPovinné popisné údajePoučeníCC licence

Procházet

Vše v DSpaceKomunity a kolekcePracovištěDle data publikováníAutořiNázvyKlíčová slovaTato kolekcePracovištěDle data publikováníAutořiNázvyKlíčová slova

DSpace software copyright © 2002-2016  DuraSpace
Kontaktujte nás | Vyjádření názoru
Theme by 
Atmire NV