Smashcima: Full-Page Handwritten Music Document Synthesizer
( Smashcima: Syntetizátor celostránkových rukopisných hudebních dokumentů )

Datum vydání
2025Publikováno v
Proceedings of the 12th International Conference on Digital Libraries for MusicologyNakladatel / Místo vydání
Association for Computing Machinery (New York, NY, USA)ISBN / ISSN
ISBN: 979-8-4007-2083-3Informace o financování
MSM//EH23_025/0008691
MSM//SVV260821
MSM//LM2023062
UK//COOP
Metadata
Zobrazit celý záznamKolekce
Tato publikace má vydavatelskou verzi s DOI 10.1145/3748336.3748380
Abstrakt
Despite massive progress made in Optical Music Recognition (OMR) with deep learning, data scarcity remains an issue, especially for manuscripts. Synthetic data has been shown to alleviate this issue, but no tool for rendering a handwritten page from structured encoding such as MusicXML exists. This paper introduces Smashcima, a framework for the creation of synthetic handwritten full-page music images. It accepts MusicXML files and produces images with full information on their glyphs, segmentation masks, keypoints, notation graph, and semantics. It is compatible with the MuNG format and so can also be used to produce synthetic training data object detection and graph models. It can synthesize images of all levels of complexity of music notation, including pianoform music. Smashcima thus greatly increases the value of dataset acquisition, as it can expand a small manually annotated dataset to the scale of arbitrary available MusicXML data, thereby alleviating manuscript data scarcity for OMR.
Navzdory obrovskému pokroku v oblasti rozpoznávání notopisu (OMR) pomocí hlubokého učení zůstává nedostatek dat problémem, zejména u rukopisů. Je známo, že syntetická data tento problém zmírňují, ale neexistuje žádný nástroj pro vykreslení ručně psané stránky ze strukturovaného kódování jako například MusicXML. Tento článek představuje software Smashcima, framework pro vytváření syntetických ručně psaných celostránkových hudebních obrázků. Přijímá soubory MusicXML a vytváří obrázky s úplnými informacemi o jejich glyfech, segmentačních maskách, klíčových bodech, notovém grafu a sémantice. Je kompatibilní s formátem MuNG, a proto jej lze také použít k vytváření syntetických trénovacích dat pro detekci objektů a grafových modelů. Umí syntetizovat obrázky všech úrovní složitosti hudební notace, včetně klavírních. Smashcima tak výrazně zvyšuje hodnotu získávání datových sad, protože dokáže rozšířit malou ručně anotovanou datovou sadu na libovolný rozsah dostupných dat MusicXML, čímž zmírňuje nedostatek ruk
Klíčová slova
smashcima, full, page, handwritten, music, document, synthesizer
smashcima, syntetizátor, celostránkových, rukopisných, hudebních, dokumentů
Trvalý odkaz
https://hdl.handle.net/20.500.14178/3746Licence
Licence pro užití plného textu výsledku: Creative Commons Uveďte původ 4.0 International
