Verse by verse : modelling semantic similarity in Byzantine Greek poetry

Publication type
D1
Publication status
Published
Author
Swaelens, C.
Publisher
Ghent University. Faculty of Arts and Philosophy (Ghent, Belgium)
Download
(.pdf)
View in Biblio
(externe link)

Abstract

Byzantijnse boekepigrammen zijn korte, poëtische teksten die naast de hoofdtekst in manuscripten te vinden zijn. Meer dan bladvulling zijn ze ook de spiegel van de contemporaine intellectuele, materiële en schriftcultuur. Toch zijn die boekepigrammen, ondanks hun toegevoegde waarde voor zowel geschiedkunde als filologie, eerder stiefmoederlijk behandeld binnen de klassieke filologische traditie. Omdat ze vaak verspreid zijn over verschillende manuscripten en gekenmerkt worden door grote taalkundige variatie, zijn slechts weinige opgenomen in kritische edities, wat hun systematische verwerking des te uitdagender maakt. Deze dissertatie onderzoekt of, en op welke manier, moderne computationele methodes het mogelijk maken om dergelijke
historische teksten te analyseren en om onderlinge relaties zichtbaar te maken.
Het eerste deel van deze dissertatie richt zich op de taalkundige annotatie van het Grieks. De focus ligt enerzijds op de ontwikkeling van systemen die automatisch taalkundige labels aan woorden toekennen, en anderzijds op het trainen van een transformer-taalmodel. Een ijkingset of gold standard van 10.000 woorden uit ruwe, onbewerkte Byzantijns-Griekse poëzie werd manueel geannoteerd met labels voor woordsoort, morfologische kenmerken en lemma’s. Die set dient als basis voor de evaluatie van automatische systemen
taalkundige annotatie. Verschillende taalmodellen werden getraind op diverse combinaties van klassiek, middeleeuws en Nieuwgrieks, waaruit DBBERT werd geselecteerd als het best presterende. Dat model werd vervolgens verder getraind—of gefinetuned—op specifieke deeltaken, zoals het toekennen van woordsoorten. Het uiteindelijke systeem behaalt competitieve resultaten met beperkte data en verlegt de focus van automatische taalkundige analyse van uitsluitend klassiek Grieks in edities naar ruwe, niet-genormaliseerde
teksten, zoals boekepigrammen.
Het tweede deel van deze dissertatie onderzoekt in welke mate computationele modellen menselijke oordelen over gelijkenis in het Byzantijns Grieks kunnen benaderen. Daarvoor hebben we een nieuwe ijkingset ontwikkeld
van 300 versparen uit boekepigrammen die manueel zijn geannoteerd via paarsgewijze vergelijking. Tegen deze referentiedataset werden verschillende soorten numerieke woordrepresentaties (vectoren) getest om sterk gelijkende verzen automatisch te kunnen identificeren: enerzijds statische vectoren zoals SkipGram, CBOW en GloVe, anderzijds contextuele vectoren gegenereerd door DBBErt. De experimenten werden uitgevoerd zowel woord- als versniveau, met input in zowel gelemmatiseerde als ongelemmatiseerde vorm. De resultaten tonen aan dat DBBErt bijzonder goed presteert bij ongelemmatiseerde input, terwijl de traditionele vectoren alleen competitief presteren wanneer de input uit lemma’s bestaat. Het annotatieproces bood bovendien waardevolle inzichten in de complexiteit van gelijkenisbeoordeling in historische teksten, waarin betekenis mede gevormd wordt door lexicale, metrische en conceptuele verbanden.
Deze dissertatie levert niet enkel methodologische, maar ook empirische bijdragen aan het veld. Er zijn nieuwe systemen voor Griekse taaltechnologie geïntroduceerd, waaronder automatische taalkundige annotatie, het DBBErt-model en de eerste ijkingset voor semantische overeenkomst in Byzantijns Grieks. Op een meer abstract niveau laat het onderzoek zien hoe computationele methodes aangepast kunnen worden aan de specifieke uitdagingen van historische corpora en opent het zo nieuwe perspectieven voor filologische
analyse, onderzoek naar intertekstualiteit en digitale tekstwetenschap.

Byzantine Greek book epigrams are short, poetic texts inscribed in the margins of manuscripts that reflect the intellectual, material, and scribal culture of their time. Although rich in both historical and philological insight, they have often been treated as peripheral in classical scholarship. Many have never been formally edited, and their fragmentary preservation and varied linguistic features make them challenging to process at scale. This dissertation explores how modern computational methods can offer new ways of approaching these texts and understanding how they relate to one another.
The first part of the dissertation focuses on the development of a linguistic annotation pipeline and the training of transformer-based language models for ancient Greek. A gold standard of 10,000 tokens of unedited Byzantine Greek poetry was manually annotated for part-of-speech, morphological features, and lemmata. This resource served to evaluate transformer models on linguistic tasks. Several language models were pre-trained on different combinations of classical, Byzantine, and Modern Greek corpora. Among these, the best-performing model, DBBErt, was selected based on intrinsic evaluation and subsequently fine-tuned for downstream tasks. The resulting system yields strong performance for linguistic annotation in this specific low-resource setting and enables more accurate processing of unedited Greek texts.
The second part turns to the study of semantic textual similarity, which starts with the development of a new benchmark to evaluate how closely computational models can approximate human judgments of similarity in Byzantine Greek. This benchmark consists of 300 verse pairs from book epigrams, annotated through pairwise comparison. Multiple types of embeddings were evaluated on this dataset, including static word vectors (SkipGram, CBOW, GloVe) as well as contextual representations from DBBErt. Experiments were conducted at both word and verse level, using lemmatised and unlemmatised input. The results show that DBBErt performs quite well when used on unlemmatised verse-level input, though traditional embeddings remain competitive in lemmatised configurations. The annotation process also revealed important insights into the complexity of assessing similarity in historical texts, where meaning is shaped by lexical, metrical, and conceptual associations.
This dissertation makes both methodological and empirical contributions. It delivers new resources for ancient Greek NLP, including a linguistic annotation pipeline, the DBBErt model, and the first semantic similarity benchmark for the language. More broadly, it demonstrates how computational methods can be adapted to the particular challenges of historical corpora and opens new perspectives for philological research, intertextual analysis, and digital text scholarship.