Demystifying discourse in dutch : a study on event coreference resolution

Publication type
D1
Publication status
Published
Author
De Langhe, L.
Publisher
Ghent University. Faculty of Arts and Philosophy (Ghent, Belgium)
Download
(.pdf)
View in Biblio
(externe link)

Abstract

Event coreference resolution (ECR) is a discourse-oriented Natural Language Processing (NLP) task which aims to detect and connect all textual mentions of an event across one or multiple documents, if those mentions refer to the same real-world or fictional event. ECR systems can aid in applications such as information extraction, summarization, and question answering by uncovering connections between crucial events. This process enables systems to infer causality and narrative structure, enhancing the capabilities of NLP systems as a whole.

Before, work on ECR had been mostly restricted to the English language domain. Moreover, despite recent methodological advances within the larger Artificial Intelligence (AI) and machine learning domains, ECR remains one of those tasks with which modern systems still struggle significantly. The contribution of this dissertation to the field lies in two key areas. First, a Dutch dataset (ENCORE) was developed, similar in size and design to the most widely-used resources for English ECR. Second, this newly created resource enabled us to devote an in-depth research effort into ECR in a comparatively lower-resourced domain, resulting into many insights which are also transferable to other linguistic domains.

The ENCORE dataset, consisting of 15,407 events which have been annotated in a total of 1,115 documents, is the result of a rigorous theoretical study on events and their coreference and is, as of now, the largest manually annotated available ECR dataset. Unlike some earlier studies on events and event coreference, we employed a generally nonrestrictive definition of what an event is, resulting into a dataset which is hands-on and can be used as the basis of a whole hoist of practical applications. Furthermore, coreferential links between events were annotated across documents by a group of expert annotators, resulting in a balanced, qualitative resource.

This corpus served as the start of a fine-grained investigation into the nature of event-level coreferential relations and into the question of why transformer-based NLP systems typically struggle with these relations. The first step in this process was to examine the performance of a series of commonly-used coreference models on our new benchmark dataset. We found that in general performance was low, but comparative to the results obtained for ECR within the English language domain. In a second step, we revealed through a series of quantitative and qualitative analyses that modern-day coreference resolution systems typically struggle on two fronts: they tend to over-rely on the lexical similarity between detected mentions (1) and they lack a general implicit knowledge on coreferential relations (2). Our subsequent research efforts revealed that if these issues are properly tackled (i.e. through direct knowledge injection or the inclusion of subsystems combatting the importance of lexical similarity), performance goes up significantly.

In the end, the insights gathered over the course of this dissertation were combined into a singular end-to-end model for ECR, which is able to both detect events and resolve the coreference between them in large document collections. We started from a state-of-the-art system for cross-document ECR and gave it access to structural knowledge of the location of the events within a text as well as to a graph-based clustering resolver which actively learns the structure of coreferential chains across documents. These well-motivated changes allowed us to demonstrate that rigorous analysis, critical thinking about the data and looking back to past theoretical and applied work all have paramount roles with respect to the development of new AI and NLP systems.

Coreferentieresolutie van gebeurtenissen (Event Coreference Resolution of ECR) is een belangrijke taak binnen het onderzoeksdomein van de natuurlijke taalverwerking of NLP. Bij deze taak is het de bedoeling om automatisch alle tekstuele vermeldingen van een bepaalde echte of fictieve gebeurtenis te detecteren en met elkaar te verbinden als deze verwijzen naar eenzelfde gebeurtenis. Doordat dit soort systemen verbanden blootleggen tussen cruciale gebeurtenenissen kunnen zij ingezet worden voor toepassingen zoals informatie-extractie, automatisch samenvatten en het beantwoorden van vragen. Dit proces stelt systemen namelijk in staat om causaliteit en narratieve structuur af te leiden uit grote tekstcollecties, wat de mogelijkheden van taalverwerkingssystemen aanzienlijk verbetert.

Tot nu toe waren de meeste ECR-studies gericht op de analyse van Engelse data. Bovendien blijkt deze taak, ondanks de recente methodologische vooruitgang binnen de domeinen van kunstmatige intelligentie (KI) en machinaal leren, nog steeds een enorme uitdaging voor de huidige moderne systemen. De bijdrage van dit proefschrift aan het veld is dan ook tweeledig. Zo werd de eerste grootschalige Nederlandse dataset (ENCORE) verzameld en geannoteerd, vergelijkbaar in grootte en ontwerp met de meest gebruikte datasets voor Engelse ECR. Dit nieuw ontwikkelde corpus was vervolgens de basis voor het eerste diepgaande onderzoek naar ECR in het Nederlands, wat resulteerde in inzichten die ook overdraagbaar zijn naar andere talen.

Met maar liefst 15.407 gebeurtenissen die werden geannoteerd in 1.115 documenten, is de ENCORE dataset de grootste handmatig geannoteerde ECR dataset tot op heden. Die annotatie is het resultaat van een diepgaande theoretische studie naar gebeurtenissen en hun coreferentie In tegenstelling tot sommige eerdere studies hanteerden we een vrij ruime definitie van wat een gebeurtenis precies is. Dit resulteerde in een hands-on dataset die kan worden gebruikt als basis voor een hele reeks praktische toepassingen. Bovendien werden coreferentiële links tussen gebeurtenissen in documenten geannoteerd door een groep deskundige annotatoren, wat leidde tot een evenwichtig en kwalitatief corpus.

Dit corpus was de basis voor een diepgaand onderzoek naar de aard van coreferentiële relaties tussen gebeurtenissen en de vraag waarom transformergebaseerde NLP-systemen hier doorgaans moeite mee hebben. Als eerste stap in dit proces onderzochten we de prestaties van een reeks veelgebruikte coreferentiemodellen. Daarbij kwam naar boven dat de performantie over het algemeen laag lag, maar wel vergelijkbaar was met die uit eerder onderzoek naar het Engels. In een tweede stap onthulden we door middel van een reeks kwantitatieve en kwalitatieve analyses dat moderne coreferentiesystemen doorgaans tegen twee problemen aanlopen: ze vertrouwen te veel op de lexicale gelijkenis tussen gedetecteerde gebeurtenissen (1) en ze missen algemene impliciete kennis over coreferentiële relaties (2). We toonden vervolgens aan dat als deze problemen op de juiste manier worden aangepakt (d.w.z. door directe kennisinjectie of door het opnemen van subsystemen die het belang van lexicale gelijkenis bestrijden), de performantie van deze systemen aanzienlijk toeneemt.

Al deze inzichten werden gecombineerd in een end-to-end model voor ECR. Dat model is in staat om zowel gebeurtenissen te detecteren als de coreferentiële relaties tussen deze gebeurtenissen te herkennen, en dit over documentsgrenzen heen. Hiervoor vertrokken we van een state-of-the-art systeem voor documentoverschrijdende ECR. Dit systeem gaven we bijkomend toegang tot kennis over de locatie van de gebeurtenissen binnen een tekst, en tot een grafiekgebaseerde clustering waarbij de structuur van coreferentiële ketens tussen documenten actief wordt geleerd. Met deze goed gemotiveerde veranderingen toonden we aan dat rigoureuze analyse, kritisch denken over de data en terugkijken naar theoretisch en toegepast werk uit het verleden allemaal een belangrijke rol kunnen spelen bij de ontwikkeling van nieuwe KI- en NLP-systemen.