uu.seUppsala University Publications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Rhetorical Figure Detection: the Case of Chiasmus
Uppsala University, Disciplinary Domain of Humanities and Social Sciences, Faculty of Languages, Department of Linguistics and Philology. (Computational Linguistics)
Uppsala University, Disciplinary Domain of Humanities and Social Sciences, Faculty of Languages, Department of Linguistics and Philology. (Computational Linguistics)
2015 (English)In: Proceedings of the Fourth Workshop on Computational Linguistics for Literature, 2015, 23-31 p.Conference paper, Published paper (Refereed)
Resource type
Text
Place, publisher, year, edition, pages
2015. 23-31 p.
National Category
Language Technology (Computational Linguistics)
Research subject
Computational Linguistics
Identifiers
URN: urn:nbn:se:uu:diva-268899OAI: oai:DiVA.org:uu-268899DiVA: diva2:881536
Conference
Fourth Workshop on Computational Linguistics for Literature Denver, Colorado, USA
Available from: 2015-12-10 Created: 2015-12-10 Last updated: 2017-11-23Bibliographically approved
In thesis
1. Detecting Rhetorical Figures Based on Repetition of Words: Chiasmus, Epanaphora, Epiphora
Open this publication in new window or tab >>Detecting Rhetorical Figures Based on Repetition of Words: Chiasmus, Epanaphora, Epiphora
2017 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

This thesis deals with the detection of three rhetorical figures based on repetition of words: chiasmus (“Fair is foul, and foul is fair.”), epanaphora (“Poor old European Commission! Poor old European Council.”) and epiphora (“This house is mine. This car is mine. You are mine.”). For a computer, locating all repetitions of words is trivial, but locating just those repetitions that achieve a rhetorical effect is not. How can we make this distinction automatically?

 First, we propose a new definition of the problem. We observe that rhetorical figures are a graded phenomenon, with universally accepted prototypical cases, equally clear non-cases, and a broad range of borderline cases in between. This makes it natural to view the problem as a ranking task rather than a binary detection task. We therefore design a model for ranking candidate repetitions in terms of decreasing likelihood of having a rhetorical effect, which allows potential users to decide for themselves where to draw the line with respect to borderline cases.

 Second, we address the problem of collecting annotated data to train the ranking model. Thanks to a selective method of annotation, we can reduce by three orders of magnitude the annotation work for chiasmus, and by one order of magnitude the work for epanaphora and epiphora. In this way, we prove that it is feasible to develop a system for detecting the three figures without an unsurmountable amount of human work.

 Finally, we propose an evaluation scheme and apply it to our models. The evaluation reveals that, even with a very incompletely annotated corpus, a system for repetitive figure detection can be trained to achieve reasonable accuracy. We investigate the impact of different linguistic features, including length, n-grams, part-of-speech tags, and syntactic roles, and find that different features are useful for different figures. We also apply the system to four different types of text: political discourse, fiction, titles of articles and novels, and quotations. Here the evaluation shows that the system is robust to shifts in genre and that the frequencies of the three rhetorical figures vary with genre.

Abstract [sv]

Denna avhandling behandlar tre retoriska figurer som bygger på upprepning av ord, kiasm (“Om inte Muhammed kan komma till berget får berget komma till Muhammed.”), anafor (“Det är inte rimligt. Det är inte hållbart. Det är inte rättvist.”), och epifor (“Den här stugan är min. Den här bilen är min. Du är min.”). En dator kan lätt identifiera upprepningar av ord i en text, men att urskilja enbart de upprepningar som har en retorisk effekt är svårare. Hur kan vi få datorer att göra detta?

För det första föreslår vi en ny definition av problemet. Vi noterar att retoriska figurer är ett graderbart fenomen, med prototypiska fall å ena sidan, och klara icke-fall å andra sidan; däremellan finns ett brett spektrum av gränsfall. Detta gör det naturligt att se problemet som en uppgift som gäller rangordning snarare än binär klassificering. Vi skapar därför en modell för att rangordna repetitioner efter sannolikheten att de har en retorisk effekt. Därigenom tillåts  systemets användare att själva avgöra hur gränsfall ska hanteras.

För det andra försöker vi undvika tänkbara svårigheter med att samla in annoterade data för att träna modellen för rangordning. Genom att använda en selektiv metod kan vi reducera mängden annoteringsarbete tusenfalt för kiasm och tiofalt för anafor och epifor. Det är alltså möjligt att utveckla ett system för att identifiera de aktuella retoriska figurerna utan en stor mängd manuell annotering.

Slutligen föreslår vi en metod för utvärdering och tillämpar den på våra modeller. Utvärderingen visar att vi även med en korpus där få exempel är annoterade kan träna ett system för identifiering av repetitiva figurer med godtagbart resultat. Vi undersöker effekten av olika särdrag som bygger på t.ex. längd, n-gram, ordklasser och syntaktiska roller. En slutsats är att olika särdrag är användbara i olika grad för olika figurer. Vi prövar också systemet på ytterligare texttyper: politisk diskurs, skönlitteratur, titlar på artiklar och romaner, samt citat. Utvärderingen visar att systemet är robust vad gäller genreskillnader. Vi ser även att figurernas frekvens varierar över olika genrer.

Place, publisher, year, edition, pages
Uppsala: Acta Universitatis Upsaliensis, 2017. 49 p.
Series
Studia Linguistica Upsaliensia, ISSN 1652-1366 ; 18
Keyword
digital humanities, figure of speech, rhetorical device, machine learning, annotation
National Category
Language Technology (Computational Linguistics)
Research subject
Computational Linguistics
Identifiers
urn:nbn:se:uu:diva-334486 (URN)978-91-513-0165-5 (ISBN)
Public defence
2018-01-20, Humanistiska teatern, Thunbergsvägen 3H, Uppsala, 10:15 (English)
Opponent
Supervisors
Available from: 2017-12-18 Created: 2017-11-23 Last updated: 2017-12-18

Open Access in DiVA

No full text

Other links

http://www.aclweb.org/anthology/W/W15/W15-0703.pdf

Authority records BETA

Marie, DubremetzJoakim, Nivre

Search in DiVA

By author/editor
Marie, DubremetzJoakim, Nivre
By organisation
Department of Linguistics and Philology
Language Technology (Computational Linguistics)

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 295 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf