COR.SEM, den semantiske komponent til Det Centrale Ordregister (COR)

COR.SEM er en formel betydningsordbog hvis opslagsord (lemmaer) er koblet til enten grundresursen COR eller til resursen COR.EXT.

COR.SEM beskriver 34.000 danske lemmaers almensproglige betydninger og indeholder i alt 42.000 betydninger for primært substantiver, verber, adjektiver og adverbier. Den er udviklet på baggrund af eksisterende oplysninger i en række eksisterende ordbøger der i forvejen var koblet sammen på betydningsniveau:

  • Den Danske Ordbog (DDO) (ordnet.dk/ddo)
  • Den Danske Begrebsordbog (Nimb et al. 2014)
  • DanNet (wordnet.dk, Pedersen et al. 2009)
  • Det Danske FrameNet-leksikon (Nimb 2018, Nimb et al. 2017)
  • Det Danske Sentiment-leksikon (Nimb et al. 2022; Pedersen et al. 2021)

Sammenkoblingen på betydningsniveau har muliggjort at udvalgte data fra alle ordbøgerne kan samles i COR.SEM.

Selve betydningsinventaret i COR.SEM, dvs. antallet af betydninger for et opslagsord, er baseret på en undersøgelse af DDO’s meget detaljerede beskrivelse af ordets betydninger. Betydningerne i COR.SEM er ofte bredere end i DDO, idet mange nært beslægtede DDO-betydninger er indeholdt i kun én COR.SEM-betydning. En del mere sjældne DDO-betydninger er ikke repræsenteret i COR.SEM, primært faglige og historiske betydninger. Faste udtryk i DDO er heller ikke repræsenteret i COR.SEM.

Den enkelte betydning i COR.SEM beskrives først og fremmest ved hjælp af to oplysninger der som udgangspunkt er overført fra DanNet og tilrettet i COR.SEM.

Den ene oplysning er ontologisk type, udvalgt blandt 146 mulige. Ordet ambulance har fx den ontologiske type Vehicle+Artifact+Object, og ordet folkesygdom den ontologiske type Property+Physical+Condition.

Den anden oplysning der er overført fra DanNet og tilrettet, er et overbegreb. Denne oplysning er både angivet som et nummer (så man kan gå direkte til DanNet og få mere information om betydningen) og et ord. Opslagsordet ambulance i COR.SEM har fx SynSet-nummeret 1507 i DanNet og ordet bil som overbegreb.

Der er ca. 7000 forskellige overbegreber i COR.SEM. Alle betydninger i COR.SEM har mindst én, højst to ontologiske typer og mindst ét, højst to overbegreber.


Udover de faste oplysninger om ontologisk type og overbegreb, er en COR.SEM-betydning ofte suppleret med en række andre væsentlige oplysninger.

Næsten alle COR.SEM-betydninger indeholder enten et eller flere synonymer fra DDO eller en oplysning om et eller flere betydningsmæssigt relaterede ord fra Den Danske Begrebsordbog (for ambulance er det relaterede ord udrykningskøretøj) - eller begge dele.

Negativt eller positivt ladede betydninger i COR.SEM indeholder som regel en oplysning om polaritet. Fx har opslagsordet skiderik den mest negative værdi “-3” og opslagsordet begejstret den mest positive værdi “3”.

Størstedelen af verberne og verbalsubstantiverne indeholder mindst én oplysning om frame, dvs. semantisk ramme, fra Berkeley FrameNet. En frame specificerer verber og verbalsubstantivers betydninger yderligere, fx kan et verbum eller verbalsubstantiv med den ontologiske type Act+Communication, have Judgment_communication som frame (som opslagsordene bebrejde og personangreb). Der er ca. 640 forskellige frames i COR.SEM, og man finder udførlige beskrivelser af dem på hjemmesiden https://framenet.icsi.berkeley.edu/.

Også en emneoplysning, der stammer fra DDO’s interne manuskript, er i mange tilfælde med til at specificere COR.SEM-betydningen, fx har ambulance emneoplysningen “ber” (beredskab).

En oplysning om opslagsordets centralitet i ordforrådet gør det muligt at indkredse den væsentligste del af det danske ordforråd, fx ord som job, medlem og pause, og frasortere mindre centrale ord som fx drueagurk, rettelsesblad og ordflom.

Derudover indeholder COR.SEM også information om opslagsordets grad af flertydighed i DDO, og om hvor mange faste udtryk med opslagsordet der er beskrevet i DDO. Ud fra disse to oplysninger kan man fx frasortere ord der har en meget kompleks betydningsstruktur (fx bund), eller ord der primært har DDO-betydninger i form af flerordsudtryk (fx fugl og nat).


COR.SEM.EXT

I en supplerende COR.SEM-resurse, COR.SEM.EXT, der udgives under en mere restriktiv licens end COR.SEM, finder man yderligere to oplysninger om betydningerne i COR.SEM.


Den ene oplysning er en definition i form af en klippet definition overført fra DDO. For ambulances vedkommende er definitionen i COR.SEM.EXT “bil indrettet til (hurtig) transport af en syg eller tilskadekommen…”.

Når en COR.SEM-betydning er baseret på to eller tre DDO-betydninger, er alle klippede definitioner angivet efter hinanden i COR.SEM.EXT. Når den er baseret på fire DDO-betydninger eller derover, er betydningen nyformuleret i COR.SEM.EXT.


Den anden oplysning i COR.SEM.EXT er et eller flere brugseksempler fra DDO.


COR.SEM er udviklet af Det Danske Sprog- og Litteraturselskab og Center for Sprogteknologi, Københavns Universitet i 2021-2023.

Sanni Nimb, Thomas Troelsgård, Ida Flörke, Nathalie H. Sørensen (DSL)

Bolette S. Pedersen, Sussi Olsen, Laura Klitgård, Simon Gray (CST)


Referencer

Ordbøger:

Den Danske Ordbog (DDO): online udgave: ordnet.dk/ddo; trykt udgave: Hjorth & Kristensen (red.) (2003-2005), Det Danske Sprog- og Litteraturselskab og Gyldendal

Den Danske Begrebsordbog: Sanni Nimb (hovedredaktør), Henrik Lorentzen, Thomas Troelsgård, Liisa Theilgaard, 2014, Det Danske Sprog- og Litteraturselskab

DanNet: wordnet.dk

Det Danske FrameNet-leksikon: https://korpus.dsl.dk/resources/details/framenet.html

Det Danske Sentiment-leksikon: https://github.com/dsldk/danish-sentiment-lexicon


Litteratur om COR.SEM og COR.SEM.EXT

Bolette Pedersen, Sanni Nimb, Nathalie Sørensen, Sussi Olsen, Ida Flörke, Thomas Troelsgård (2023). “Reusing the Danish WordNet for a New Central Word Register for Danish - a Project Report”. I: Proceedings, The GWC 2023 conference, 23-27 januar 2023, The University of the Basque Country, Donostia-San Sebastian.


Nathalie Sørensen, Sanni Nimb, Bolette Pedersen. “How do We Treat Systematic Polysemy in Wordnets and Similar Resources? – Using Human Intuition and Contextualized Embeddings as Guidance” (2023). I: Proceedings, The GWC 2023 conference, 23-27 januar 2023, The University of the Basque Country, Donostia-San Sebastian.


Nimb, Sanni, S. Pedersen, Bolette, Carmen Hau Sørensen, Nathalie, Flörke, Ida, Olsen, Sussi, & Troelsgård, Thomas (2022): “COR-S – den semantiske del af Det Centrale OrdRegister (COR)”. LexicoNordica, (29). Nordisk Forening for Leksikografi, 2022. Hentet fra https://tidsskrift.dk/lexn/article/view/134776


Pedersen, Bolette Sandford, Sørensen, Nathalie Carmen Hau, Nimb, Sanni, Flörke, Ida, Olsen, Sussi & Troelsgård, Thomas (2022): “Compiling a Suitable Level of Sense Granularity in a Lexicon for AI Purposes: The Open Source COR-Lexicon”. I: Proceedings of the 13th Language Resources and Evaluation Conference, LREC2022, Marseille, France. European Language Resources Association, p. 51-60, 10 p.


Litteratur om de bagvedliggende ordbøger Nimb, Sanni, Olsen, Sussi, Pedersen, Bolette Sandford & Troelsgaard, Thomas (2022): “A Thesaurus-based Sentiment Lexicon for Danish: The Danish Sentiment Lexicon”. I: Proceedings of the Language Resources and Evaluation Conference: LREC2022. Marseille: European Language Resources Association, Vol. 2022. p. 2826--2832 7 p.


Bolette Sandford Pedersen, Nimb, Sanni, Olsen, Sussi (2021): "Dansk betydningsinventar i et datalingvistisk perspektiv". I: Danske Studier 2021, Universitets-Jubilæets danske Samfund 2021, s. 72-106


Pedersen, Bolette S., Nimb, Sanni, Olsen, Ida Rørmann, Olsen, Sussi (2019): "Linking DanNet with Princeton WordNet" /, i Global WordNet 2019 Proceedings, Wroclaw, Poland


Pedersen, Bolette Sandford; Nimb, Sanni; Søgaard, Anders; Hartmann, Marieke; Olsen, Sussi (2018): "A Danish FrameNet Lexicon and an Annotated Corpus Used for Training and Evaluating a Semantic Frame Classifier" /. I: Proceedings of the 11th edition of the Language Resources and Evaluation Conference, Miyazaki, Japan.


Pedersen, Bolette Sandford; Nimb, Sanni; Olsen, Sussi; Sørensen, Nicolai Hartvig (2018): "Combining Dictionaries, Wordnets and other Lexical Resources - Advantages and Challenges". In Globalex Proceedings 2018, Miyasaki, Japan.


Nimb, Sanni (2018): The Danish FrameNet Lexicon: method and lexical coverage. In Proceedings of the International FrameNet Workshop at LREC 2018, Miyazaki, Japan.


Nimb, Sanni; Braasch, Anna; Olsen, Sussi; Pedersen, Bolette Sandford; Søgaard, Anders (2017). "From Thesaurus to FrameNet". I: Electronic Lexicography in the 21st century: Proceedings of eLex 2017 conference, p. 1-22.


Pedersen, B.S, Nimb, S., J. Asmussen, N. Sørensen, L. Trap-Jensen, H. Lorentzen (2009): "DanNet – the challenge of compiling a WordNet for Danish by reusing a monolingual dictionary". I: Language Resources and Evaluation, Computational Linguistics Series. 10.1007/s10579-009-9092-1. 31 s.