Det Centrale Ordregister (COR)

Introduktion

COR er et register over det danske ordforråds lemmaer, særligt udviklet til support af sprogteknologi. Hvert dansk lemma og hver dansk ordform har (eller kan få) tilknyttet et unikt COR-indeks:

Lemma

 dansk    adj.          COR.15006

Ordform

 danske   adj.sg.best   COR.15006.302.01
 danske   adj.pl        COR.15006.303.01

COR vil med tiden komme til at rumme mange forskellige resurser. Registerets niveau 1 kaldes også grundresursen, og den svarer til Retskrivningsordbogen (udgivet af Dansk Sprognævn). Den rummer de samme lemmaer som ordbogen, men den indeholder mange bøjningsformer som ikke er nævnt der.

Grundresursen er gratis, frit tilgængelig og åben for enhver anvendelse. Andre COR-resurser er ikke nødvendigvis frit tilgængelige – det vil fremgå af beskrivelsen af den enkelte resurse.


Hvad er en COR-resurse?

En COR-resurse er en selvstændig ordresurse som er COR-kompatibel. Alle kan bygge deres egen COR-resurse som kan tildeles en nummerserie inden for COR. Der er tre niveauer af resurser

Niveau 1: Baseret på Retskrivningsordbogen og giver adgang til de mest grundlæggende oplysninger om de danske ord. I COR’s niveau 1 finder man ordenes korrekte stavning og bøjning, samt oplysninger om hvordan de indgår i sammensætninger. Grundresursen, som bliver nævnt flere gange her, er en niveau 1-resurse.

Niveau 2: Resurser som udgives af professionelle sprogmiljøer i Danmark, heriblandt Dansk Sprog- og Litteraturselskab og Center for Sprogteknologi. Resurserne kommer blandt andet til at dække en lang række helt centrale betydningsangivelser og semantiske beskrivelser af det almene danske ordforråd.

Niveau 3: Under dette niveau kan enhver organisation eller privatperson oprette en COR-resurse. Det kunne for eksempel være en kommune som gerne vil kunne klassificere deres indkomne mails efter emne; det kunne også være et hospital eller et højteknologisk firma med et specialiseret fagsprog der skal understøttes med stavekontrol.

Grundresursens struktur

En indgang i grundresursen består af præfikset 'COR' efterfulgt af et 5-cifret indeksnummer der angiver det specifikke lemma.

Eks: COR.60387 - 'fugemasse'

Derefter kommer der et 3-cifret nummer som angiver bøjningen for ordet:

Eks: COR.60387.111 - 'fugemassen'

Slutteligt har et COR-indeks i grundresursen altid et 2-cifret løbenummmer som angiver variation.

Eks: COR.60387.111.01 - 'fugemassen'

Da der kun er en måde at stave 'fugemassen' på har den fået variationsnummeret '01'. Lemmaet 'byvåben' har til gengæld tre variationer i ubestemt pluralis, så her kommer variationsnummeret i brug:

COR.63364.112.01 - 'byvåben'

COR.63364.112.02 - 'byvåbener'

COR.63364.112.03 - 'byvåbner'


Registeret drives af Dansk Sprognævn som tildeler nummerindekser til nye COR-resurser. Dansk Sprognævn står også for at opdatere grundresursen således at den altid vil være i overensstemmelse med gældende retskrivning.

Eksempler fra grundresursen

Herunder vises et eksempel fra COR. COR-id angiver det unikke id som identificerer det specifikke lemma 'fugemasse'. 'Lemma' indikerer opslagsordet som det står i RO. 'Bøjningsform' angiver den specifikke bøjning for denne fuldform. 'Normering' angiver om den specifikke bøjning af ordet står opgivet i Retskrivningsordbogen.

COR-id Lemma Bøjningsform Fuldform Normering
COR.60387.110.01 fugemasse sb.fk.sg.ubest. fugemasse 1
COR.60387.111.01 fugemasse sb.fk.sg.best. fugemassen 1
COR.60387.112.01 fugemasse sb.fk.pl.ubest. fugemasser 1
COR.60387.113.01 fugemasse sb.fk.pl.best. fugemasserne 1
COR.60387.114.01 fugemasse sb.fk.sg.ubest.gen. fugemasses 1
COR.60387.115.01 fugemasse sb.fk.sg.best.gen. fugemassens 1
COR.60387.116.01 fugemasse sb.fk.pl.ubest.gen fugemassers 1
COR.60387.117.01 fugemasse sb.fk.pl.best.gen. fugemassernes 1

Forklaring på forkortelser: sb: substantiv/navneord; fk: fælleskøn (i modsætning til itk: intetkøn); sg: singularis/ental; pl: pluralis/flertal; best: bestemt; ubest: ubestemt; gen: genitiv/ejefald

Derudover er der en kolonne der kan indeholde glosser (betydningsangivelser) i tilfælde af at to lemmaer staves ens og har samme ordklasse.

I ovenstående eksempel kan man se at alle COR-indekserne afsluttes med et løbenummer: 01. Løbenummeret angiver variation i bøjningen. Da der ikke er nogen variation i måden 'fugemasse' bøjes på ender alle COR-indekserne på '01'. Der er imidlertid andre lemmaer, som 'nyse' der har to godkendte former i præteritum/datid:

COR-id Lemma Bøjningsform Fuldform Normering
COR.35364.206.01 nyse vb.præt.akt. nyste 1
COR.35364.206.02 nyse vb.præt.akt. nøs 1

Her kan man se at de to godkendte former for datid kan staves på to forskellige måder. Der er altså variation i stavemåden og det indikeres med et variationsnummer: .01 for den ene variation og .02 for den anden. I grundserien er der i enkelte tilfælde op til 6 forskellige variationer af en enkelt bøjningsform.

COR-id Lemma Bøjningsform Fuldform Normering
COR.53473.112.01 coronavirus sb.fk.pl.ubest. coronavira 1
COR.53473.112.02 coronavirus sb.fk.pl.ubest. coronavirus 1
COR.53473.112.03 coronavirus sb.fk.pl.ubest. coronavirusser 1
COR.53473.112.04 coronavirus sb.fk.pl.ubest. koronavira 1
COR.53473.112.05 coronavirus sb.fk.pl.ubest. koronavirus 1
COR.53473.112.06 coronavirus sb.fk.pl.ubest. koronavirusser 1

Denne inddeling gør det muligt at skelne mellem forskellige variationer af den samme bøjning.


Grundresursen indeholder også en angivelse af normering (se sidste kolonne i ovenstående eksempler). Normeringskolonnen angiver om en given bøjningsform er nævnt i Retskrivningsordbogen og derfor er en normeret form. Mange lemmaer kan have både normerede og unormerede former. Unormerede former angives med '0' i kolonnen 'normering'.

Eks: rød

COR-id Lemma Bøjningsform Fuldform Normering
COR.15892.300.01 rød adj.sg.ubest.fk. rød 1
COR.15892.301.01 rød adj.sg.ubest.itk. rødt 1
COR.15892.302.01 rød adj.sg.best. røde 1
COR.15892.303.01 rød adj.pl. røde 1
COR.15892.304.01 rød adj.kompar. rødere 0
COR.15892.305.01 rød adj.superl.sg.ubest. rødest 0
COR.15892.306.01 rød adj.superl.sg.best. rødeste 0
COR.15892.307.01 rød adj.superl.pl. rødeste 0
COR.15892.309.01 rød adj.adv. rødt 1
COR.15892.310.01 rød adj.adv.kompar. rødere 0
COR.15892.311.01 rød adj.adv.superl. rødest 0

Her kan man se at komparerede former af 'rød' er unormerede bøjningsformer mens de andre bøjninger er normerede former af 'rød'.

Andre COR-resurser

COR.EXT er en resurse med ekstra lemmaer fra Den Danske Ordbog, udarbejdet af Det Danske Sprog- og Litteraturselskab (DSL). Den er tilgængelig nu.

COR.SOEGEHJAELP er en resurse med forskellige stavefejl. Den er også udarbejdet af DSL, og den er også tilgængelig nu.

En semantisk resurse med arbejdsnavnet COR-S lanceres i december 2023. Det er et formaliseret betydningsinventar for cirka 30.000 lemmaer, herunder de centrale lemmaer i dansk, baseret på beskrivelser i bl.a. Den Danske Ordbog og det Danske WordNet DanNet. For hver betydning angives et overbegreb og en ontologisk type samt en række andre formaliserede oplysninger. Denne resurse udarbejdes af Det Danske Sprog- og Litteraturselskab og Center for Sprogteknologi ved Københavns Universitet.

Hvordan opretter jeg min egen COR-resurse?

For at oprette sin egen COR-resurse skal man kontakte Dansk Sprognævn som forvalter uddelingen af nummerserier. Inden man opretter kontakt er det en god ide at have styr på hvilket indhold man gerne vil have i sin COR-resurse. Som minimum bør man oplyse følgende:

  1. Et navneforslag (fx Ordbog over dansk udtale i 1922).
  2. Et forslag til COR-præfiks (fx COR.UDT1922).
  3. En oversigt over hvilke oplysninger man vil angive om hvert enkelt COR-indeks (fx glosse, udtale i Dania, udtale i IPA).
  4. Antal indeksnumre man regner med at få brug for (fx 50.000).
  5. Licens.
  6. Resursens ejer.
  7. Kontaktperson.

Kontakt i første omgang enten Thomas Widmann (tw@dsn.dk) eller Peter Juel Henrichsen (pjh@dsn.dk) – så vil vi meget gerne vejlede dig i hvordan du enten laver en COR-resurse eller bruger en COR-resurse til forskellige formål.