Det Centrale Ordregister (COR)

Introduktion

COR er et register over det danske ordforråds lemmaer, særligt udviklet til support af sprogteknologi. Hvert dansk lemma og hver dansk ordform har (eller kan få) tilknyttet et unikt COR-indeks:

Lemma

 dansk    adj.          COR.15006

Ordform

 danske   adj.sg.best   COR.15006.302.01
 danske   adj.pl        COR.15006.303.01

COR vil med tiden komme til at rumme mange forskellige resurser. Registerets niveau 1 kaldes også grundresursen, og den svarer til Retskrivningsordbogen (udgivet af Dansk Sprognævn). Den rummer de samme lemmaer som ordbogen, men den indeholder mange bøjningsformer som ikke er nævnt der.

Grundresursen er gratis, frit tilgængelig og åben for enhver anvendelse. Andre COR-resurser er ikke nødvendigvis frit tilgængelige – det vil fremgå af beskrivelsen af den enkelte resurse.


Hvad er en COR-resurse?

En COR-resurse er en selvstændig ordresurse som er COR-kompatibel. Alle kan bygge deres egen COR-resurse som kan tildeles en nummerserie inden for COR. Der er tre niveauer af resurser

Niveau 1: Baseret på Retskrivningsordbogen og giver adgang til de mest grundlæggende oplysninger om de danske ord. I COR’s niveau 1 finder man ordenes korrekte stavning og bøjning, samt oplysninger om hvordan de indgår i sammensætninger. Grundresursen, som bliver nævnt flere gange her, er en niveau 1-resurse.

Niveau 2: Resurser som udgives af professionelle sprogmiljøer i Danmark, heriblandt Dansk Sprog- og Litteraturselskab og Center for Sprogteknologi. Resurserne kommer blandt andet til at dække en lang række helt centrale betydningsangivelser og semantiske beskrivelser af det almene danske ordforråd.

Niveau 3: Under dette niveau kan enhver organisation eller privatperson oprette en COR-resurse. Det kunne for eksempel være en kommune som gerne vil kunne klassificere deres indkomne mails efter emne; det kunne også være et hospital eller et højteknologisk firma med et specialiseret fagsprog der skal understøttes med stavekontrol.

Grundresursens struktur

En indgang i grundresursen består af præfikset 'COR' efterfulgt af et 5-cifret indeksnummer der angiver det specifikke lemma.

Eks: COR.60387 - 'fugemasse'

Derefter kommer der et 3-cifret nummer som angiver bøjningen for ordet:

Eks: COR.60387.111 - 'fugemassen'

Slutteligt har et COR-indeks i grundresursen altid et 2-cifret løbenummmer som angiver variation.

Eks: COR.60387.111.01 - 'fugemassen'

Da der kun er en måde at stave 'fugemassen' på har den fået variationsnummeret '01'. Lemmaet 'byvåben' har til gengæld tre variationer i ubestemt pluralis, så her kommer variationsnummeret i brug:

COR.63364.112.01 - 'byvåben'

COR.63364.112.02 - 'byvåbener'

COR.63364.112.03 - 'byvåbner'


Registeret drives af Dansk Sprognævn som tildeler nummerindekser til nye COR-resurser. Dansk Sprognævn står også for at opdatere grundresursen således at den altid vil være i overensstemmelse med gældende retskrivning.

Om bøjningsinformationen i COR1

Hver ordform i COR1 er repræsenteret ved én linje i filen cor1.02.tsv. Tag som eksempel substantivet "hestene":

  COR.44267.113.01   hest    sb.fk.pl.best   hestene

Her er første felt ordformens COR-id, andet felt ordets grundform, tredje felt bøjningsformen og fjerde felt selve ordet (der er også et femte felt, som vi ikke omtaler her).

Ordformens bøjning fremgår to steder i linjen, dels som et trecifret indeks ("113" i COR-id'et) og dels i den form som ordbøger plejer at anvende ("sb.fk.pl.best"). Disse to oplysninger er ækvivalente, dvs. man kan entydigt aflede den ene af den anden. Indeks 113 og "sb.fk.pl.best" betegner således begge et substantiv i fælleskøn, flertal, bestemt form.

I det trecifrede indeks står første ciffer for ordklassen (1=substantiver, 2=verber, 3=adjektiver, osv.) mens de andre er til morfologiske detaljer (bøjning m.m.). Man kan finde flere oplysninger om COR1's morfologiske notation i denne fil: bix2bform_UTF8_01.tsv

NOTE: Bemærk at COR-databaserne corext1.0.tsv og corsoegehjaelp1.0.tsv bruger samme bøjningsinformation som COR1

Eksempler fra grundresursen

Herunder vises et eksempel fra COR. COR-id angiver det unikke id som identificerer det specifikke lemma 'fugemasse'. 'Lemma' indikerer opslagsordet som det står i RO. 'Bøjningsform' angiver den specifikke bøjning for denne fuldform. 'Normering' angiver om den specifikke bøjning af ordet står opgivet i Retskrivningsordbogen.

COR-id Lemma Bøjningsform Fuldform Normering
COR.60387.110.01 fugemasse sb.fk.sg.ubest. fugemasse 1
COR.60387.111.01 fugemasse sb.fk.sg.best. fugemassen 1
COR.60387.112.01 fugemasse sb.fk.pl.ubest. fugemasser 1
COR.60387.113.01 fugemasse sb.fk.pl.best. fugemasserne 1
COR.60387.114.01 fugemasse sb.fk.sg.ubest.gen. fugemasses 1
COR.60387.115.01 fugemasse sb.fk.sg.best.gen. fugemassens 1
COR.60387.116.01 fugemasse sb.fk.pl.ubest.gen fugemassers 1
COR.60387.117.01 fugemasse sb.fk.pl.best.gen. fugemassernes 1

Forklaring på forkortelser: sb: substantiv/navneord; fk: fælleskøn (i modsætning til itk: intetkøn); sg: singularis/ental; pl: pluralis/flertal; best: bestemt; ubest: ubestemt; gen: genitiv/ejefald

Derudover er der en kolonne der kan indeholde glosser (betydningsangivelser) i tilfælde af at to lemmaer staves ens og har samme ordklasse.

I ovenstående eksempel kan man se at alle COR-indekserne afsluttes med et løbenummer: 01. Løbenummeret angiver variation i bøjningen. Da der ikke er nogen variation i måden 'fugemasse' bøjes på ender alle COR-indekserne på '01'. Der er imidlertid andre lemmaer, som 'nyse' der har to godkendte former i præteritum/datid:

COR-id Lemma Bøjningsform Fuldform Normering
COR.35364.206.01 nyse vb.præt.akt. nyste 1
COR.35364.206.02 nyse vb.præt.akt. nøs 1

Her kan man se at de to godkendte former for datid kan staves på to forskellige måder. Der er altså variation i stavemåden og det indikeres med et variationsnummer: .01 for den ene variation og .02 for den anden. I grundserien er der i enkelte tilfælde op til 6 forskellige variationer af en enkelt bøjningsform.

COR-id Lemma Bøjningsform Fuldform Normering
COR.53473.112.01 coronavirus sb.fk.pl.ubest. coronavira 1
COR.53473.112.02 coronavirus sb.fk.pl.ubest. coronavirus 1
COR.53473.112.03 coronavirus sb.fk.pl.ubest. coronavirusser 1
COR.53473.112.04 coronavirus sb.fk.pl.ubest. koronavira 1
COR.53473.112.05 coronavirus sb.fk.pl.ubest. koronavirus 1
COR.53473.112.06 coronavirus sb.fk.pl.ubest. koronavirusser 1

Denne inddeling gør det muligt at skelne mellem forskellige variationer af den samme bøjning.


Grundresursen indeholder også en angivelse af normering (se sidste kolonne i ovenstående eksempler). Normeringskolonnen angiver om en given bøjningsform er nævnt i Retskrivningsordbogen og derfor er en normeret form. Mange lemmaer kan have både normerede og unormerede former. Unormerede former angives med '0' i kolonnen 'normering'.

Eks: rød

COR-id Lemma Bøjningsform Fuldform Normering
COR.15892.300.01 rød adj.sg.ubest.fk. rød 1
COR.15892.301.01 rød adj.sg.ubest.itk. rødt 1
COR.15892.302.01 rød adj.sg.best. røde 1
COR.15892.303.01 rød adj.pl. røde 1
COR.15892.304.01 rød adj.kompar. rødere 0
COR.15892.305.01 rød adj.superl.sg.ubest. rødest 0
COR.15892.306.01 rød adj.superl.sg.best. rødeste 0
COR.15892.307.01 rød adj.superl.pl. rødeste 0
COR.15892.309.01 rød adj.adv. rødt 1
COR.15892.310.01 rød adj.adv.kompar. rødere 0
COR.15892.311.01 rød adj.adv.superl. rødest 0

Her kan man se at komparerede former af 'rød' er unormerede bøjningsformer mens de andre bøjninger er normerede former af 'rød'.

Andre COR-resurser

COR.EXT er en resurse med ekstra lemmaer fra Den Danske Ordbog, udarbejdet af Det Danske Sprog- og Litteraturselskab (DSL). Den er tilgængelig nu.

COR.SOEGEHJAELP er en resurse med forskellige stavefejl. Den er også udarbejdet af DSL, og den er også tilgængelig nu.

En semantisk resurse med arbejdsnavnet COR-S lanceres i december 2023. Det er et formaliseret betydningsinventar for cirka 30.000 lemmaer, herunder de centrale lemmaer i dansk, baseret på beskrivelser i bl.a. Den Danske Ordbog og det Danske WordNet DanNet. For hver betydning angives et overbegreb og en ontologisk type samt en række andre formaliserede oplysninger. Denne resurse udarbejdes af Det Danske Sprog- og Litteraturselskab og Center for Sprogteknologi ved Københavns Universitet.

Hvordan opretter jeg min egen COR-resurse?

For at oprette sin egen COR-resurse skal man kontakte Dansk Sprognævn som forvalter uddelingen af nummerserier. Inden man opretter kontakt er det en god ide at have styr på hvilket indhold man gerne vil have i sin COR-resurse. Som minimum bør man oplyse følgende:

  1. Et navneforslag (fx Ordbog over dansk udtale i 1922).
  2. Et forslag til COR-præfiks (fx COR.UDT1922).
  3. En oversigt over hvilke oplysninger man vil angive om hvert enkelt COR-indeks (fx glosse, udtale i Dania, udtale i IPA).
  4. Antal indeksnumre man regner med at få brug for (fx 50.000).
  5. Licens.
  6. Resursens ejer.
  7. Kontaktperson.

Tag kontakt til os på cor.adm snabel-a dsn.dk – så vil vi meget gerne vejlede dig i hvordan du enten laver en COR-resurse eller bruger en COR-resurse til forskellige formål.

Appendiks

forklaring af bøjningsformernes symboler

Forkortelse Betydning
adj adjektiv
adv adverbium
akt aktiv
art artikel
best bestemt_form
fk fælleskøn
flerord flerordsforbindelse
fork forkortelse
formsubj formelt_subjekt
gen genitiv
iflerord del_af_flerordsforbindelse
imp imperativ
inf infinitiv
infmærke infinitivmærke
itk intetkøn
kardinal kardinalform
kompar komparativ
lydord lydord
nom nominal
obl oblik
ordinal ordinalform
part participium
pass passiv
perf perfektiv
pl pluralis
præfiks præfiks
pron pronomen
prop proprium
præp præposition
præs præsens
præt præteritum
sb substantiv
sg singularis
sms sammensætningsform
suffiks suffiks
superl superlativ
symbol symbol
talord talord
ubest ubestemt
udråbsord udråbsord
vb verbum