Om COR svarende til Retskrivningsordbogens 5. udgave fra 2024

COR-filen

COR-filen er en TSV-fil (altså en tabulatorsepareret tekstfil) i UTF-8-format. Hvis Æ, Ø og Å ikke vises korrekt, skal du specificere UTF-8.

Hver linje indeholder flg. felter:

COR-id

COR-id’et består af fire underfelter, adskilt af “.”:

  1. Navnet på resursen, her “COR”.
  2. Løbenummeret (mellem 00001 og 99999).
  3. Grammatisk kode (tre cifre).
  4. Variationsnummer (to cifre).

Lemma

Man kan tænke på dette som opslagsordet, men fx rummer lemmaet broder to artikler fra Retskrivningsordbogen: broder og bror. At formen broder er valgt i stedet for bror skyldes udelukkende at den kommer alfabetisk først.

Glosse

Hvis lemma og ordklasse er fælles for flere COR-id’er, adskilles de af en glosse. Fx skelner vi mellem COR.72642 jødekirsebær (en frugt) og COR.73588 jødekirsebær (en plante).

Grammatisk betegnelse

Den grammatiske betegnelse er i princippet overflødig da al informationen rummes af den grammatiske kode i COR-id’et, men den er medtaget for at gøre filen lettere at læse. Fx svarer koden 208 til vb.perf.part (perfektum particium af et verbum).

Form

Formen er selve det bøjede ord.

Normering

Det sidste felt på hver linje betegner normeringen. Den er 1 for former som er nævnt i Retskrivningsordbogen, men 0 for former som ikke er nævnt (og altså autogenererede). Formerne med 0 er gode hvis man vil identificere et ord i løbende tekst, men dem med 1 er bedre til formål hvor forkerte former ikke må dukke op.

Diff-filen

Her er en beskrivelse af de forskellige nøgleord i diff-filen.

DEL

DEL betyder at opslagsordet er fjernet fra Retskrivningsordbogens 5. udgave. Fx er COR.99127 bededagsferie udgået.

MOV

MOV betyder at et opslagsord har fået nyt id (typisk i forbindelse med ordklasseændring). Fx er COR.04695 ingen som helst (flerord) ændret til COR.00576 ingen som helst (pron).

MRG

MRG betyder at to opslagsord er slået sammen. Fx er COR.92998 glosarium nu slået sammen med COR.92534 glosar. (Selve formen glosarium er stadigvæk tilladt, men er nu en variation af glosar.)

NEW

NEW betyder at noget er nyt. Det kan enten dreje sig om et opslagsord, fx COR.99925 GDPR-regel, eller om en form, fx COR.99112.129.01 fedesvine- (sb.itk.sms).

REP

REP betyder at et opslagsord er blevet underordnet et andet; det drejer sig typisk om forkortelser som nu behandles under det uforkortede ord. Fx er COR.02283 kr. nu en forkortelse under COR.99957 krone. (Forskellen på MRG og REP er ikke stor i praksis.)

CHGFORM

CHGFORM betyder at en form er ændret. Fx er sammensætningsformen af COR.75896 appropriation nu appropriations- og ikke appropriation-.

CHGGLOSS

CHGGLOSS betyder at en glosse er ændret. Fx er glossen på COR.68539 camp ændret fra (dyrkelse af det smagløse el. overdrevne) til (kitsch).

CHGGRAMLAB

CHGGRAMLAB betyder at den grammatiske forkortelse har ændret sig. Det drejer sig i alle tilfælde om at talord er ændret til talord.kard for at øge præcisionen.

CHGLEMMA

CHGLEMMA betyder at lemmaet (felt 2) har ændret sig. Fx hedder COR.57664 nu papaya i stedet for papaja.

CHGNORM

CHGNORM betyder at vi har ændret normeringsstatus på en form. Det drejer sig fx om perfektum particium i bestemt form (valgte i “den valgte mulighed”) da mange af dem virker underlige og derfor skal tjekkes for korrekthed.

CHGORDER

CHGORDER betyder at rækkefølgen af den ortografiske variation er ændret, fx:

CHG ORDER COR.99892.122.01 cirkusser < cirkus
CHG ORDER COR.99892.122.02 cirkus < cirkusser

Dette betyder altså at de rækkefølgen af de to tilladte pluralisformer af cirkus er ændret fra cirkuscirkusser til cirkussercirkus. Der er altså ingen forskel i normeringen.