COR-filen er en TSV-fil (altså en tabulatorsepareret tekstfil) i UTF-8-format. Hvis Æ, Ø og Å ikke vises korrekt, skal du specificere UTF-8.
Hver linje indeholder flg. felter:
COR-id’et består af fire underfelter, adskilt af “.”:
Man kan tænke på dette som opslagsordet, men fx rummer lemmaet broder to artikler fra Retskrivningsordbogen: broder og bror. At formen broder er valgt i stedet for bror skyldes udelukkende at den kommer alfabetisk først.
Hvis lemma og ordklasse er fælles for flere COR-id’er, adskilles de af en glosse. Fx skelner vi mellem COR.72642 jødekirsebær (en frugt) og COR.73588 jødekirsebær (en plante).
Den grammatiske betegnelse er i princippet overflødig da al informationen rummes af den grammatiske kode i COR-id’et, men den er medtaget for at gøre filen lettere at læse. Fx svarer koden 208 til vb.perf.part (perfektum particium af et verbum).
Formen er selve det bøjede ord.
Det sidste felt på hver linje betegner normeringen. Den er 1 for former som er nævnt i Retskrivningsordbogen, men 0 for former som ikke er nævnt (og altså autogenererede). Formerne med 0 er gode hvis man vil identificere et ord i løbende tekst, men dem med 1 er bedre til formål hvor forkerte former ikke må dukke op.
Her er en beskrivelse af de forskellige nøgleord i diff-filen.
DEL betyder at opslagsordet er fjernet fra Retskrivningsordbogens 5. udgave. Fx er COR.99127 bededagsferie udgået.
MOV betyder at et opslagsord har fået nyt id (typisk i forbindelse med ordklasseændring). Fx er COR.04695 ingen som helst (flerord) ændret til COR.00576 ingen som helst (pron).
MRG betyder at to opslagsord er slået sammen. Fx er COR.92998 glosarium nu slået sammen med COR.92534 glosar. (Selve formen glosarium er stadigvæk tilladt, men er nu en variation af glosar.)
NEW betyder at noget er nyt. Det kan enten dreje sig om et opslagsord, fx COR.99925 GDPR-regel, eller om en form, fx COR.99112.129.01 fedesvine- (sb.itk.sms).
REP betyder at et opslagsord er blevet underordnet et andet; det drejer sig typisk om forkortelser som nu behandles under det uforkortede ord. Fx er COR.02283 kr. nu en forkortelse under COR.99957 krone. (Forskellen på MRG og REP er ikke stor i praksis.)
CHGFORM betyder at en form er ændret. Fx er sammensætningsformen af COR.75896 appropriation nu appropriations- og ikke appropriation-.
CHGGLOSS betyder at en glosse er ændret. Fx er glossen på COR.68539 camp ændret fra (dyrkelse af det smagløse el. overdrevne) til (kitsch).
CHGGRAMLAB betyder at den grammatiske forkortelse har ændret sig. Det drejer sig i alle tilfælde om at talord er ændret til talord.kard for at øge præcisionen.
CHGLEMMA betyder at lemmaet (felt 2) har ændret sig. Fx hedder COR.57664 nu papaya i stedet for papaja.
CHGNORM betyder at vi har ændret normeringsstatus på en form. Det drejer sig fx om perfektum particium i bestemt form (valgte i “den valgte mulighed”) da mange af dem virker underlige og derfor skal tjekkes for korrekthed.
CHGORDER betyder at rækkefølgen af den ortografiske variation er ændret, fx:
CHG ORDER COR.99892.122.01 cirkusser < cirkus
CHG ORDER COR.99892.122.02 cirkus < cirkusser
Dette betyder altså at de rækkefølgen af de to tilladte pluralisformer af cirkus er ændret fra cirkus – cirkusser til cirkusser – cirkus. Der er altså ingen forskel i normeringen.