COR.SEM, felter i resursen

Position Navn Beskrivelse Eksempel Formel beskrivelse Kommentar Forekomster
Hoved
Ens for alle opslagsordets betydninger
1 COR.SEM-id ID i COR.SEM COR.SEM.82257.01
COR.SEM.1000017.01
Består af tre elementer adskilt af punktum:
1. Præfikset COR.SEM = resursens navn
2. Et tal med fem eller syv cifre = ID for lemmaet(opslagsordet)
3. Et tocifret tal = betydningens nummer
Lemma-ID'et har 5 cifre hvis der er fuld overensstemmelse med et lemma i basisresursen COR. I øvrige tilfælde har ID'et 7 cifre, altid med 1 som første ciffer. De 7-cifrede ID'er bruges hvis opslagsordet ikke findes i COR, eller hvis der ikke er 1:1 overensstemmelse mellem DDO og COR (fx hvis et COR-lemma svarer til to DDO-lemmaer el. omvendt). 1
2 COR-basis-id ID i COR COR.82257 Et eller flere COR-ID'er inkl. præfikset COR. Hvis der er flere id'er, adskilles de af | (lodret streg) Feltet er tomt hvis opslagsordet (eller en bøjet form deraf) ikke findes i COR. 0, 1 el. flere
3 COR.EXT-id ID i COR.EXT COR.EXT.134713 Nul elller et COR.EXT-ID inkl. præfikset COR.EXT Feltet er tomt hvis opslagsordet ikke findes i COR.EXT. 0 el. 1
4 DDO-forskel Forskelle i opslagsform og/eller ordklasse mellem DDO og COR. xpos:02495
xform:48125+45830
xform:21088|xpos:21088
Nul, en eller to grupper af:
Et præfiks(xform eller xpos) efterfulgt af kolon samt et eller flere 5-cifrede COR-ID'er (uden præfiks).
Flere COR'ID'er adskilles af + (plus).
Hvis begge præfikser er anført, adskilles grupperne af | (lodret streg).
De to præfikser betegner flg. forskelle mellem COR og DDO:
xform = forskel i køn, bøjning eller opslagsform
xpos = forskel i ordklasse.
På basis af oplysninger i DDO_forskel (og evt. feltet DDO_ordklasseskift, se herunder) vil opslagsord der er kategoriseret forskelligt i COR og DDO, kunne behandles særskilt eller filtreres bort efter behov.
Selvom ordene er kategoriseret forskelligt i COR og DDO, indeholder COR.SEM relevant semantisk information.
0, 1 el. flere
5 DDO-entryid Opslagsordets artikel-ID i DDO 11023722 Et 8-cifret tal = EntryID i DDO Dette ID kan anvendes hvis der arbejdes med andre resurser hvor DDO's EntryID optræder. 1
6 DDO-opslagsord Opslagsord i DDO køreskole En tekststreng = opslagsordet Udgøres af et enkeltord, bortset fra særlige flerordslemmaer som fx enfant terrible.
For ord med flere officielle staveformer (såkaldte dobbeltformer) anføres kun en form her; de øvrige former kan (ligesom ordets bøjningsformer) hentes via linket til COR (el. COR.EXT).
1
7 DDO-ordklasse Ordklasse i DDO sb. En tekststreng svarende til ordklasseangivelsen for opslagsordet i DDO Læs mere om DDO's ordklasseangivelser: https://ordnet.dk/ddo/artiklernes-opbygning/ordklasser 1
8 DDO-køn Grammatisk køn (genus) i DDO fk.
itk.bf.
En tekststreng svarende til angivelsen af køn for substantiver i DDO.
Hvis et substantiv forekommer i begge køn, adskilles disse af | (lodret streg), fx: itk.|fk.
Feltet er kun udfyldt for substantiver.
Et efterstillet "bf." angiver at bestemt form er valgt som ordets opslagsform.
0, 1 el. 2
Krop
Semantiske oplysninger vedr. den konkrete betydning
9 betydningsnummer Betydningsnummer i COR.SEM 3 Et tal Fortløbende nummerering af betydningerne i COR.SEM. Svarer til de to sidste cifre i COR.SEM-ID'et. 1
10 DDO-ordklasseskift Oplysning om at en betydningsbeskrivelse i DDO vedrører brug af opslagsordet (eller en bøjningsform deraf) som en anden ordklasse end ordets formelle ordklasse. som sb.
også som adv.
En tekststreng svarende til oplysningen i DDO Feltet er tomt for langt de fleste betydninger i COR.SEM.
Et eksempel på brug er adjektivet polsk der udover den adjektiviske betydning 1 også har den substantiviske betydning 2 'sprog der tales i Polen'.
Hvis en COR.SEM-betydning er sammenlagt af flere DDO-betydninger hvoraf en har tilknyttet en oplysning om ordklasseskift, tilføjes et også foran oplysningen.
0 el. 1
11 overbegreb-tekst Et eller flere ord der betegner et overbegreb for den aktuelle betydning mængde|kvantitet
middel;medicin|lægemiddel
Et eller flere ord. Flere ord adskilles af |.
Hvis der optræder flere betydningsgrupper af ord, adskilles disse af ;(semikolon)
Et eller flere ord der betegner et overbegreb for den aktuelle betydning, adskilt af en lodret streg (|). I nogle tilfælde er der beskrevet ikke kun én, men to typer overbegreber, idet betydningen anskues fra to vinkler. Fx har jordnød både snack og bælgplante som overbegreb. I disse tilfælde er de to typer adskilt af et semikolon(;).
Der er fire overordnede overbegreber i toppen af begrebshierarkiet (ontologien) som er angivet med særlige labels:
TOP: samlebegreb for både konkrete betydninger (personer, genstande mv.), abstrakte betydninger (fx tanker og følelser) samt handlinger, hændelser, tilstande mv. der finder sted i tid og rum
1stOrder: samlebegreb for konkrete betydninger, fx genstande, objekter, stof og væske
2ndOrder: samlebegreb for handlinger, hændelser, tilstande og andet der finder sted i tid og rum
abstract_entity: samlebegreb for abstrakte fænomener, dvs. begreber der ikke er konkrete og heller ikke finder sted i tid og rum
Se også feltet "overbegreb_DanNet" herunder.
1 el. flere
12 overbegreb-DanNet ID for en eller flere betydninger der fungerer som overbegreb for den aktuelle betydning i det danske WordNet, DanNet. synset-46618 Et eller flere ID'er fra DanNet, inkl. præfikset "synset-". Flere ID'er adskilles af |. Synset er en forkortelse for "synonym set" og bruges om en gruppe af (nær)synonymer der i semantiske net som DanNet er samlet i én betydningsknude. Fx er én betydning af ordene person,hoved,mk'er,individ,mand, menneske samlet i ét synset, som bruges som overbegreb-DanNet til mange betegnelser for personer i COR.SEM (forenklet i oplysningen "overbegreb_tekst": person).
Læs mere om DanNet her: https://wordnet.dk/dannet/page/about
Ved hjælp af oplysningen om synset-ID'erne fra DanNet kan man udnytte data fra denne resurse.
1 el. 2
13 relaterede-ord Ord der er semantisk relateret til den aktuelle betydning, fx synonymer og nærsynonymer. bebyggelsesform|enderækkehus|klyngehus|rækkehus Liste af ord, separeret af | Ordene er udtrukket automatisk fra Den Danske Begrebsordbog og eventuelt efterredigeret. 0, 1 el. flere
14 synonym Synonymer tilknyttet den aktuelle betydning i DDO eller i DanNet. rus|brandert Liste af ord, separeret af |. Synonymer udtrukket fra DDO og DanNet (ord fra samme SynSet). Bemærk at der blandt disse ord kan forekomme ord der i DDO er markeret fx "uformelt" el. "nedsættende". 0, 1 el. flere
15 ontologisk-type Angivelser af ontologisk type for den aktuelle betydning. Vehicle+Object+Artifact|Abstract+Social+Institution Tekststrenge, separeret af | Den ontologiske type angiver en placering i COR-ontologien. Den udgør en forenklet udgave af DanNet's ontologi, som beskrives her: https://wordnet.dk/dannet/page/about. Der er 147 forskellige ontologiske typer i COR.SEM, og dele af typenavnet er altid beskrivende for typen. Fx betegner Human personer, Act handlinger, Event hændelser, Cause forårsagelse, Static tilstande, Abstract abstrakte forhold, Property egenskaber, Artifact menneskeskabte genstande, LanguageRepresentation sprog, bøger mv. og Comestible mad. Der er også 6 typer der angiver adverbiers overordnede betydning ADV_Place,ADV_Direction,ADV_Time,ADV_Sentence,ADV_Degree,ADV_Manner
Der er mindst én og højst to ontologiske typer tilknyttet hver betydning i COR.SEM.
En oversigt over typerne findes her: oversigt_ontologisk_type En grafisk fremstilling af hierarkiet findes graf_ontologisk_type (PDF)
1 el. 2
16 emne Emnemarkering fra DDO spo Tekststrenge, separeret af | Emnerne følger DDO's interne redaktionelle markeringer. Nogle emneområder kan være overlappende, fx "mad" og "gastronomi". I sådanne tilfælde bør man inddrage alle relevante markører ved søgning, filtrering osv. En liste over feltets inventar af emner findes her: oversigt_emne 0, 1 el. flere
17 systematisk-polysemi Mønster for systematisk polysemi. PROCESS / RESULT (CONCRETE) Nul, en eller flere tekststrenge, adskilt af |.
Hver streng repræsenterer et polysemimønster og består af to led adskilt af " / ".
De systematiske polysemimønstre er etableret særskilt til COR.SEM. De afspejler en systematisk sammenhæng mellem to betydninger af samme opslagsord, en sammenhæng der gør igen på tværs af hele ordforrådet. Fx kan ordene træ, silke og hør alle betyde både 'plante' og 'materiale', og de har derfor alle tre fået tildelt systematisk polysemi-mønstret "PLANT / MATERIAL" i COR.SEM.
Der er anvendt 28 forskellige mønstre. En liste inklusive eksempler findes her:
oversigt_systematisk_polysemi
0, 1 el. 2
18 DanNet-link Link til den eller de begrebsknuder (synsets) i DanNet der består af den aktuelle betydning. synset-19375 Synset-id fra DanNet. Flere ID'er adskilles af | Ved hjælp af synset-ID'et kan der findes yderligere information om betydningen i resursen DanNet samt i andre resurser der er linket til DanNet. Se beskrivelsen af DanNet: https://wordnet.dk/dannet/page/about. Ikke alle betydninger i COR.SEM er med i DanNet, men langt de fleste COR.SEM-ord har mindst én betydning der er med. 0, 1 el. flere
19 frame Semantisk frame for den aktuelle betydning Processing_materials|Removing Tekststrenge, separeret af | FrameNet bygger på Berkeley FrameNet, der er en international standard (se https://framenet.icsi.berkeley.edu/). FrameNet beskriver betydningen af især verber og verbalsubstantiver ved at tilskrive dem en semantisk ramme (frame) der angiver typen af handlingen/hændelsen.
I COR.SEM er der anvendt 641 forskellige frame-værdier til at beskrive leksikalsk betydningsindhold på ordniveau. Nogle er anvendt ved mere end 400 ord, mens andre kun er anvendt ved et enkelt ord. Det er ikke sikkert at de engelske roller der beskrives for hver ramme på siden https://framenet.icsi.berkeley.edu/, kan overføres direkte til dansk, men i de fleste tilfælde vil der være overensstemmelse.
I COR.SEM har verbet anmelde fx 3 frames: 1) "Reporting" for betydningen 'at give en (officiel) besked eller melde en lovovertrædelse', 2) "Judgment_communication" og "Judgment" for betydningen 'at udarbejde (og offentliggøre) en kritisk vurdering af et kulturprodukt'.
Oplysningerne om frame i COR.SEM er baseret på Det Danske FrameNet-leksikon, læs mere her: https://korpus.dsl.dk/resources/details/framenet.html. Oplysningerne er trukket automatisk ind herfra, valideret og i nogle tilfælde suppleret i COR.SEM.
Inventaret med automatisk udtrukne eksempler fra COR.SEM kan ses her: oversigt_frames
0, 1 el. flere
20 sentiment Angivelse af om den aktuelle betydning typisk forbindes med noget positivt eller noget negativt. -2 Et tal. Sentiment er en angivelse af en betydnings iboende polaritet, altså hvorvidt betydningen er positivt eller negativt ladet. Graden af betydningens polaritet udtrykkes med en skala spændende fra -3 "meget negativt", til 3 "meget positivt". Fx får ufejlbarlig 3, grusom -3, arrogant -2 og garanti 1. Når feltet er udfyldt, rummer det altid en af flg. værdier: "-3", "-2", "-1", "1", "2", "3". Betydninger uden værdi er enten neutrale eller ord/betydninger der ikke er behandlet mht. polaritet i COR.SEM. Oplysninger om lemmaets samlede polaritet (med værdier op til -5 og 5) kan findes i Det Danske Sentimentleksikon: https://github.com/dsldk/danish-sentiment-lexicon 0 el. 1
21 restriktion Angivelse af om det i DDO er anført at der gælder særlige begrænsninger for opslagsordet i den aktuelle betydning. sprogbrug Nul, en eller to tekststrenge, adskilt af |. Når feltet er udfyldt, rummer det altid en af flg. tre værdier: "frekvens", "sprogbrug", "frekvens|sprogbrug".
Frekvens angiver at betydningen er sjælden eller gammeldags.
Sprogbrug angiver at betydningen i DDO er markeret som fx nedsættende eller uformel. Mere detaljerede oplysninger kan findes ved opslag i DDO
https://ordnet.dk/ddo
0, 1 el. 2
22 centralitet Angivelse af om ordet er udpeget som centralt i WordNet og/eller i Den Danske Begrebsordbog (DDB). 1 Et tal Når feltet er udfyldt, rummer det altid en af flg. værdier: "0", "1", "2", "3".
3 = ordet/betydningen er central i både DanNet og Den Danske Begrebsordbog
2 = ordet/betydningen er central begreb i DanNet, men ikke i Den Danske Begrebsordbog
1 = ordet/betydningen er central i Den Danske Begrebsordbog
0 = ordet/betydningen er hverken central i DanNet eller Den Danske Begrebsordbog
De centrale ord i DanNet er koblet til Princeton WordNet (PWN), nærmere bestemt til PWN's "Core WordNet": https://wordnetcode.princeton.edu/standoff-files/core-wordnet.txt
De centrale ord i Den Danske Begrebsordbog svarer til ordbogens nøgleord, dvs. ord der fungerer som overskrift for andre ord.
1
23 kurateret Angivelse af om opslagsordet er manuelt eller automatisk behandlet i COR.SEM manuel En tekststreng Feltet rummer altid en af flg. værdier: "manuel", "automatisk".
Manuel: Ordets grundlæggende oplysninger er manuelt behandlet og suppleret med oplysninger der er automatisk indsat fra andre ordbogsressourcer (og evt. valideret manuelt).
Automatisk: Ordet er beskrevet vha. fuldautomatiske metoder.
I første version af COR.SEM (2024) er alle ord manuelt behandlet.
1
24 DDO-betydninger Antal betydninger i DDO-artiklen (ekskl. faste udtryk). 3 et tal Dette tal afspejler om ordet i DDO er entydigt ("1") eller flertydigt ("2" og derover). Jo højere tal, jo flere betydninger har ordet i DDO. Dette tal kan bruges til at afgøre om der er tale om et ord med en simpel eller en kompleks betydningsstruktur.
Tallet er højere end antallet af betydninger i COR.SEM hvis betydninger fra DDO er lagt sammen i COR.SEM eller helt udeladt.
Se alle DDO-betydningerne ved opslag i DDO: https://ordnet.dk/ddo
1
25 DDO-faste-udtryk Antal betydninger under faste udtryk i DDO-artiklen 0 et tal COR.SEM beskriver ikke faste udtryks betydninger. Hvis tallet i dette felt er "1" eller højere, er der derfor betydninger af ordet i DDO som ikke er med i COR.SEM.
Nogle ord optræder næsten kun i faste udtryk. I DDO udgår de faste udtryk for sådanne ord den væsentlige del af den samlede ordbeskrivelse. For ord med et lavt antal betydninger i COR.SEM, kan det derfor være nyttigt at vide om dette ord indgår i faste udtryk, hvilket fremgår af tallet i dette felt.
De faste udtryk kan findes ved opslag i DDO: https://ordnet.dk/ddo
1