Udtræk variable

Udtræk udfald og covariater - filtreret til netop din kohorte

Published

July 21, 2026

Du har bygget din kohorte (Fase 10) - en tabel med pnr og index_date per person. Nu udtrækker du de variable du skal bruge: udfald og covariater.

Sådan er arbejdsgangen: Du udtrækker de variable du skal bruge fra hvert register - saml fx alt det du skal bruge fra BEF i ét udtræk, alt fra LPR i ét, osv. - og gemmer hvert udtræk som sin egen .rds-fil. Til sidst, i Fase 12 - Saml & klargør datasættet, kobler du alle udtrækkene sammen til ét stort, færdigt analysedatasæt.

Filtrér altid til din kohorte - før collect(). Du skal kun bruge data på de personer du har bygget. Filtrér derfor hvert udtræk til din kohorte, mens det stadig er dovent (i Arrow/DuckDB), så du ikke henter hele befolkningen ind i R:

kohort <- readRDS("sti/til/full_cohort.rds")
kohort_pnrs <- unique(kohort$pnr) # vektor med ALLE pnr (eksponerede + sammenligningskohorte)

register <- open_dataset("sti/til/register/") %>%
  rename_with(tolower) %>%
  semi_join(tibble(pnr = kohort_pnrs), by = "pnr") %>% # behold kun kohortens rækker - skubbes ned i DuckDB, se Fase 5
  select(pnr, ...) %>% # vælg kun de kolonner du skal bruge
  collect() # FØRST nu hentes data ind i R

Filtrér og select() før collect() - det er den vigtigste regel for hastighed og hukommelse (se Fase 5).

Hvilke variable?

Type	Side	Kilde
Udfald (event-dato, censurering)	Udfald	LPR (diagnoser), DODSAARS (død), VNDS (emigration)
Socioøkonomi (uddannelse, indkomst, beskæftigelse)	Socioøkonomiske variable	UDDA, FAIK, AKM
Komorbiditet (multimorbiditets-score)	Komorbiditet	LPR + multimorbiditetsindeks (ICD-10)
Medicin (ATC-eksponering)	Medicin (ATC)	LMDB
Demografi (alder, køn)	dækket i Fase 6	BEF

Hver side viser samme mønster: åbn registret → filtrér til kohorten → udvælg/beregn variablen → collect() → gem som .rds. Når alle variable er trukket ud, samler du dem i Fase 12 - Saml & klargør datasættet.

Se også

Fase 10 - Byg din studiepopulation: kohorten du filtrerer til
Fase 12 - Saml & klargør datasættet: join alle udtræk til ét datasæt
Algoritmer & specialpakker: færdige værktøjer (OSDC, NMI) til at udlede variable