Eksport og hjemsendelse
GDPR, outputkontrol og hvad der må forlade DST
Du har bygget dit datasæt og kørt din analyse (Fase 0–14). Tilbage er det sidste skridt: at få resultaterne sikkert ud af DST.
Data fra Danmarks Statistik er mikrodata underlagt GDPR. Du kan ikke kopiere rå data ud - alt skal igennem DST’s hjemtagelsesproces, og de præcise regler står i DST’s egen vejledning.
Denne side er kun et overblik. DST’s egen vejledning har forrang - læs og genlæs den. DST - Regler for hjemtagelse af analyseresultater →
Hvad må forlade DST?
Ja:
- Aggregerede tabeller
- Grafer og figurer
- Modeloutput - koefficienter, konfidensintervaller, p-værdier
Nej:
- Individdata i nogen form
- Celler med færre end 5 observationer
- Resultater der kan identificere enkeltpersoner - direkte eller indirekte
Scripts hjemsendes også via processen - ikke frit. Kode/scripts kan hjemsendes, men går igennem samme proces som resultatfiler.
OBS: min, max, percentiler og median kan pege på én person
min, max, percentiler og median gengiver konkrete værdier fra datasættet - en minimums- eller maksimumsværdi er én persons faktiske tal. Rapportér dem kun, hvis mindst 5 personer har den pågældende værdi; ellers kan tallet pege på en enkelt person.
Er du i tvivl om en deskriptiv tabel med min, max, percentiler eller median, så tjek grænsen i DST’s vejledning eller med din datamanager, før du hjemsender den.
OBS: manglende værdier (NA) tæller også
En manglende værdi er også en celle. Har en kategori færre end 5 manglende, må tallet heller ikke hjemsendes. Løsninger: imputér, slå kategorier sammen, udelad kategorien - eller en anden løsning aftalt med din datamanager.
Lav et hurtigt overblik over manglende, så du ser de små celler med det samme i stedet for at lægge tal sammen i hovedet:
colSums(is.na(df)) # antal NA per kolonne - se straks om nogen er 1–4
table(df$kategori, useNA = "always") # viser NA som egen kategori (ellers skjules de)table() skjuler NA som standard - useNA = "always" tvinger NA-rækken frem. Se Fase 7 - table() skjuler NA.
Sådan foregår det
Selve hjemsendelsen sker via “Hjemtag Filer” i DDV-appen. Systemet scanner automatisk for mulige mikrodata og flagger risici. Bliver en fil flagget, tilføjer du en kommentar, der præcist beskriver hvad filen indeholder, og hvorfor den er aggregeret. Brug sigende filnavne (tabel1_deskriptiv_n500.csv) - ikke generiske navne som output.csv.
Den fulde trin-for-trin-proces og de gældende regler står i DST’s vejledning - følg den.
Tjekliste inden du uploader
Du er igennem hele forløbet
Når dine resultater er hjemsendt, har du været hele vejen - fra forskningsspørgsmål og kohorte til analyseklart datasæt og publikationsklare resultater.
- Skal du slå en funktion, et register eller en faldgrube op? → Funktioner: oversigt · Register-overblik · Faldgruber på DST
- Arbejder du på DARTER / projekt 708421? → DARTER - oversigt og pipeline
Generel uddybning i The Epidemiologist R Handbook (på engelsk):