Bronzedata

Nedenstående specifikation beskriver den anvendte udmøntning af begrebet bronzedata fra medaljondataarkitekturen i praksis. Den valgte brug af bronzedata stiller dette til rådighed både i originalt format, men også i et eller flere vedtagne standardformater som parquet af hensyn til ensartet og let brug heraf. Specifikationen understøtter fuldautomatisk behandling af bronzedata baseret på konfiguration og uden behov for udvikling af eksempelvis transformationer.

Bronzedatastandard

Aspect

Beskrivelse

Specifikationer

Lagring

Lagring af bronzedata foretages i tre adskilte zoner der hver især optimeres til den funktionalitet zonen håndterer:

  • Drop zone (aka landing/lobby/arrival) hvortil data hentes eller leveres ved brug af forskellige endpoints såsom SMB og SFPT. Data opbevares typisk 24-72 timer her hvorefter det flyttes til bronzezonen.
  • Bronze zone hvori data akkumuleres på dagsniveau indtil det ikke længere skal være tilgængeligt til analytisk brug. Data opbevares typisk op til 2-5 år her hvorefter det anonymiseres jævnfør gældende regler eller flyttes til arkivzonen.
  • Arkiv zone hvor data er offline og ikke længere tilgængeligt til analytisk brug, men opbevares af hensyn til sporbarhed og dokumentation indtil det slettes jf. sletteregler. Data opbevares typisk op til 10 år her og slettes efter gældende regler.

Azure ADLS2 implementation:

  • Storage accounts
    • <company>fdap<environment>dropst001
    • <company>fdap<environment>bronzest002 
    • <company>fdap<environment>archivest003   .
  • Containerstruktur
    En container (filsystemer) pr. datakilde.
  • Folderstruktur
    <container>/data/<namespace>#<object>#<version>/yyyy/mm/dd/hh/<namespace>#<object>@<_ExecutionTimestamp_>.parquet

Metadata

Ved ankomst i indlæsningslaget påføres metadata for at sikre sporbarhed i forhold til ejerskab og oprindelse. Metadata påføres dels i form at nye kolonner på rækkebaserede data og dels som metadata på modtagne og genererede filer:

  • Metadata der påføres på objekter
    • Company Navn på virksomheden der ejer data.
    • ExecutionId UUID der udgør en unik identifikation af en dataindlæsningskørsel (også kaldet et batch id).
    • ExecutionTimestamp UTC tidspunkt der udgør starttidspunktet for en dataindlæsningskørsel (også kaldet batchtidspunkt)​.
    • Source Navn på datakilde jf. konfigurationssystemet.
    • Namespace Navn på objektets placering i datakilden jf. konfigurationssystemet.
    • Object Navn på objektet jf. konfigurationssystemet.
  • Metadata der påføres på rækker
    • _ExecutionId_ UUID der udgør en unik identifikation af en dataindlæsningskørsel (også kaldet et batch id).
    • _ExecutionTimestamp_ UTC tidspunkt der udgør starttidspunktet for en dataindlæsningskørsel (også kaldet batchtidspunkt)​.
    • _RowId_  UUID reserveret til unikt rækkeid.

ADF implementation:

  • Objektbaserede metadata på filer/blobs
    • Company Global parameter
    • ExecutionId Orchestrator pipeline runid.
    • ExecutionTimestamp Orchestrator pipeline trigger time.
    • Source Extractor pipeline parameter.
    • Namespace Extractor pipeline parameter.
    • Object Extractor pipeline parameter.
  • Rækkebaserede metadata
    • _ExecutionId_ Orchestrator pipeline runid.
    • _ExecutionTimestamp_ Orchestrator pipeline trigger time.
    • _RowId_ Ikke benyttet endnu pga teknologisk begrænsning.

Sikkerhed

  • Brugere
    • Brugere har ingen adgang til zonerne i indlæsningslaget.
  • Services
    • Modelleringslaget har læseadgang til zonerne i indlæsningslaget
    • Udstillingslaget ikke har adgang til zonerne i indlæsningslaget.
  • Udviklere
    • Data Engineers har læseadgang til data i zonerne i indlæsningslaget.
    • Platform Engineers har redigeringsadgang til strukturerne i zonerne i indlæsningslaget, men ikke adgang til data i indlæsningslaget.

Aspect

Lagring

Beskrivelse

Lagring af bronzedata foretages i tre adskilte zoner der hver især optimeres til den funktionalitet zonen håndterer:

  • Drop zone (aka landing/lobby/arrival) hvortil data hentes eller leveres ved brug af forskellige endpoints såsom SMB og SFPT. Data opbevares typisk 24-72 timer her hvorefter det flyttes til bronzezonen.
  • Bronze zone hvori data akkumuleres på dagsniveau indtil det ikke længere skal være tilgængeligt til analytisk brug. Data opbevares typisk op til 2-5 år her hvorefter det anonymiseres jævnfør gældende regler eller flyttes til arkivzonen.
  • Arkiv zone hvor data er offline og ikke længere tilgængeligt til analytisk brug, men opbevares af hensyn til sporbarhed og dokumentation indtil det slettes jf. sletteregler. Data opbevares typisk op til 10 år her og slettes efter gældende regler.

Specifikationer

Azure ADLS2 implementation:

  • Storage accounts
    • <company>fdap<environment>dropst001
    • <company>fdap<environment>bronzest002 
    • <company>fdap<environment>archivest003   .
  • Containerstruktur
    En container (filsystemer) pr. datakilde.
  • Folderstruktur
    <container>/data/<namespace>#<object>#<version>/yyyy/mm/dd/hh/<namespace>#<object>@<_ExecutionTimestamp_>.parquet

Aspect

Metadata

Beskrivelse

Ved ankomst i indlæsningslaget påføres metadata for at sikre sporbarhed i forhold til ejerskab og oprindelse. Metadata påføres dels i form at nye kolonner på rækkebaserede data og dels som metadata på modtagne og genererede filer:

  • Metadata der påføres på objekter
    • Company Navn på virksomheden der ejer data.
    • ExecutionId UUID der udgør en unik identifikation af en dataindlæsningskørsel (også kaldet et batch id).
    • ExecutionTimestamp UTC tidspunkt der udgør starttidspunktet for en dataindlæsningskørsel (også kaldet batchtidspunkt)​.
    • Source Navn på datakilde jf. konfigurationssystemet.
    • Namespace Navn på objektets placering i datakilden jf. konfigurationssystemet.
    • Object Navn på objektet jf. konfigurationssystemet.
  • Metadata der påføres på rækker
    • _ExecutionId_ UUID der udgør en unik identifikation af en dataindlæsningskørsel (også kaldet et batch id).
    • _ExecutionTimestamp_ UTC tidspunkt der udgør starttidspunktet for en dataindlæsningskørsel (også kaldet batchtidspunkt)​.
    • _RowId_  UUID reserveret til unikt rækkeid.

Specifikationer

ADF implementation:

  • Objektbaserede metadata på filer/blobs
    • Company Global parameter
    • ExecutionId Orchestrator pipeline runid.
    • ExecutionTimestamp Orchestrator pipeline trigger time.
    • Source Extractor pipeline parameter.
    • Namespace Extractor pipeline parameter.
    • Object Extractor pipeline parameter.
  • Rækkebaserede metadata
    • _ExecutionId_ Orchestrator pipeline runid.
    • _ExecutionTimestamp_ Orchestrator pipeline trigger time.
    • _RowId_ Ikke benyttet endnu pga teknologisk begrænsning.

Aspect

Sikkerhed

Beskrivelse

  • Brugere
    • Brugere har ingen adgang til zonerne i indlæsningslaget.
  • Services
    • Modelleringslaget har læseadgang til zonerne i indlæsningslaget
    • Udstillingslaget ikke har adgang til zonerne i indlæsningslaget.
  • Udviklere
    • Data Engineers har læseadgang til data i zonerne i indlæsningslaget.
    • Platform Engineers har redigeringsadgang til strukturerne i zonerne i indlæsningslaget, men ikke adgang til data i indlæsningslaget.

Specifikationer