Informasjonen som finnes i en virksomhet kan grovsorteres i to "hauger" der den ene inneholder all strukturert informasjon, og den andre inneholder all ustrukturert informasjon. Bruken av ordene strukturert og ustrukturert krever en liten forklaring:


Prioritering og nedscoping er ikke den eneste årsaken til at
det er nødvendig med en datakatalog for å jobbe med data governance.
Datakatalogen er forankringspunktet for alle datarelaterte regler. Uten en slik katalog
har vi rett og slett ikke noe å knytte reglene til. Dette er en veldig
viktig observasjon: Dersom data skal
behandles ulikt på en eller annen måte (ha ulike regler), må disse dataene
splittes i katalogen.
Det samme gjelder dersom vi ønsker å fordele ansvar for og eierskap til ulike data. Uten en datakatalog og en oppdeling som alle kan forholde seg til, blir det umulig å fordele ansvar og eierskap for ulike data på en entydig måte.
Det samme gjelder dersom vi ønsker å fordele ansvar for og eierskap til ulike data. Uten en datakatalog og en oppdeling som alle kan forholde seg til, blir det umulig å fordele ansvar og eierskap for ulike data på en entydig måte.
Hva er så den beste måten å lage en datakatalog på? Det
finnes dessverre ikke noe entydig svar på det spørsmålet. Det er svært mange måter å
dele opp all informasjon i en virksomhet på, og de fleste av
disse har fordeler og ulemper. Det viktigste er at du til slutt ender opp
med en (eller flere) kataloger eller strukturer som alle må forholde seg til.
Uansett hvordan du angriper oppgaven med å lage
datakataloger, er stor sannsynlighet for at du vil ende opp med en av følgende
3 varianter:
Hvilken hovedvariant er så den beste? Jeg vil hevde at det er fordeler og ulemper med alle tre.
Den første modellen er den enkleste. Her er det to kataloger: Den ene handler
utelukkende om strukturerte data, mens den andre katalogen
favner alle andre informasjonsobjekter (dokumenter, bilder, mail osv).
![]() |
1 To helt separate strukturer (kataloger): En for strukturert og en for ustrukturert informasjon |
![]() |
2 En felles struktur (katalog), men med et klart skille mellom den strukturerte og den ustrukturerte informasjon |
![]() |
3 En felles struktur (katalog) der strukturert og ustrukturert informasjon er plassert om hverandre i strukturen |
Hvilken hovedvariant er så den beste? Jeg vil hevde at det er fordeler og ulemper med alle tre.
I den andre modellen har man fortsatt alt i en felles
katalog, men man har også her skilt den ustrukturerte informasjonen fra den
strukturerte på ett eller annet nivå i strukturen.
Med den siste modellen krever man at dokumenter og annen
ustrukturert informasjon modelleres inn side om side med den strukturerte
informasjonen der den hører til logisk. Dette kan være en temmelig utfordrende oppgave (noe du raskt vil oppdage dersom du forsøker...).
Min anbefaling går i retning av å etablere to data
kataloger. Dette gjør det mulig å fokusere bare på strukturerte (eller ustrukturerte)
data i en periode, og hver av katalogene blir enklere å utforme. I neste blogg-post
vil jeg komme med konkrete eksempler på hvordan man kan etablere en datakatalog
som omfatter strukturert informasjon!
Petter
Ingen kommentarer:
Legg inn en kommentar