Populære innlegg

torsdag 28. november 2013

Grunnleggende strukturer for data governance

I min første blogg-post på Data governance bloggen, skrev jeg at data governance treffer absolutt all informasjon som håndteres i en virksomhet. Det betyr at scopet for data governance arbeidet vil kunne bli enormt stort. Skal du ha noen som helst mulighet til å kunne jobbe med mindre områder av gangen, er du pent nødt til å gjøre en oppdeling: Du må lage en katalog eller struktur som gjør det mulig å dele opp informasjonen din i mindre "biter".

Informasjonen som finnes i en virksomhet kan grovsorteres i to "hauger" der den ene inneholder all strukturert informasjon, og den andre inneholder all ustrukturert informasjon. Bruken av ordene strukturert og ustrukturert krever en liten forklaring:

Med strukturert informasjon mener vi informasjon som er delt opp i enkeltopplysninger (som fornavn, postnummer eller personnummer) som kan lagres og oppdateres enkeltvis i et databasesystem (ofte som en del av en IT løsning med ulike skjermbilder som gir tilgang til informasjonen).

Med ustrukturert informasjon mener vi rett og slett resten: All informasjon vi måtte ha som ikke passer inn under definisjonen over. Typiske eksempler på ustrukturert informasjon er dokumenter av ulike slag, mail, lyd- og videofiler, inter- eller intranettsider (med tekst), kildekode, bilder og grafikk.

Prioritering og nedscoping er ikke den eneste årsaken til at det er nødvendig med en datakatalog for å jobbe med data governance. Datakatalogen er forankringspunktet for alle datarelaterte regler. Uten  en slik katalog har vi rett og slett ikke noe å knytte reglene til.  Dette er en veldig viktig observasjon:  Dersom data skal behandles ulikt på en eller annen måte (ha ulike regler), må disse dataene splittes i katalogen.

Det samme gjelder dersom vi ønsker å fordele ansvar for og eierskap til ulike data. Uten en datakatalog og en oppdeling som alle kan forholde seg til, blir det umulig å fordele ansvar og eierskap for ulike data på en entydig måte.
Hva er så den beste måten å lage en datakatalog på? Det finnes dessverre ikke noe entydig svar på det spørsmålet. Det er svært mange måter å dele opp all informasjon i en virksomhet på, og de fleste av disse har fordeler og ulemper. Det viktigste er at du til slutt ender opp med en (eller flere)  kataloger eller strukturer som alle må forholde seg til.
Uansett hvordan du angriper oppgaven med å lage datakataloger, er stor sannsynlighet for at du vil ende opp med en av følgende 3 varianter:


1 To helt separate strukturer (kataloger):
En for strukturert og en for ustrukturert informasjon


2 En felles struktur (katalog), men med et klart skille
mellom den strukturerte og den ustrukturerte informasjon


3 En felles struktur (katalog) der strukturert og ustrukturert
informasjon er plassert om hverandre i strukturen


Hvilken hovedvariant er så den beste? Jeg vil hevde at det er fordeler og ulemper med alle tre. 
Den første modellen er den enkleste.  Her er det to kataloger: Den ene handler utelukkende om strukturerte data, mens den andre katalogen favner alle andre informasjonsobjekter (dokumenter, bilder, mail osv).

I den andre modellen har man fortsatt alt i en felles katalog, men man har også her skilt den ustrukturerte informasjonen fra den strukturerte på ett eller annet nivå i strukturen.
Med den siste modellen krever man at dokumenter og annen ustrukturert informasjon modelleres inn side om side med den strukturerte informasjonen der den hører til logisk. Dette kan være en temmelig utfordrende oppgave (noe du raskt vil oppdage dersom du forsøker...).

Min anbefaling går i retning av å etablere to data kataloger. Dette gjør det mulig å fokusere bare på strukturerte (eller ustrukturerte) data i en periode, og hver av katalogene blir enklere å utforme. I neste blogg-post vil jeg komme med konkrete eksempler på hvordan man kan etablere en datakatalog som omfatter strukturert informasjon!
Petter

Ingen kommentarer:

Legg inn en kommentar