Populære innlegg

torsdag 28. november 2013

Grunnleggende strukturer for data governance

I min første blogg-post på Data governance bloggen, skrev jeg at data governance treffer absolutt all informasjon som håndteres i en virksomhet. Det betyr at scopet for data governance arbeidet vil kunne bli enormt stort. Skal du ha noen som helst mulighet til å kunne jobbe med mindre områder av gangen, er du pent nødt til å gjøre en oppdeling: Du må lage en katalog eller struktur som gjør det mulig å dele opp informasjonen din i mindre "biter".

Informasjonen som finnes i en virksomhet kan grovsorteres i to "hauger" der den ene inneholder all strukturert informasjon, og den andre inneholder all ustrukturert informasjon. Bruken av ordene strukturert og ustrukturert krever en liten forklaring:

Med strukturert informasjon mener vi informasjon som er delt opp i enkeltopplysninger (som fornavn, postnummer eller personnummer) som kan lagres og oppdateres enkeltvis i et databasesystem (ofte som en del av en IT løsning med ulike skjermbilder som gir tilgang til informasjonen).

Med ustrukturert informasjon mener vi rett og slett resten: All informasjon vi måtte ha som ikke passer inn under definisjonen over. Typiske eksempler på ustrukturert informasjon er dokumenter av ulike slag, mail, lyd- og videofiler, inter- eller intranettsider (med tekst), kildekode, bilder og grafikk.

Prioritering og nedscoping er ikke den eneste årsaken til at det er nødvendig med en datakatalog for å jobbe med data governance. Datakatalogen er forankringspunktet for alle datarelaterte regler. Uten  en slik katalog har vi rett og slett ikke noe å knytte reglene til.  Dette er en veldig viktig observasjon:  Dersom data skal behandles ulikt på en eller annen måte (ha ulike regler), må disse dataene splittes i katalogen.

Det samme gjelder dersom vi ønsker å fordele ansvar for og eierskap til ulike data. Uten en datakatalog og en oppdeling som alle kan forholde seg til, blir det umulig å fordele ansvar og eierskap for ulike data på en entydig måte.
Hva er så den beste måten å lage en datakatalog på? Det finnes dessverre ikke noe entydig svar på det spørsmålet. Det er svært mange måter å dele opp all informasjon i en virksomhet på, og de fleste av disse har fordeler og ulemper. Det viktigste er at du til slutt ender opp med en (eller flere)  kataloger eller strukturer som alle må forholde seg til.
Uansett hvordan du angriper oppgaven med å lage datakataloger, er stor sannsynlighet for at du vil ende opp med en av følgende 3 varianter:


1 To helt separate strukturer (kataloger):
En for strukturert og en for ustrukturert informasjon


2 En felles struktur (katalog), men med et klart skille
mellom den strukturerte og den ustrukturerte informasjon


3 En felles struktur (katalog) der strukturert og ustrukturert
informasjon er plassert om hverandre i strukturen


Hvilken hovedvariant er så den beste? Jeg vil hevde at det er fordeler og ulemper med alle tre. 
Den første modellen er den enkleste.  Her er det to kataloger: Den ene handler utelukkende om strukturerte data, mens den andre katalogen favner alle andre informasjonsobjekter (dokumenter, bilder, mail osv).

I den andre modellen har man fortsatt alt i en felles katalog, men man har også her skilt den ustrukturerte informasjonen fra den strukturerte på ett eller annet nivå i strukturen.
Med den siste modellen krever man at dokumenter og annen ustrukturert informasjon modelleres inn side om side med den strukturerte informasjonen der den hører til logisk. Dette kan være en temmelig utfordrende oppgave (noe du raskt vil oppdage dersom du forsøker...).

Min anbefaling går i retning av å etablere to data kataloger. Dette gjør det mulig å fokusere bare på strukturerte (eller ustrukturerte) data i en periode, og hver av katalogene blir enklere å utforme. I neste blogg-post vil jeg komme med konkrete eksempler på hvordan man kan etablere en datakatalog som omfatter strukturert informasjon!
Petter

fredag 25. oktober 2013

Her starter det...

Alle blogger må starte et sted, og denne bloggen starter her!   Dette skal være en data governance blogg - så vidt jeg vet er dette den første data governance bloggen som skrives på norsk. Det kan kanskje høres ut som et litt rart påfunn å starte en slik blogg, men jeg håper og tror at tiden vil vise at dette ikke er så rart like vel.

Jeg som skriver dette heter Petter, og har hatt informasjonsteknologi som hobby (en av alt for mange!) siden 1976, og som levebrød siden 1981. Jeg har hatt mange ulike IT roller, og har jobbet i mange år som IT konsulent og IT leder både i Norge og internasjonalt. Til å begynne med handlet det mest om databaseteknologi og systemarkitektur, men de 10-12 siste årene har hovedfokus vært på prosessforbedring, globale prosessmodeller og informasjonsstyring. I dag har jeg ansvaret for data governance funksjonen i en stor norsk bedrift.

Begrepet "data governance" er trolig ukjent for mange av dere som leser dette innlegget. Data governance handler om og styre og forvalte informasjon slik at du kan stole på at informasjonen er korrekt, lett tilgjengelig for alle som skal ha tilgang til den, og lagret så lenge vi har behov for den.

Vi kan trygt si at dette ikke er et begrep som er godt innarbeidet i norsk dagligtale. Selv i et globalt perspektiv er begrepet ganske nytt. De to siste årene har imidlertid antallet aktiviteter og publikasjoner under denne overskriften nærmest eksplodert! Dersom du googler frasen "data governance" får du når dette skrives ca 430 000 treff. Ganske mye å se igjennom...  Det arrangeres data governance konferanser hver eneste uke ett eller annet sted i verden.

Hva er årsaken til denne "komet-karrieren" til begrepet data governance?  Slik jeg ser det er årsaken todelt:

1) Det finnes et stort (og reelt!) udekket behov for å gjøre endringer i de tradisjonelle IT relaterte styringsmodellene: Det må etableres ansvar og styring i datadimensjonen!

2) IT bransjen har en helt utrolig evne til å samle seg rundt nye overskrifter og deretter "i samlet flokk" skape fuzz og aktivitet rundt de nye begrepene.

Jeg håper du ikke stopper her!  De temaene som skjuler seg under overskriften data governance er definitivt ikke bare fuzz! Dette er høyst relle og aktuelle problemstillinger for nesten alle virksomheter. Ordene data governance er ikke viktige i det hele tatt, men det arbeidet som blir gjort under denne overskriften, kan gi mange og svært verdifulle resultater.

I denne bloggen ønsker jeg å introdusere viktige (og forhåpentligvis nyttige!) data governance temaer - ett av gangen. Jeg har en klar målsetning om at alle innlegg skal gi leseren noe som kan "tas med hjem" og anvendes praktisk i egen organisasjon. Det er mange temaer som vil bli berørt. Her er noen eksempler:
  • Data governance organisering - roller og ansvar - for små og store organisasjoner
  • Prosesser - arbeidsoppgaver
  • Informasjonsdimensjonen - strukturert og ustrukturert informasjon - informasjonsmodeller og datakataloger
  • Data governance disiplinene (datakvalitet, sikkerhet og deling, eierskap, referansedata, dataarkitektur og masterdatahåndtering)
  • Modeller og strukturer som kan forenkle, strukturere og effektivisere data governance arbeidet
  • Informasjonsintegrasjon - hvordan vi kan knytte sammen strukturert og ustrukturert informasjon slik at informasjonen kan anvendes samlet for å støtte arbeidsprosessene
  • Informasjon og kunnskap - data governance som redskap i arbeidet med og forbedre erfaringsinnsamling og deling, erfaringsforedling og beste praksis, samt gjenbruk
Dette var innledningen!  Neste gang jeg skriver blir det et konkret data governance tema!  I mellomtiden kan du jo lese noen av de 430 000 artiklene som ligger ute på nettet.... :-)