Populære innlegg

fredag 14. februar 2014

Hvordan lage en katalog over strukturert informasjon?

I forrige bloggpost (nr 2) skrev jeg at scopet for arbeidet med data governance kan bli enormt stort, og at du er nødt til å gjøre en oppdeling: Du må lage en katalog som gjør det mulig å splitte opp informasjonen din i mindre "biter".

Jeg skrev også at all informasjonen som finnes i en virksomhet kan grovsorteres i to "hauger" der den ene inneholder all strukturert informasjon, og den andre inneholder all ustrukturert informasjon.  Med strukturert informasjon mener vi informasjon som består av enkeltopplysninger (som fornavn, postnummer eller telefonnummer) og som kan lagres og oppdateres enkeltvis. Resten (dokumenter, mail, bilder ++) havner i den andre haugen (som ustrukturert informasjon).

Jeg avsluttet forrige innlegg med å anbefale to separate datakataloger:  En for strukturert informasjon, og en for ustrukturert informasjon.  I dette innlegget skal  jeg si litt mer om hvordan man kan lage en katalog over strukturert informasjon. Svaret på dette avhenger av mange ulike forhold, men det viktigste spørsmålet er om du allerede har, eller har behov for å etablere, en logisk datamodell.

Logiske datamodeller
En logisk datamodell er en datamodell (dokumentert ved hjelp av diagrammer) som skal kunne dekke all strukturert informasjon i virksomheten.  En logisk datamodell ser i utgangspunktet ut som en fysisk datamodell (en datamodell som er ment å skulle implementeres fysisk i en database) men vil i motsetning til de fysiske datamodellene aldri inneholde data. Har du flere IT løsninger i bruk har du normalt en egen database med en tilhørende fysisk datamodell for hver av disse løsningene, men du vil fortsatt bare ha en logisk datamodell.

For større virksomheter kan det være aktuelt å kjøpe en industristandard modell (det finnes flere leverandører av slike modeller) og benytte denne som utgangspunkt for din egen logiske modell. Selv om man velger en industrimodell, må man være forberedt på å måtte gjøre en god del justeringer og tillegg før modellen dekker databehovet i din egen virksomhet.
Dersom det allerede finnes en logisk datamodell, eller dersom det er besluttet at det skal etableres en logisk datamodell for din virksomhet, vil det være naturlig å ta utgangspunkt i denne når man skal utforme datakatalogen.

 Eksempel på en datamodell

En datakatalog basert på en logisk datamodell
En logisk datamodell er ikke hierarkisk, men det er mulig å lage en hierarkisk datakatalog basert på en logisk datamodell. Dette skjer normalt ved at man deler opp datamodellen i et håndterbart antall områder, som hver for seg består av flere dataobjekter (eller "entiteter").  Dersom datamodellen er stor (inneholder et stort antall dataobjekter), kan det bli nødvendig å ha flere enn to nivåer i datakatalogen for å gjøre den brukervennlig.
Her er et eksempel på en enkel datakatalog med to nivåer basert på datamodellen over. Jeg har delt opp modellen i tre områder som jeg har kalt geografidata, vindata og distribusjonsdata og dermed blir det veldig enkelt å lage en katalog av dette:
Geografidata
 
 
Land
 
Region
 
Distrikt
Vindata
 
 
Vinmark
 
Vinprodusent
 
Vin
Distribusjonsdata
 
 
Distributør
 
Leveranse
 
Butikk

En logisk datamodell vil selvsagt kunne anvendes til langt mer enn som et utgangspunkt for en datakatalog og som basis for arbeidet med data governance! En logisk datamodell kan også benyttes til å beskrive standardiserte grensesnitt innenfor ulike dataområder som alle IT systemer kan forpliktes til å benytte når det skal utveksles data mellom disse systemene.

Minimumsløsningen: En enkel liste
I den andre enden av skalaen finner vi datakataloger som er etablert som en enkel liste med dataområder uten å ha en logisk data modell som utgangspunkt. Katalogen består av dataområder som er viktige for virksomheten med høy datakvalitet og god kontroll på, men som krever ulik behandling (ulike regler) og separat eierskap. Her er det mulig å starte med noen få utvalgte dataområder, for senere og utvide katalogen ved å legge til nye områder, og ved å splitte opp dataområder som viser seg å være for grove.

Kundedata
Ansattdata
Ordredata
Fakturadata
Betalingsdata
Produktdata

En veldig enkel datakatalog med ett nivå

Oppsummering

Uansett hvilken metode du har valgt for å etablere din egen datakatalog, så er det aller viktigste å passe at katalogen tas i bruk av alle som har behov for den, og at selve katalogen forvaltes på en skikkelig måte.  Det finnes ingen fasit for hvordan en datakatalog skal se ut. Det finnes derfor svært mange måter å utforme en slik katalog på, og tilsvarende mange synspunkter på hvordan katalogen burde ha sett ut. Husk da på at det viktigste ikke er at alle liker katalogen!  Det viktigste er at alle kjenner den og forstår den. Det at katalogen er kjent, godt dokumentert, og at den samme katalogen benyttes (og utvikles gradvis) over lang tid er de viktigste suksessfaktorene.
I neste bloggpost skal jeg si mer om hvordan du kan løse oppgaven med å lage en katalog som dekker den ustrukturerte informasjonen i din virksomhet! Det er som regel verre....

Petter

 

torsdag 28. november 2013

Grunnleggende strukturer for data governance

I min første blogg-post på Data governance bloggen, skrev jeg at data governance treffer absolutt all informasjon som håndteres i en virksomhet. Det betyr at scopet for data governance arbeidet vil kunne bli enormt stort. Skal du ha noen som helst mulighet til å kunne jobbe med mindre områder av gangen, er du pent nødt til å gjøre en oppdeling: Du må lage en katalog eller struktur som gjør det mulig å dele opp informasjonen din i mindre "biter".

Informasjonen som finnes i en virksomhet kan grovsorteres i to "hauger" der den ene inneholder all strukturert informasjon, og den andre inneholder all ustrukturert informasjon. Bruken av ordene strukturert og ustrukturert krever en liten forklaring:

Med strukturert informasjon mener vi informasjon som er delt opp i enkeltopplysninger (som fornavn, postnummer eller personnummer) som kan lagres og oppdateres enkeltvis i et databasesystem (ofte som en del av en IT løsning med ulike skjermbilder som gir tilgang til informasjonen).

Med ustrukturert informasjon mener vi rett og slett resten: All informasjon vi måtte ha som ikke passer inn under definisjonen over. Typiske eksempler på ustrukturert informasjon er dokumenter av ulike slag, mail, lyd- og videofiler, inter- eller intranettsider (med tekst), kildekode, bilder og grafikk.

Prioritering og nedscoping er ikke den eneste årsaken til at det er nødvendig med en datakatalog for å jobbe med data governance. Datakatalogen er forankringspunktet for alle datarelaterte regler. Uten  en slik katalog har vi rett og slett ikke noe å knytte reglene til.  Dette er en veldig viktig observasjon:  Dersom data skal behandles ulikt på en eller annen måte (ha ulike regler), må disse dataene splittes i katalogen.

Det samme gjelder dersom vi ønsker å fordele ansvar for og eierskap til ulike data. Uten en datakatalog og en oppdeling som alle kan forholde seg til, blir det umulig å fordele ansvar og eierskap for ulike data på en entydig måte.
Hva er så den beste måten å lage en datakatalog på? Det finnes dessverre ikke noe entydig svar på det spørsmålet. Det er svært mange måter å dele opp all informasjon i en virksomhet på, og de fleste av disse har fordeler og ulemper. Det viktigste er at du til slutt ender opp med en (eller flere)  kataloger eller strukturer som alle må forholde seg til.
Uansett hvordan du angriper oppgaven med å lage datakataloger, er stor sannsynlighet for at du vil ende opp med en av følgende 3 varianter:


1 To helt separate strukturer (kataloger):
En for strukturert og en for ustrukturert informasjon


2 En felles struktur (katalog), men med et klart skille
mellom den strukturerte og den ustrukturerte informasjon


3 En felles struktur (katalog) der strukturert og ustrukturert
informasjon er plassert om hverandre i strukturen


Hvilken hovedvariant er så den beste? Jeg vil hevde at det er fordeler og ulemper med alle tre. 
Den første modellen er den enkleste.  Her er det to kataloger: Den ene handler utelukkende om strukturerte data, mens den andre katalogen favner alle andre informasjonsobjekter (dokumenter, bilder, mail osv).

I den andre modellen har man fortsatt alt i en felles katalog, men man har også her skilt den ustrukturerte informasjonen fra den strukturerte på ett eller annet nivå i strukturen.
Med den siste modellen krever man at dokumenter og annen ustrukturert informasjon modelleres inn side om side med den strukturerte informasjonen der den hører til logisk. Dette kan være en temmelig utfordrende oppgave (noe du raskt vil oppdage dersom du forsøker...).

Min anbefaling går i retning av å etablere to data kataloger. Dette gjør det mulig å fokusere bare på strukturerte (eller ustrukturerte) data i en periode, og hver av katalogene blir enklere å utforme. I neste blogg-post vil jeg komme med konkrete eksempler på hvordan man kan etablere en datakatalog som omfatter strukturert informasjon!
Petter

fredag 25. oktober 2013

Her starter det...

Alle blogger må starte et sted, og denne bloggen starter her!   Dette skal være en data governance blogg - så vidt jeg vet er dette den første data governance bloggen som skrives på norsk. Det kan kanskje høres ut som et litt rart påfunn å starte en slik blogg, men jeg håper og tror at tiden vil vise at dette ikke er så rart like vel.

Jeg som skriver dette heter Petter, og har hatt informasjonsteknologi som hobby (en av alt for mange!) siden 1976, og som levebrød siden 1981. Jeg har hatt mange ulike IT roller, og har jobbet i mange år som IT konsulent og IT leder både i Norge og internasjonalt. Til å begynne med handlet det mest om databaseteknologi og systemarkitektur, men de 10-12 siste årene har hovedfokus vært på prosessforbedring, globale prosessmodeller og informasjonsstyring. I dag har jeg ansvaret for data governance funksjonen i en stor norsk bedrift.

Begrepet "data governance" er trolig ukjent for mange av dere som leser dette innlegget. Data governance handler om og styre og forvalte informasjon slik at du kan stole på at informasjonen er korrekt, lett tilgjengelig for alle som skal ha tilgang til den, og lagret så lenge vi har behov for den.

Vi kan trygt si at dette ikke er et begrep som er godt innarbeidet i norsk dagligtale. Selv i et globalt perspektiv er begrepet ganske nytt. De to siste årene har imidlertid antallet aktiviteter og publikasjoner under denne overskriften nærmest eksplodert! Dersom du googler frasen "data governance" får du når dette skrives ca 430 000 treff. Ganske mye å se igjennom...  Det arrangeres data governance konferanser hver eneste uke ett eller annet sted i verden.

Hva er årsaken til denne "komet-karrieren" til begrepet data governance?  Slik jeg ser det er årsaken todelt:

1) Det finnes et stort (og reelt!) udekket behov for å gjøre endringer i de tradisjonelle IT relaterte styringsmodellene: Det må etableres ansvar og styring i datadimensjonen!

2) IT bransjen har en helt utrolig evne til å samle seg rundt nye overskrifter og deretter "i samlet flokk" skape fuzz og aktivitet rundt de nye begrepene.

Jeg håper du ikke stopper her!  De temaene som skjuler seg under overskriften data governance er definitivt ikke bare fuzz! Dette er høyst relle og aktuelle problemstillinger for nesten alle virksomheter. Ordene data governance er ikke viktige i det hele tatt, men det arbeidet som blir gjort under denne overskriften, kan gi mange og svært verdifulle resultater.

I denne bloggen ønsker jeg å introdusere viktige (og forhåpentligvis nyttige!) data governance temaer - ett av gangen. Jeg har en klar målsetning om at alle innlegg skal gi leseren noe som kan "tas med hjem" og anvendes praktisk i egen organisasjon. Det er mange temaer som vil bli berørt. Her er noen eksempler:
  • Data governance organisering - roller og ansvar - for små og store organisasjoner
  • Prosesser - arbeidsoppgaver
  • Informasjonsdimensjonen - strukturert og ustrukturert informasjon - informasjonsmodeller og datakataloger
  • Data governance disiplinene (datakvalitet, sikkerhet og deling, eierskap, referansedata, dataarkitektur og masterdatahåndtering)
  • Modeller og strukturer som kan forenkle, strukturere og effektivisere data governance arbeidet
  • Informasjonsintegrasjon - hvordan vi kan knytte sammen strukturert og ustrukturert informasjon slik at informasjonen kan anvendes samlet for å støtte arbeidsprosessene
  • Informasjon og kunnskap - data governance som redskap i arbeidet med og forbedre erfaringsinnsamling og deling, erfaringsforedling og beste praksis, samt gjenbruk
Dette var innledningen!  Neste gang jeg skriver blir det et konkret data governance tema!  I mellomtiden kan du jo lese noen av de 430 000 artiklene som ligger ute på nettet.... :-)