tiistai 1. huhtikuuta 2014

Tietomalleista


Kirjoitimme Mamkin Open Source Archive –projektin pääsuunnittelijan Mikko Lammen kanssa paperin toukokuussa Berliinissä järjestettävään Archiving 2014 konferenssiin. Otsikkomme kuului Flexible data model for linked objects in digital archives. Otsikon mukaisesti esittelimme Capture-hankkeessa kehiteltyä, ja nyt OSA-hankkeessa toteutettavaa tietomallia, joka pyrkii olemaan kevyt, nopea ja tehokas.

Malli erottuu perinteisestä arkistokuvailusta – jota nykyisin kutsutaan yksiulotteiseksi kuvailuksi – siinä, että tietyt metatietokokonaisuudet erotetaan itse aineiston kuvailusta omiksi kuvailtaviksi kokonaisuuksiksi (jolloin lopputulosta voi kutsua moniulotteiseksi tai kontekstuaaliseksi kuvailuksi). Nämä ovat toimija, tapahtuma, paikka ja toiminta. Näistä toimijan voi ymmärtää hieman laajennettuna käsitteenä perinteisestä arkistonmuodostajasta – mutta sisältäen myös käytön, omistuksen ja säilytyksen kontekstin. Tapahtuma ja paikka taas koskevat nimensä mukaisesti jotain erikseen kuvailtavaa tapahtumaa (esim. Helsingin olympialaiset) tai paikka (esim. Helsingin olympiastadion). Toiminta taas käsittää ylätasolla toimialan ja alemmalla tasolla taas toimintoluokituksen. Olemme OSAn betaversioon integroineet tilastokeskuksen TOL-luokituksen sekä Liikearkistoyhdistyksen säilytysaikasuosituksessa käytetyn toimintoluokituksen.

Suurin hyöty tässä kontekstuaalisessa kuvailussa saavutetaan siinä, että 1) se mahdollistaa entistä paremmin ontologioiden ja luokitusjärjestelmien hyväksikäytön ja 2) se vähentää kuvailutyön määrää, kun tietyt asiat tarvitsee kuvailla vain kerran. Niinpä aineiston kuvailussa tarvitsee keskittyä vain asiakirjojen sisältöön, muut tiedot voidaan helposti linkitellä aineistoon valmiista ontologioista, luokittelujärjestelmistä tai auktoriteettitietokannoista. Nopeus ja tehokkuus saavutetaan nimenomaan tällä aineiston kuvailutyön helpottamisella. Keveys sen sijaan viittaa siihen, että kuvailtavien kokonaisuuksien (entiteettien) lukumäärä on pyritty pitämään mahdollisimman vähäisenä ja entiteettien väliset suhteet myöskin mahdollisimman vähäisinä.

Vastaavaanlaista työtä on tehty myös vuonna 2012 perustetussa kansallisen arkistokuvailun kehittämistyöryhmässä. Sen käsitemalli on kuitenkin jonkin verran monimutkaisempi, sisältäen mm. neljä entiteettiä enemmän (activity, recordkeeping function, subject ja mandate) ja entiteeteille on rakennettu enemmän keskinäisiä suhteita. Eron voi helpoiten havaita oheisten piirrosten avulla.
Kuva 1. Vasemmalla kansallisen ontologisen käsitemallin luonnos ja oikealla Capture-hankkeessa kehitetty malli.

Mutta toimiiko se teidän malli käytännössä? Kyllä toimii, sillä tietomallia on testattu nyt yhdeksän kuukauden ajan käytännössä. Ensiksi testialustana oli OSA-järjestelmän proto, sen jälkeen järjestelmän alfa-versio, ja nyt maaliskuun alusta lähtien käytössä on ollut beta-versio. Erityisen helpottavaa on ollut katkaista perinteinen arkistonmuodostajan ja arkiston välinen yhteys. Arkistonjärjestämisessähän työlästä on nimenomaan arpominen siitä, että mistä kokonaisuudesta tehdään oma arkisto ja mistä ei. Keskiverto arkistoluovutus – vaikka tulisikin yhdeltä taholta – sisältää yleensä 5 – 10 eri arkistoa, jotka ovat luovuttajan edeltäjiä tai tytäryhtiöitä. Kun toimijasta tulee ”vain” yksi metatieto muiden joukossa, niin mahdollistaa se aiempaa paljon joustavamman toimintatavan. Alla olevasta kuvasta näkee, että kuinka helposti aineistoon voidaan linkittämällä lisätä kontekstuaalista tietoa, joka auttaa erityisesti tiedonhaussa.
Kuva 2. Kuvankaappaus OSA-järjestelmästä. Alareunassa on neljä valikkoa (ympyröity punaisella), joista klikataan linkitettävät kontekstientiteetit.

Toiveenamme on, että OSA-järjestelmän käyttöönotto tulee puolittamaan arkiston järjestämiseen kuluvan ajan (tuntia per järjestetty hyllymetri). Ja samalla kuitenkin helpottamaan aineiston haettavuutta ja löydettävyyttä entistä paremman sisällönkuvauksen ja kontekstin avaamisen kautta. Sen lisäksi OSA-järjestelmä tulee toki mahdollistamaan digitoidun ja digitaalisesti syntyneen aineiston hallinnan.
Niin, ja lopuksi on vielä mainittava, että Elka löytyy nykyisin myös Twitteristä osoitteella @Elka_arkisto.
 
Olli Alm
Tietopalvelu- ja kehittämispäällikkö

Ei kommentteja: