keskiviikko 23. tammikuuta 2013

Megatrendit vastakkain


Suomalaisessa – ja myös laajemmin länsimaisessa – yhteiskunnassa on sähköisten palveluiden osalta vallalla nyt kaksi megatrendiä, jotka ovat osittain vieläpä aika pahasti ristiriidassa keskenään. Toisaalta joka tuutissa halutaan korostaa tiedon avoimuutta, open dataa, ja ylipäätänsä julkisin varoin tuotettujen tietojen vapaata saantia ja uudelleenkäyttöä. Kaikki on niin ihanaa, kun voi vain kerätä ilmaista tietoa lähteistä x, y ja z, yhdistää ne palveluksi ö, luoda valmis appsi, ja myydä sitä iTunessa tai Google Playssä hintaan 0,99 €/kpl. Siitä syntyy uutta liiketoimintaa, uutta rahaa, työpaikkoja, verotuloja ja kaikilla on taas niin mukavaa. Uusia rovioita syntyy joka niemennotkoon ja saarelmaan, ja sen seurauksena Suomi ja koko muu Eurooppa nostetaan post-industriaalisen aikakauden talousvaikeuksista ja hyvinvointiyhteiskunta voidaan pelastaa vieläpä luontoa saastuttamattomalla tavalla.

Valtaosa kuluttajista on hyvin tyytyväisiä, kun voivat pelkästään luottokorttinumeronsa ilmoittamalla ostaa palveluita kotisohvalta käsin. TV-sarjat ja elokuvat seurataan Netflixistä, musiikki kuunnellaan Spotifystä ja kirjat ostetaan Amazonilta. Samalla lailla kulttuuripalveluita voi käyttää joko ilmaisten tai maksullisten sovellusten avulla. Mutta tässä vaiheessa on hyvä siirtyä siihen toiseen megatrendiin. Nimittäin osa kuluttajista – tai käytetään hänestä nyt tässä yhteydessä vain nimitystä kansalainen – haluaakin samalla varjella omaa yksityisyyden suojaansa ja pysytellä anonyyminä. Isoveli valvoo jokaista verkkovierailua ja salasanan näpyttelyä, joten valveutunut kansalainen ei halua jättää itsestään tuntomerkkejä verkkoon. Osa kansalaisista haluaa, että heillä on oltava oikeus anonyymiyteen. Ettei viranomaiset tai kaupalliset toimijat saa tallettaa heitä koskevia henkilötietoja rekistereihin. Kuulemani mukaan asiasta on kehitteillä EU-tasolla direktiivikin, johon Euroopan arkistot ovat antamassa lausuntoaan.

Meille arkistoillehan tämä on vähän hankala asia, sillä Elkankin noin 260 miljoonasta dokumentista hyvin suuri osa sisältää jonkinlaisia henkilötietoja, nimiä, osoitteita, henkilötunnuksia, terveystietoja ja niin edelleen. Ongelma konkretisoituu hyvin nopeasti esimerkiksi silloin, kun aineistoa lähdetään digitoimaan. OCR-skannattu, ja tietokantaan indeksoitu, aineisto kun on fulltext –hakujen piirissä. Jo muutaman hyllymetrin digitoiminen tuottaa metatietoa enemmän, kuin mitä arkistotietokantaan on kolmen vuosikymmenen aikana perinteisin menetelmin luetteloitu. Esimerkiksi 2 hyllymetriä sisältää noin 10 miljoonaa sanaa. Jos taas henkilötietoja lähdetään aineistosta väkisin poistamaan (mikä on käytännössä muuten lähes mahdotonta) niin silloin aineisto itsessään muuttuu useimmissa tapauksissa lähes arvottomaksi mössöksi. Miettikääpä vaikka kirkonkirjoja, joista olisi poistettu nimet ja syntymäajat. ”Herra nro 47 meni 6.6.1972 naimisiin neiti nro 65:n kanssa. Myöhemmin heille syntyi lapset 1, 2 ja 3.”.

Näiden kahden megatrendin puristuksessa me täällä arkistossa joudumme työskentelemään.
 
Olli Alm
Tietopalvelu- ja kehittämispäällikkö

tiistai 15. tammikuuta 2013

OSAavaa toimintaa


Capture-projekti on loppuraporttia ja viimeistä maksatushakemusta vaille taputeltu, mutta Capturen perintö elää vankasti. Olemme nimittäin vahvalla panostuksella mukana Mikkelin ammattikorkeakoulun vetämässä OSA –hankkeessa (Open Source Archive), jossa nimensä mukaisesti kehitellään avoimeen lähdekoodiin perustuvaa arkistoratkaisua. Palveluarkisto rakennetaan Fedora Commons –alustalle, joka on pääsuunnittelija Mikon mukaan: ”framework tyyppinen arkisto/repository –ratkaisu. Se ei ole valmis tuote, vaan pohja, jonka päälle voi toteuttaa lähes millaisia arkistosovelluksia tahansa.”

Capture-projektin vaatimusmäärittelyssä olleet noin kaksisataa vaatimusta on priorisoitu toteutusaikataulun mukaisesti kolmeen ryhmään (1-3). Ensimmäiset, noin kolmekymmentä, vaatimusta muodostavat säilytys- ja hallintajärjestelmän ytimen. Niiden vaatimusten mukaista järjestelmää pääsemme testaamaan loppukevään tai alkukesän aikana. Pikku hiljaa vaatimuksia lisätään toisesta kategoriasta, jonka mukaista järjestelmää on tarkoitus testata ensi syksynä. Ja melko lailla lopullista, myös kolmannen kategorian vaatimukset täyttävää, järjestelmää tämän vuoden lopulla.


OSA-hankkeen edistymistä voi seurata sen blogista, osoitteessa: http://osarchive.wordpress.com/
 
Olli Alm
Tietopalvelu- ja kehittämispäällikkö/
OSA -hankkeen asiantuntijajäsen

torstai 10. tammikuuta 2013

Luotettavaa tietoa


Lueskelin viikonloppuna isoisäni sotilaskantakortteja, ja niissä molemmissa oli hänen syntymäaika merkitty väärin. Toisen isoisän sotilaskantakorteissa taas taistelupaikat oli merkitty aika erikoisesti. Vuoden 1941 osalta oli todettu vain ylimalkaisesti, että ”hyökkäystaistelut Kannaksella”, kun taas kesän 1944 taisteluista oli Siiranmäen, Äyräpään ja Vuosalmen lisäksi esille nostettu mm. Punnuksen taistelu (joka ei käsittääkseni ollut kauhean iso kahina). Alkoi kalvamaan jälleen epäilys asiakirjallisen tiedon luotettavuudesta…

Historiallisessa aikakauskirjassa taas emeritusprofessori  Viljo Rasila rökitti aika railakkaan henkisesti Sotasurmatiedoston luokitusperiaatteita ja luotettavuutta. Rasilan avautumisen, ja Lars Westerlundin siihen kirjoittaman vastineen luettuani, pidän kyllä varsin ilmeisenä, että Rasila on ymmärtänyt koko Sotasurmaprojektin ja sen keräämän aineiston aivan väärin. Hankkeessa tallennettiin eri tietolähteistä tietoja ylös yhteiseen tietokantaan. Kyse ei siis ole tutkimuksesta, kuten Rasila on asian ymmärtänyt.

Mutta edellä on kuvattu muutamia esimerkkejä siitä, kuinka arkistoaineisto voi käyttäjässä aiheuttaa hämmennystä tai epäuskoa. Asiakirjallisen tiedon luotettavuutta on kyllä tutkittu vaikka kuinka paljon, ja siihen aiheeseen ei minulla aika tai resurssit riitä (varsinkaan blogikirjoituksessa). Kuitenkin arkistoissa tahdotaan aina korostaa arkistoaineiston luotettavuutta. Mitä se sitten tarkoittaa? Onko asiakirjoissa oleva tieto aina luotettavaa? Vai onko luotettavaa se, että aineisto on todella peräisin sieltä, mistä sen väitetäänkin olevan (ns. provenienssiperiaate). Vai onko luotettavaa se, että arkiston tuottamat kuvailu- ja luettelointitiedot ovat aina luotettavia? Johan tässä nyt tällainen pieni ihminen hämmentyy, että mitä sillä tiedon luotettavuudella tarkoitetaan.

Meille kaikille historiaa opiskelleille historiantutkimuksen lähdekritiikki on varmasti tuttu asia. Saatua tietoa ei pidä uskoa suoralta kädeltä, vaan se tulee suhteuttaa muista lähteistä saatuihin tietoihin, ja arvioida myös tietolähteen tarkoitusperiä ja luotettavuutta. Vielä pidemmälle lähdekritiikki on viety kulttuuriantropologian puolella, jossa asiakirjoja voidaan pitää vuorovaikutuksen välineenä ihmisten välillä. Eihän mitään asiakirjaa tai dokumenttia ole luotu tahattomasti. Laatijalla on aina ajatus siitä, että miksi hän dokumentin tekee ja mikä on sen tarkoitus. Ja yleensä kaikessa mihin ihminen sormensa pistää, on niin sanotun inhimillisen virheen mahdollisuus aika suuri. Todennäköisesti armeijan kirjurit lukivat isoisäni syntymäajan väärin kirjatessaan sitä kantakorttiin. Hän oli syntynyt 29.2., joten lipsahdukset 25.2. ja 26.2. on helppo tehdä.

Entäpä sitten Sotasurmatiedosto? Siinä käytetyt lähdeaineistot on aikoinaan kerätty tietyssä tarkoituksessa ja tietyllä tavalla. Hankkeessa tiedot on sitten 2000-luvun taitteessa syötetty tietokantaan. Kun aineistoa katsotaan nykypäivästä käsin, voidaan todeta, että jossakin on virhe. Mutta ei tuo ”virhe” ole syntynyt tietokantaan tallennettaessa, vaan tietoa vuosikymmeniä sitten kerätessä. Tietokannassa oleva tieto on siis luotettavaa, jos sitä verrataan alkuperäisaineistoon. Mutta vaatii tietynlaista arkistonlukutaitoa ymmärtää tämä ero. 
Olli Alm
Tietopalvelu- ja kehittämispäällikkö

keskiviikko 2. tammikuuta 2013

Tutkimusta vai elämystä


Ensinnäkin hyvät uuden vuoden toivotukset kaikille blogimme lukijoille! Vuosi on vaihtunut, ja virkistävän joululoman jälkeen on taas hyvä suunnata kohti uusia seikkailuita. Tammikuun tuska on tosin kaikki nämä raportit ja tilastot, jotka on väännettävä rakkaille rahoittajillemme. Mutta jottei polla aivan halkeaisi Excelin kanssa ”askarrellessa”, on hyvä välillä antaa ajatuksen vaellella vaikkapa blogitekstin muotoon. Ja tämänkertainen ajatuksentynkä syntyi oikeastaan noiden viime vuoden kävijätilastojen pohjalta.

Perinteisesti meillä arkistoissa vain tutkijasaliasiakkailla on väliä. Kansallisarkiston keräämiin asiakaspalvelun tilastoihin on nimittäin merkittävä tarkasti tutkijasaliasiakkaiden, asiakirjatilausten ja tilattujen arkistoyksiköiden lukumäärät. Noh, täytyy sinne ilmoittaa toki myös tehdyt selvitykset ja kaukolainatkin, mutta pohjavireenä on kyllä vahvasti tuo tutkijasalikeskeisyys. Esimerkiksi Internet-sivuilla käyntejä, verkkonäyttelyvierailuita tai tällä blogisivulla käyntejä ei tilastoida millään tavalla (tai kyllä ne tilastoidaan, mutta kukaan ei kysy niitä).

Kuitenkin koko yhteiskunnassa on vahva tahtotila kohti digitaalisia palveluita. Uusia digitaalisia agendoja syntyy harva se päivä niin EU-tasolla, kansallisesti kuin myös paikallisestikin. Esimerkiksi kotikaupunkini Mikkeli on nyt julistautunut pyrkivänsä ensimmäiseksi digitaalisten palveluiden kaupungiksi Suomessa. Arkistosektorilla kuitenkin eletään vielä siinä maailmassa, jossa ”oikea tutkija” on sellainen, joka istuu tutkijasalissa tutkimassa pölyisiä asiakirjoja. Digitaaliset palvelut, ja varsinkin sosiaalinen media, on enempi tai vähempi viihdekäyttöön tarkoitettuja.

Tarkoituksenani ei nyt ollut piikitellä mihinkään suuntaan, sillä se vaan on meidän alallamme perinteinen tapa ajatella. Ja sitä paitsi ennusmerkit ovat ilmassa, että suunta on vaihtumassa nopeasti, ja aivan päinvastaiseen suuntaan. Vuosien 2009 ja 2010 isojen digitointihankkeiden jälkeen arkistoilla on nyt aivan eri tavalla digitaalisia aineistoja kuin aiemmin. Osittain niiden seurauksena esimerkiksi sukututkimus on siirtynyt melkein kokonaan verkkoon. Sukututkijoilla kun on lisäksi käytössä mm. Suomen Sukuhistoriallisen Yhdistyksen digiarkisto, Suomen Sukututkimusseuran HisKi ja mormonien Family Search. Arkistojen tarjoamien digitaalisten palveluiden lisääntyessä tutkijasalikäynnit taitavat olla laskussa vähän joka suunnalla. Sen seurauksena tutkijasalipalvelun resursseja tuskin missään arkistossa ollaan ainakaan lisäämässä. Heilahtaako kuppi kohta niin päin, että muutaman vuoden päästä vain sähköisillä asiakkailla on väliä, ja tutkijasaliasiakkaita ei enää edes tilastoida? Tuskinpa noin radikaalisti käy ihan lähivuosina ainakaan, mutta kehitystrendin suunta on varmasti kaikille aika selvä.

Vai voisiko olla niin, että jatkossa ”oikeat tutkijat” (käytännössä siis sellaiset, jotka joutuvat käyttämään runsaasti aikaa lähdeaineistonsa parissa) keskittyvät sähköisten palveluiden äärelle, ja taas elämyshakuiset ensikertalaiset ovat arkistojen fyysisen tietopalvelun suurin asiakasryhmä. Monelle ihmiselle jo pelkästään satoja vuosia vanhojen asiakirjojen näkeminen voi olla elämys. Entäpä peruskoululaiset, lukiolaiset tai vaikkapa kaupunginosaseuran aktiivijäsenet. Heille jonkin paikallisesti tai valtakunnallisesti tärkeän asiakirjan katselu voi jo itsessään olla suuri elämys. Sukututkijalle oman isoisoisän omakätisen allekirjoituksen näkeminen voi jo muodostua elämykseksi. Usein siihen riittää yksi näkemiskerta ja hyvälaatuinen värivalokopio muistoksi. Sen jälkeen voi palata taas digiarkiston pariin tekemään oikeaa tutkimusta.

Meillä ainakin tämä edellä kuvattu muutos on jo todellisuutta. Tutkijasaliasiakkaiden määrä on polkenut paikoillaan viime vuodet, ja ehkä muutamalla prosentilla jo laskenutkin. Sen sijaan erilaisten vierailuryhmien määrä on ollut kovassa nousussa, ja samoin esimerkiksi Arkistojen päivän näyttely saavutti tänä vuonna ennätysyleisön. Vierailuryhmien ja näyttelyiden asiakkaat ovat siinäkin mielessä erittäin arvokkaita, että useimmat heistä ovat ensikertalaisia. Tai ainakin hyvin harvakseltaan arkistossa vierailevia henkilöitä. Siksi vierailuryhmät ja tapahtumat toimivat hyvinä ”sisäänheittotuotteina”, jolla asiakkaat saadaan verkkoon tekemään oikeaa tutkimusta.
 
Olli Alm
Tietopalvelu- ja kehittämispäällikkö