Big Data Suomessa - Avoin Data


2014-09-02, 17:09 Kirjoittanut Tero Keski-Valkama

Dataa kerätään joka puolella; valtion ja kuntien virastot keräävät tietoa esimerkiksi kaupunkien palvelurakenteista, demografiasta, demokraattisesta päätöksenteosta ja viranomaishälytyksistä.

Yritykset keräävät tietoa omasta liiketoiminnastaan, asiakkaistaan, ja yleisesti ympäröivästä kontekstistaan strategian tueksi. Erilaiset organisaatiot ja jopa yksittäiset henkilöt keräävät ja hallitsevat erilaisia tietovarastoja.

Arvokasta dataa on joka puolella, mutta siihen ei välttämättä ole pääsyä, ellei sitä ole asetettu saataville. Monesti datalla on ensimmäisen asteen suoran arvon lisäksi arvoa yhdisteltävyytensä kautta; esimerkiksi matkatoimisto hyötyy lentoyhtiöiden julkaisemista lentojen aikatauluista ja saatavuudesta, ja hotellien julkaisemista hinnoista ja saatavuudesta erikseen, mutta kun molemmat on asetettu julkisiksi ja avoimiksi, voivat kolmannen osapuolen matkatoimistot ja muut palvelut yhdistellä näistä kokonaisia matkapaketteja.

Datan yhdisteltävyydellä on oma inherentti arvonsa, joka kannattaa valjastaa kansantalouden kasvattamiseksi, ja joka saadaan hyötykäyttöön kun data tarjotaan saataville globaaliin avoimen datan datasfääriin.

Avoin data ei ole välttämättä dataa, joka on asetettu globaalisti kaikkien saataville ilman tunnistautumista ja ilmaiseksi. Se voi viitata myös dataan ja rajapintoihin, jotka vaativat erillislisenssit, tunnistautumisen tai eri tahojen, kuten käyttäjän, erillishyväksynnän dataan pääsyyn. Myös yritysten ja organisaatioiden sisällä voidaan puhua avoimesta datasta ja avoimista rajapinnoista, kun tarkoitetaan niiden avoimuutta organisaation sisäisessä kontekstissa. Avoin data on kuitenkin dataa, joka kulkee minimaalisten ja välttämättömien rajojen puitteissa kitkatta ja vapaasti.

Rajapinnat ja datafuusio

Dataa julkaistaessa on kiinnitettävä huomiota tietomalliin, rajapintoihin ja pääsynhallintaan. Jos data on luonteeltaan kerran kerättyä ja sen jälkeen tiedostoon tallennettua, se voidaan julkaista yksinkertaisesti ladattavana tiedostona. Usein näin ei kuitenkaan ole. Esimerkiksi data, joka on reaaliaikaista tarvitsee tarkemmin suunnitellut ja provisioidut rajapinnat. Data, jota halutaan tarjota yhdisteltäväksi muiden datalähteiden kanssa täytyy yhdennimistää ja normalisoida siten, että yhdistelyyn tarvittavat avaimet ovat helposti saatavilla.

Dataa yhdistellään yleisesti ottaen yhteisen kontekstin perusteella. Kunhan eri datalähteiden data on projisoitavissa jossain mielessä yhteiselle käsiteakselille, kuten esimerkiksi geopositioon, aikaan tai luonnollisen henkilön identiteettiin, on mahdollista löytää datasta uusia merkityksellisiä suhteita ja johtaa niistä arvoa.

Jos data sisältää arvoja, jotka voivat olla eri yksiköissä, kuten fyysiset mittaukset esimerkiksi lämpötilasta, tai kirja-arvostelujen tähtien määrät, täytyy datamallissa selkeästi määritellä mistä asteikosta on kyse. Geopositioita voidaan koodata esimerkiksi GPS-positioina tai kaupungin niminä, jolloin on pystyttävä dataa yhdisteltäessä koostamaan nämä yhdennimiseksi, että saadaan samoja kaupunkeja koskevat tiedot saman otsikon alle. Joskus semanttisen verkon teknologiat, kuten RDF ja OWL voivat auttaa määrittelemään yhdisteltävissä olevia käsitteitä dataan, jolloin sen yhdisteltävyys paranee.

Kun dataa yhdistellään eri lähteistä, täytyy kiinnittää huomiota myös siihen nimettyyn tahoon, joka on autoritäärinen datan ja siihen mahdollisesti tulevien korjausten suhteen. Datan yhdistämistä metadataan, jossa määritellään datan lähde kutsutaan usein reifikaatioksi. Datan korjaaminen alavirrassa datan lähteeseen nähden ei oletusarvoisesti johda virheiden korjaantumiseen ylävirrassa, datan alkulähteillä. Lisäksi jos tietyn tahon luottamus menetetään kokonaisuudessa, on pystyttävä löytämään ja poistamaan tältä taholta peräisin oleva data.

Julkishallinnon sähköiset palvelut (e-Government)

Suomi oli YK:n kansainvälisessä e-Government Readiness Index:issä vuonna 2012 yhdeksäs, Etelä-Korean, Britannian, USA:n ja muiden pohjoismaiden jälkeen. Sijoitus on nousussa; vuonna 2008 se oli 15. Suomessa on ymmärretty, että datainfrastruktuuri ja julkishallinnon tehostamis- ja läpinäkyvyystavoitteet auttavat kansantaloutta toipumaan pitkästä taantumasta pienentämällä kynnyksiä aloittaa uusia yrityksiä ja uusia liiketoimintamalleja. E-demokratiaa toteutetaan suomessa valtiollisesti ja suurimmissa kaupungeissa esimerkiksi demokratia.fi-portaalin kautta.

Julkishallinnon datan avaaminen on johtanut lukuisiin harrastelijoiden luomiin lisäarvopalveluihin, joita löytyy paljon esimerkiksi Apps4Finland-kilpailun sadosta.

Yksityisyys ja tietoturva

Monesti datan avaaminen vaatii yksityisyysnäkökulman läpikäyntiä. Yksityisten ihmisten tietoja ei pääsääntöisesti voida julkaista ilman lupaa jos henkilöt ovat yksilöitävissä datasta, tietyin poikkeuksin. Asia on yleensä helppo ratkaista pyytämällä käyttäjiltä erikseen lupa datan julkaisuun, ja usein tämä on helppo hyväksyä jos käyttäjä saa tätä vastaan dataan perustuvia palveluita.

Akateemiseen tutkimuskäyttöön data voidaan anonymisoida, mutta tämä luonnollisesti vähentää sen yhdisteltävyyttä, ja edelleen datasta löydettäviä säännönmukaisuuksia ja muita rakenteellisia löydöksiä, joka edelleen vähentää datan tutkimuksellista arvoa.

Joskus periaatteessa julkinenkin tieto jätetään julkaisematta internetissä, koska pelätään muodotonta yksityisyys- ja tietoturvauhkaa. Tieto on saatavilla esimerkiksi virastosta kysymällä, mutta sitä ei haluta julkaista internetiin. Täytyy muistaa, että viime kädessä datan poistaminen saatavilta on ekvivalenttia sen hävittämisen kanssa. Data, joka ei liiku, on arvotonta.

Organisatorinen avoin data

Isommissa yrityksissä avoimia rajapintoja ja avointa dataa pitäisi periaatteessa suosia samaan tapaan sisäisesti kuin julkishallinto suosii omien tietojensa avaamista. Esimerkiksi organisatoriset selvitykset ja mittarit pitäisivät oletusarvoisesti olla avoimia ja saatavilla organisaation sisällä, mutta usein tieto jätetään hapantumaan jonkun levyn kulmalle. Need-to-know-basis on juurtunut ajattelutapa monessa organisaatiossa, vaikka periaatteessa kuitenkin ymmärretään miksi tiedon kulun parantamisesta voisi olla hyötyä.

Yritysten sisäiset tietojärjestelmät eivät pääsääntöisesti vieläkään tue ja julkaise avoimia rajapintoja yrityksen sisään, joiden avulla voitaisiin esimerkiksi automatisoida projektien hallintaa ja mittareita.

Avoimen datan tilanne Suomessa

Dataa on lähdetty avaamaan kiitettävästi erityisesti julkishallinnon toimesta, mutta yritykset eivät ole löytäneet vielä suoria ansaintamalleja datan avaamisesta. Yritykset mielellään käyttävät hyväksi saataville asetettua dataa ja datalähteitä, mutta eivät useinkaan löydä pakottavia syitä oman datansa avaamiseksi. Tämä on luonnollisesti vangin dilemma, jossa kaikki odottavat toistensa julkaisemaa dataa ja siitä hyötymistä, mutta julkaisusta koituvia kustannuksia ei haluta itse kantaa. Tätä on onnistuneesti kierretty liiketoimintakentän ympärille rakennetuilla yhteistyöverkostoilla, kuten ITS Factory.

Valtioneuvoston järjestää tänä vuonna Avoin Suomi 2014 -messut, joissa käsitellään avoimen tiedon mahdollisuuksia julkishallinnon ja liike-elämän näkökulmasta.

Maailmalla esimerkiksi Kaggle julkaisee jatkuvasti data-analyysikilpailuita, joissa organisaatiot ja yritykset julkaisevat omasta liiketoiminta-alueestaan kiinnostavaa dataa, josta halutaan kilpailuttaa analyyseillä uuttaa kiinnostavaa tietoa. Parhaan tuloksen saavuttanut kilpailija palkitaan tyypillisesti 10,000 - 25,000 dollarin rahapalkinnoilla.

Dataa voidaan julkaista myös ilman rahapalkintoja, jolloin julkaisija saattaa odottaa datan synnyttävän uusia sovelluksia ja palveluita ekosysteemiin, tai esimerkiksi uusia hyödyllisiä oivalluksia dataan liittyen. Tämä on erityisen hyödyllistä operaattoreille, jotka pyrkivät parantamaan hallitsemansa tai hyväksikäyttämänsä ekosysteemin houkuttelevuutta. Esimerkkeinä tällaisista ekosysteemeistä mainittakoon Android ja Facebook, joista molemmat hyötyvät ekosysteeminsä tarjoamasta avoimesta datasta.


comments powered by Disqus