Big Data Suomessa - Olemassa Oleva Data


2014-07-07, 16:45 Kirjoittanut Tero Keski-Valkama

Vernor Vingen vuoden 2006 kirjassa Rainbows End kuvattiin suurvaltojen välistä kilpavarustelua. Tässä ei kuitenkaan olut kysymys ydinaseiden keräämisestä, vaan Big Datasta. Kirjan suurvallat olivat tunnistaneet suuren latentin arvon, joka sisältyy ihmiskunnan koottuun kirjallisuuteen kirjoitetun historian alkuajoista nykypäivään.
 
Hypoteettisesti yhdistämällä kaiken paperille kirjoitetun tiedon yhteen, voi johtaa paljon ymmärrystä maailmasta ja ihmiskunnasta, jota ei välttämättä alkuperäisteoksissa itsessään ole välittömästi näkyvissä. Humanistisilla tieteenaloilla tämä on kirjallisuustutkimuksen ja synteesin olemassaolon syy.

Nykyiset hankkeet

Kirjan kirjoittamisen aikana Google oli aloittelemassa Google Books -projektiaan joka nykyään käsittää yli 30 miljoonaa skannattua ja indeksoitua teosta. Project Gutenberg, joka perustettiin vuonna 1971, ja joka nykyään sisältää yli 45 000 public domainiin päätynyttä vanhaa kirjaa tekstimuodossa on maailman vanhin digitaalinen kirjasto.
 
Nämä digitaaliset kirjastoprojektit ovat definitiivisiä esimerkkejä olemassa olevan datan digitoinnista. Vanhat historialliset dokumentit, kuten kirkonkirjat ja matkustajalistat ovat muun muassa sukututkimuksen kannalta hyödyllisiä, ja esimerkiksi Ancestry.com tarjoaa näiden pohjalta palveluita yksityisille kuluttajille jotka ovat kiinnostuneita sukujuuristaan.
 
Olemassa olevaa dataa digitoidaan, kuratoidaan, indeksoidaan ja fuusioidaan, että saataisiin arkistoissa ja varastoissa oleva latentti arvo hyödynnettyä erityisesti tiedon saatavuutta ja yhdisteltävyyttä parantamalla. Jos arkistoissa makaavan datan ajatellaan olevan luonteeltaan käsitettävissä kokoelmana faktoja, ja näitä faktoja löytyy arkistoista N kappaletta, niin kahden faktan suhteista voidaan esittää uusia väitteitä – näiden kahden faktan suhteiden määrä on suhteessa N:n toiseen potenssiin. Kun datan yhdisteltävyyttä ja hakua parannetaan, sille löytyy paljon uusia käyttökohteita ja datan ja sen johdannaisdatan efektiivinen hyötykäytettävissä oleva määrä kasvaa voimakkaasti.

Google on ymmärrettävistä syistä yksi isoimmista toimijoista olemassa olevan datan indeksoinnissa, ja Google Booksin lisäksi kannattaa nostaa esiin Google Maps, Google Earth ja Google Street View, joissa karttoja, ympäristöjä, teitä, ja kaupunkeja digitoidaan indeksoitavaksi ja linkitettäväksi dataksi. Se, että Street Viewissä skannaus tehdään normaalin kirjaskannerin sijasta autoon asennetulla laserilla ja 360-asteen panoraamakameralla, ja kirjan sivujen sijasta skannataan rakennusten julkisivuja, ei merkittävästi muuta toiminnan luonnetta ja perustavaa tarkoitusta. Tampereen kaupunki on myös havainnut digitaalisen kaupunkikuvan hyödyt, ja esimerkiksi Google Earth sisältää Tampereen alueelta useiden rakennusten 3D-malleja, ja Virtual Tampere -palvelu tarjoaa esimerkiksi matkailijoille lyömättömän tavan löytää mielenkiintoisia paikkoja, ilmakuvia ja merkittävien nähtävyyksien sisätiloja Tampereen alueelta.

Olemassa olevan datan digitointi ja kuratointi on edelleen pitkälti manuaalista tai osittain automatisoitua ihmistyötä, vaikka tekoälyt ja automaattinen tekstintunnistus ovatkin jatkuvasti kehittyneet ja vallanneet alaa. Crowdsourcing voi auttaa isojen datamäärien käsittelyssä, mutta se vaatii tehtävien jakamista sopivan kokoisiin ja -tyyppisiin osiin. Vihamielisen tiedon syöttäminen täytyy jollakin tavalla estää, ja tehtävien on peleistyttävä hallittavaksi ja käyttäjiä viihdyttäväksi kokonaisuudeksi. Toimijoita olemassa olevan datan digitoinnissa käyttäen hyväksi crowdsourcingia ovat esimerkiksi Amazon Mechanical Turk, ja suomalainen MicroTask.

Olemassa olevan datan liiketoimintamahdollisuuksia

Tulevaisuudessa meitä ympäröivän pervasiivisen, ja olemassa olevan datan digitointi ja fuusio tulee jatkumaan läpäisten yhä uusia kohteita ja käyttötarkoituksia. Esimerkiksi kaupan alalla puhutaan tällä hetkellä Omni-channel myynnistä, jossa yhdistetään verkkopalveluiden ja fyysisten kauppapaikkojen brandi ja myyntikanavat yhteen, mutta vähemmän on herätty tästä seuraavaan askeleeseen; kauppaympäristöjen digitointiin; vieläkään ei ole olemassa laajassa käytössä kaupparakennuksen sisäisiä kävelynavigaattoripalveluita, jotka suunnittelevat kaupassakävijän reitin tarvittavien tavaroiden paikkojen perusteella. Vieläkään vähittäiskaupassa myytävien tuotteiden perustuote- ja valmistustietoja ei ole digitoitu kuluttajien käyttöön ja saataville laajoissa määrissä. Data on olemassa, mutta sitä ei ole asetettu saataville.

Virtuaalinen toimisto on seuraava askel kulunvalvonnassa ja työtilojen käytön optimoinnissa ja älykkäiden toimistotilapalveluiden kehityksessä. Toimistorakennusten pohjapiirrosten pitäisi olla virtuaalisia ja linkitettäviä 3D-malleja, joihin on helppo viitata ohjeistuksissa ja palaverivarauksissa. Tilojen hallinnoijan pitäisi saada helposti tieto siitä paljonko työntekijöitä on missäkin paikalla ja näin saada ajantasaista ja hyödyllistä tietoa tilojen käytöstä. Toimiston käyttäjien pitäisi pystyä löytämään yhdellä silmäyksellä langattomat verkkotunnukset, neuvotteluhuoneiden ja tulostimien paikat ja ominaisuudet, ja mahdollisten sen hetkisten vierailijoiden käyttämät alueet. Kaikki tämä pervasiivinen tieto on olemassa, mutta sitä ei ole vielä digitoitu, ja asetettu linkitettäväksi ja yhdisteltäväksi.

Vastaavasti asuntorakennuksissa asumisen sähköiset palvelut, ja esimerkiksi valtiollisten ja kunnallisten toimijoiden läpinäkyvyystavoitteet perustuvat suurelta osin olemassa olevan tiedon asettamiseen saataville. Myös periaatteessa ihmisen genomi on olemassa olevaa dataa, jota ei ole suurelta osalta suomalaisista vielä digitoitu ja otettu hyötykäyttöön.

Olemassa olevan datan lähitulevaisuus


Olemassa olevan tiedon käyttöön ottamiseen liittyvät olennaisesti yksityisyys, tiedon käytön autorisointi, rajapinnat, Avoin Data, ja crowdsourcing. Datan digitointi vaatii tarkoituksenmukaista kuratointia ja erityisesti tieto jossa on salassapitovaatimuksia tulee käsitellä hallitusti.
 
Tulevaisuudessa data, joka ei ole digitoitu ja asetettu yhdisteltäväksi ja linkitettäväksi verkon yli tulee jatkuvasti menettämään hyötyarvoaan kun sen presenssi siellä jossa sitä tarvittaisiin - verkossa - efektiivisesti pienenee. Tämä aiheuttaa jatkuvan paineen muuttaa dataa ja tietoa sellaiseen muotoon, jossa se on myös tulevaisuudessa käyttökelpoista, ja joka myös mahdollistaa uusia käyttötapoja ja latentin arvon käyttöönottamista.

Ohjelmistoteollisuus on erityisasemassa auttamassa muita teollisuudenaloja tunnistamaan Big Datan mahdollisuudet ja tarjoamaan kokonaisratkaisuita. Tämä vaatii laajaa ymmärrystä asiakkaiden ja muiden teollisuudenalojen tilanteesta ja lainalaisuuksista, eikä siiloutuminen puhtaasti tilattujen ja määriteltyjen ohjelmistojen toimittajaksi ole toimiva strategia.


comments powered by Disqus