Big Data Suomalaisessa Teollisuudessa ja Liiketoiminnassa


2014-05-13, 11:48 Kirjoittanut Tero Keski-Valkama

Alkusanat

On aina haasteellista irrottaa itsensä välittömistä projektiaikatauluista ja päivittäisen tekemisen vaatimuksista, ja ottaa itselleen aikaa kirjoittaa blogiartikkeli.
Usein maiseman vaihto auttaa paljon, ja koska nyt on kaunis kevät Suomessa, harkitsin läppärini ja materiaalini viemistä kahvilan terassille, tai mahdollisesti kaupunginkirjastoon kunnollisen kirjoitusympäristön luomiseksi.

Päädyin kuitenkin varaamaan hiljaisen neuvotteluhuoneen itselleni ja aina luotettaville kuulokkeilleni; tämä on aina hyvä vaihtoehto.

Näyttää siltä, että Suomessa puhutaan varsin paljon Big Datasta, ja joka puolella kuulee miten tärkeää se on. Tästä huolimatta vain muutamia konkreettisia esimerkkejä on materialisoitunut käytäntöön, ja hyvin vähän on käytännössä tehty teollisuudenalojen ja yritysten ohjaamiseksi tähän uuteen tulevaisuuteen.

Ihmisiltä saa paljon syitä ja tekosyitä siihen miksi Big Data ei ole vielä kokonaan materialisoitunut. Joko kyse on asiantuntijoiden pienestä määrästä, liiketoimintamallin tai asiakkaan puutteesta, tai Big Data on yksinkertaisesti jonkun toisen ongelma. Oikea syy siihen miksi Big Data konkretisoituu niin hitaasti on vision ja aloitekyvyn puute. Visio, aloitekyky ja korkeammat aivotoiminnot korvataan usein mekanistisella kurssitarjooman valitsemisella insinööreille, kompetenssikehittämisen osana. Kuvitellaan, että varmasti muutama Hadoop-kurssi voi korvata teknologiastrategian.

Teollisuudenalat ja yritykset eivät ole vireessä tulevaisuuden suhteen, ellemme me pysty luomaan kirkasta visiota siitä mitä Big Data on ja ymmärtämään missä yrityksen paikka ja rooli on tässä visiossa, tulevaisuuden materialisoinnissa.

Tarkoitukseni on tässä artikkelissa kirkastaa Big Datan käsitteistöä, visiota ja nykyhetken tilannetta Suomessa. Jos olet kiinnostunut lisätiedosta tai laajemmasta yrityksellesi räätälöidystä kokonaisnäkemyksestä, ota rohkeasti yhteyttä Cybercomin advisory-tiimiin.

Big Data - Mitä se on oikeasti?

Big Datan käsite kehitettiin alun perin mediayhtiöiden kuten Google ja Yahoo toimesta, ja suurin osa esimerkeistä Big Datasta on tästä bisnesdomainista. Esimerkit puhuvat web-dokumenteista ja mainosten kohdentamisesta, PageRankista ja BigTablesta.
Yrityksille jotka toimivat eri liiketoiminta-alueilla jää käteen muutamia teknologioita pääasiassa NoSQL:lään ja cloudiin liittyen, mutta ilman selkeää visiota miten nämä työkalut ja Big Data ovat relevantteja muille liiketoiminta-alueille.

Linnunsilmäperspektiivistä katsoen Big Data tarkoittaa, että eksponentiaalinen datan määrän kasvu kaikilla alueilla johtaa tilanteeseen, jossa uusia tapoja hallita tätä dataa tarvitaan, ja jossa uusia tapoja hyötyä tästä datasta nousee esiin.

Big Datassa on muutama pääosa-alue jotka ovat kokemukseni mukaan relevantteja suomalaisille teollisuudenaloille ja yrityksille: Nopea Data, Suuret Määrät Olemassa Olevaa Dataa, NoSQL ja Cloud, Avoin Data, Syvä Data, ja Visualisaatio.

Big Data -segmentit

Nopea Data (Fast Data)

Nopea Data tarkoittaa dataa, joka kerätään sensoreilta tai tapahtumalähteiltä, ja jolla on ensisijainen datan käyttötarkoitus jossa data vanhenee ja muuttuu käyttökelvottomaksi nopeasti. Lasken myös lokit mukaan tähän luokkaan, koska lokiviestien ensisijainen käyttötarkoitus on lokiviestin aiheuttaneesta tapahtumasta ilmoittaminen mahdollisimman pian.

Tämä ei tarkoita etteikö datalla olisi mitään arvoa sen keräämisen jälkeen; usein historiallisella datalla on edelleen paljon käyttöarvoa syvemmän analyysin kautta, mutta sovellukset keskittyvät usein datan ensisijaiseen käyttötarkoitukseen. Hyviä esimerkkejä Nopeasta Datasta ovat teollisuuden prosesseihin liittyvät sensorit, älykkään liikenteen GPS-datalähteet, sekä video- ja äänivirrat. Monesti puhutaan myös pitkästä datasta (Long Data) kun halutaan korostaa pitkää historiaa; itse katson tässä Big Dataa hieman eri näkökulmasta.

Nopeassa Datassa on kaksi perushaastetta: Data täytyy tarjota kaikille kuluttajille nopeasti ja tehokkaasti, ja toisaalta datan kumulatiivinen määrä on hyvin suuri, joten sen tallentaminen vaatii erityisiä menetelmiä. Suomessa tällä hetkellä Nopea Data usein jätetään tallentamatta ja sen sisältämä arvo jää hyödyntämättä.

Monet lokit hävitetään, tai jätetään kentälle, vaikka esimerkiksi hissien käytön säännönmukaisuuksista voitaisiin saada uutettua liiketoiminnan kannalta arvokkaita oivalluksia.

Pitää huomata, että Nopean Datan lähteet ovat lähes aina hajallaan maailmassa, eivätkä tietoliikenneyhteydet ole välttämättä täydellisiä ja jatkuvia. Tämä luo erityisiä haasteita Fast Data -osa-alueelle.

On joitain teknologioita, jotka auttavat datan hajautumisen kanssa, riippuen datan tyypistä, määrästä ja datan kuluttajien tyypistä, esimerkiksi CDN, Rest/WebSocket ja XMPP.

Nopean datan talletus on usein riveittäistä, ja siihen voidaan käyttää perinteisiä Big Data -ratkaisuita. Niiden lisäksi on olemassa erityisratkaisuja tyypillisille käyttötapauksille, erityisesti lokidatalle, kuten ElasticSearch, Logstash ja Kibana -pino. Cybercomilla on erityisosaamista tällä alueella.

Suuret määrät olemassa olevaa dataa (Existing Data)

Joskus meillä on oikeasti jo isot määrät dataa valmiiksi kerättynä, ja tällä on potentiaalista arvoa jos vain saisimme tämän datan muotoon joka mahdollistaa analyysin. Tällainen data voi olla esimerkiksi: sairaaloiden potilaskertomukset, vanhat sukututkimusdokumentit, ja tuhannet lajittelemattomat ja unohdetut dokumentit verkkolevyillä ja Sharepoint-jaoissa.

Tämä data on usein dokumenttimuodossa, joskus paperilla tai vanhalla medialla. Data voi myös olla esimerkiksi ääni- tai videomuotoista. Jopa kokonaisia tiloja ja ympäristöjä voidaan ajatella olennaisesti datana ja digitoida ne Big Dataksi, kuten näemme arkeologisten kaivausten, turistikohteiden ja museoiden 3D-rekonstruktioissa.

Isojen olemassa olevien datamäärien digitoinnissa täytyy käyttää apuna tähän erikoistuneita yrityksiä, jotka ovat hyviä tietynlaisten datakuormien digitoinnissa. Näitä ovat esimerkiksi Microtask, joka on erikoistunut manuaalisen työn jakamiseen monille itsenäisille ihmisosallistujille. OCR (Optical Character Recognition) ja NLP (Natural Language Processing) tekniikat voivat auttaa eksplisiittisen rakenteen luomisessa, mahdollistaen jatkoanalyysin. Kun data on saatu Big Data -muotoon, arvoa voidaan johtaa tästä edelleen seuraavilla Big Data lähestymistavoilla.

NoSQL ja Cloud

Tämä on mahdollisesti parhaiten ymmärretty Big Data -vision osa-alue, koska näitä käytetään jo käytännössä kaikissa softataloissa. On helppoa nähdä miten monimutkaiset datajärjestelmät vaativat ympäristöt ja infrastruktuurin jonne ne voidaan asentaa, ja kovalevy-, flash-, sekä muisti kapasiteetit datan tallennusta varten. Usein vaaditaan myös laskennallista kapasiteettia tehokkaiden suorittimien ja GPU-instanssien kautta, erityisesti Syvän Datan kontekstissa.

Cybercom Cloud soveltuu erittäin hyvin Big Data sovelluksiin ja meillä on tähän liittyviä IaaS- ja PaaS-kokonaisuuksia.

Avoin Data (Open Data)

Suurin osa Big Datasta ei ole käytännössä saatavilla, suljetuissa järjestelmissä ja unohdetuissa tietokannoissa. Usein taho, joka on vastuussa datan säilömisestä ei huomaa että dataa voisi ja se pitäisi avata yleiseen käytöön. Datassa on kuitenkin usein paljon potentiaalista arvoa, jota dataa säilyttävä taho ei pysty itse hyödyntämään.

Avoin Data ymmärretään usein julkishallinnon dataksi, mutta siihen sisältyy myös paljon yksityistoimijoiden ja yksityisten organisaatioiden julkaisemaa dataa. Näiden organisaatioiden päättäjiltä vaaditaan Big Data -vision ymmärtämistä siten että he huomaavat miten heidän markkina-arvonsa lisääntyy datan avaamisen kautta.

Koska Open Data on pääasiassa monien julkisten datalähteiden yhdistämistä, tämän osa-alueen ytimessä ovat rajapinnat ja datafuusioteknologiat. Data- ja kyselyrajapintojen täytyy pystyä käsittelemään saapuvien kyselyiden määrä, ja mahdollistaa datan rikas yhdistely muiden internetin datalähteiden kanssa.

Datan yhdistely vaatii muun muassa luonnollisia avaimia (natural id) ja hyvin muodostettuja aikaleimoja (UTC) esiehtoinaan, ja datamallin suunnittelu on kriittinen aspekti Open Datassa. Kyselyrajapintojen täytyy sallia tulosten rikas suodattaminen, että dataa voidaan yhdistellä muiden datalähteiden kanssa lataamatta ulos koko tietokantaa joka kyselyllä. Teknologiat kuten REST ja RDF/Jena auttavat datan avaamisessa.

Julkiset API:t täytyy dokumentoida hyvin ja niitä täytyy mainostaa, muuten ne jäävät unohdetuiksi ja käyttämättömiksi.

Syvä Data (Deep Data)

Syvä Data viittaa arvoon, joka voidaan johtaa analysoimalla dataa laskennallisesti raskailla, dataintensiivisillä työkaluilla. Tämä arvo oli aiemmin ulottumattomissa, koska maailmassa ei ollut riittävästi laskennallista kapasiteettia sen uuttamiseksi. Tämä on hyvin analogista modernien kaivosmenetelmien kanssa, joilla voidaan hyödyntää resursseja jotka olivat aiemmin hyödyntämiskelvottomia.

Analyysi perustuu dataintensiivisiin algoritmeihin, ja se on usein muodossa jossa haetaan uusia, aiemmin tuntemattomia yhteyksiä ja säännönmukaisuuksia. Algoritmit voidaan karkeastiottaen jakaa virtaperusteisiin algoritmeihin, kuten map-reduce-combine, ja graafiperusteisiin algoritmeihin, kuten Markov Random Fields ja muut probabilistiset verkot, syvät neuroverkot ja semanttinen haku. Yhteistä algoritmeille on se, että ne ovat jossain mielessä hajautuvia.

Syvän Datan analyysissä voidaan käyttää erilaisia hajautettuja numeerisia menetelmiä ja työkaluja, kuten Pregel, Cloud GPU instanssit ja iteratiivinen map-reduce.

Tyypilliset sovellukset Syvälle Datalle ovat diagnostiikka, ilmapiirianalyysi (sentiment analysis), ja liiketoimintatietämys. Pitää huomauttaa, että ilmapiirianalyysiä ei pidä ymmärtää suppeassa muodossa pelkästään Twitter-syötteiden sisällön luokitteluna positiivisiin ja negatiivisiin viesteihin, vaikka se voi sitäkin tarkoittaa. Ilmapiirianalyysi liityy myös potentiaalisesti riskialttiiden tapahtumien etsimiseen potilaskertomuksista, ja yleisesti kaikkiin tapauksiin joissa halutaan lajitella dokumentteja positiivisiin ja negatiivisiin dokumenttien yleisen "maun" perusteella. Jatkaen samaa ajatusta, diagnostiikka ei tarkoita yksinkertaisesti lokien tallentamista ja analyysiä; se voi tarkoittaa myös mikrofoneilla mitattujen audiovirtojen tallentamista ja analyysiä, että löydettäisiin vikoja ennen niiden tapahtumista esimerkiksi rullaportaista, automaattisista ovista ja moottoreista.

Visualisaatio (Visualization)

Big Data vaatii uudenlaisia käyttöliittymäkonsepteja, komponentteja, paradigmoja ja metodologioita että pystyttäisiin esittämään datasta saatu lisäarvo käyttäjille; muuten lisäarvo on menetetty. Tätä varten on olemassa rikkaita ja dynaamisia, sekä 2D-, että 3D-orientoituneita interaktiivisia grafiikkakomponentteja, uudenlaisia 3D-käyttöliittymä työkaluja kuten Unity3D, ja laajennettu todellisuus (augmented reality) ja virtuaalitodellisuus (virtual reality) -käyttöliittymiä.

Datan esittämisen lisäksi käyttäjän täytyy pystyä käsittelemään dataa, sen projektioita ja parametreja interaktiivisesti. Jo yksinkertaisimmassa tapauksessa, jossa käyttäjä valitsee esimerkiksi näytettävän aikavälin pitkästä aikasarjasta dataa korostuu hyvän visuaalisen tiivistelmän tärkeys.

Datan visualisaatio on läheisessä suhteessa datan analyysiin, ja varsinainen analyysi ja uusien säännönmukaisuuksien löytäminen tapahtuu erilaisten näkymien kautta. Big Data -kontekstissa näkymät eivät ole triviaaleja ja staattisia, vaan äärimmäisen dynaamisia ja interaktiivisia sekä muokattavia taitoksia, projektioita, ryhmittelyjä, tiivistelmiä, korrelaatioita ja muunnoksia dataan.

Käyttöliittymäsuunnittelu Big Data -kontekstissa on hyvin sovellusalueriippuvaista työtä. Cybercom Design Studio pystyy luomaan ikkunoita korkeaulotteiseen dataanne ja tuomaan sen sisältämän arvon varsinaiseen hyötykäyttöön.

Big Data - Nykytilanne

Jotkut sanovat, että suurimmalla osalla yrityksistä on vain "ei niin isoa dataa". Tämä viittaa huomioon, että tutkimuksissa vain kolmasosalla yrityksistä jotka käyttävät Big Data -teknologioita on tietokantoja jotka ovat kooltaan yli 1 teratavua. Ilmiselvästi ongelma ei ole se, että dataa ei olisi olemassa; sitä ei vain vielä talleteta koska tallettamiselle ei ole löydetty välittömiä liiketoiminnallisia syitä. Tämä metriikka itse asiassa indikoi, että maailma ei ole vielä valmis, ja nämä yritykset eivät vielä kerää ja talleta kaikkea dataa josta ne voisivat hyötyä.

Tämän päivän Suomessa kehitetään nyt isoja sovelluksia kaikissa Big Data -osa-alueissa, monilla liiketoiminta-alueilla: terveydenhuollossa, älykkäässä liikenteessä, ja julkisessa Avoimessa Datassa.

Big Data - Välitön tulevaisuus

Käytän termiä välitön tulevaisuus alleviivatakseni sitä, että Big Data -visio kokonaisuudessaan on asia joka on tapahtumassa juuri nyt, eikä viiden vuoden sisällä.

On arvioitu, että kokonaisen ihmisgenomin sekvensointi maksaa 100 dollaria henkilöä kohti vuonna 2015. Suomalainen terveydenhuoltoala ei ole vielä käytännössä mitenkään pystynyt varautumaan tähän tulevaan muutokseen ja sen seurauksiin.

Todistamme kasvavaa aaltoa julkisten datalähteiden avaamisessa Avoimeksi Dataksi, osana Government 2.0 ja vastaavia visioita. Datan yhdistely ja sen arvo kasvaa jatkuvasti, koska datassa olevien yhteyksien määrä kasvaa eksponentiaalisesti avoimen datan määrään nähden. Tämä johtuu pelkästään siitä, että potentiaalisten yhteyksien määrä data-alkioparien välillä, joista siis voimme tehdä väitteitä, on jo toisessa potenssissa suhteessa data-alkioiden lukumäärään.

Lähitulevaisuudessa Avoin Data sisältää myös henkilökohtaista ja yksityistä Big Dataa, jaettuna kolmansille osapuolille OAuth-tyyppisten autorisointien avulla. Henkilökohtainen genomidata tulee olemaan keskeinen sovellus tässä trendissä, mutta trendi sisältää myös muita asioita, kuten henkilökohtaisen GPS-paikkadatan luovuttaminen kolmansille osapuolille mainosten kohdentamiseksi ja palveluiden mahdollistamiseksi.

Ohjelmistoteollisuus on asiantuntijan roolissa Big Datassa, ja sen vastuulla on evankelistojen käyttäminen potentiaalisten asiakkaiden ja kokonaisten liiketoiminta-alueiden kouluttamiseksi. Ohjelmistoteollisuuden on kommunikoitava Suomessa potentiaalisesta arvosta, jonka Big Data tuo saataville. Että voisimme antaa mielekästä ohjeistusta ja ohjausta, ohjelmistoteollisuuden täytyy pitää yllä intiimiä dialogia asiakasmarkkina-alueiden ja liiketoiminta-alueiden kanssa.

Big Data ei loppujen lopuksi ole pussillinen työkaluja; se on visio joka ohjelmistoteollisuuden täytyy realisoida.

Joitain linkkejä:

Big data Suomessa - Liikenne- ja viestintäministeriö

http://suomendata.fi/

Big Data muuttaa maailmaa - Talouselämä

Myöhästyikö Suomi big data -junasta? - Tietoviikko


comments powered by Disqus