Big Data Suomessa - Syvä Data


2014-10-03, 13:11 Kirjoittanut Tero Keski-Valkama

Syvä data

Syvä data on Big Datan osa-alue, jolla viitataan syvemmän merkityksen ja arvon kaivamiseen laajoista datavarannoista. Tyypillisesti kyse on datasta, joka koostuu esimerkiksi kuvista, äänestä tai videoista, tai muuten kompleksisesta ja vapaamuotoisesta sisällöstä kuten Twitter-viesteistä.

Analogisesti kaivos- ja öljynporaustekniikan kehittymisen kanssa, tietokone- ja ohjelmistotekniikan kehitys mahdollistaa merkityksen ja arvokkaiden syvällisempien yhteyksien johtamisen yhä syvemmältä datasta ja sen yhdisteistä. Jo aiemmin kerätystä datasta voidaan luoda uutta arvoa uusien menetelmien ja kapasiteetin avulla.

Datatiede, joka käsittelee datasta johdettavia syvällisempiä suhteita ja merkityksiä on laaja-alaista, ja siihen liittyy perinteisesti esimerkiksi signaalinkäsittelyn, keinoälyn ja tilastotieteen menetelmiä.

Sisällön ja merkityksen tunnistaminen signaalista

Dataa voidaan usein ymmärtää ja käsitellä signaalina, ja käyttää hyväksi signaalinkäsittelyn tilastollisia työkaluja. Signaalinkäsittelyssä vastaanotetun signaalin merkitys on sidottu kokonaismalliin, jossa lähtösignaali suodattuu ja sekoittuu tuntemattoman järjestelmän läpi kulkiessaan, ja vastaanotetusta signaalista pyritään johtamaan alkuperäinen signaali. Järjestelmää mallinnetaan usein tilastollisesti kohinaisena väylänä, jossa saattaa olla mukana myös monimutkaisempia vääristyksiä ja kuvauksia. Yleisemmällä tasolla ymmärrettynä haluttu merkitys, eli lähtösignaali, saattaa olla esimerkiksi tietyn osakkeen arvo ensi viikolla, ja vastaanotettuna signaalina on osakkeiden arvot ja muu metadata historiasta. Halutaan siis kourassa olevan datan avulla saada ennuste sille miten osakkeen arvo tulee käyttäytymään jatkossa.

Tilastollisen signaalinkäsittelyn menetelmillä voidaan löytää esimerkiksi sensoridatasta luokitukset tehdaslaitteen huoltotarpeesta tai vaikkapa henkilöauton kunnosta autokatsastuksessa, tai hylätä virheellisiä tuotteita liukuhihnalta tuotelinjastosta. Esimerkiksi tilastollinen inferenssi, regressiomalli, Principal Component Analysis (PCA) (ks. eigenface), tai Support Vector Machine (SVM) -menetelmät ovat yleisesti käytössä tilastollisessa data-analyysissä.

Diskreetit tilastolliset inferenssimallit

Monet datamenetelmät ovat ns. blackbox-järjestelmiä, jotka lähtevät tulkitsemaan dataa ilman ennakko-oletuksia sen sisäisestä rakenteesta. Näitä menetelmiä käytetään usein löytämään datasta sisäinen rakenne. Toisaalta maailmassa on paljon dataa, josta tiedetään jo lähtökohtaisesti paljon, esimerkiksi MRI-kuvat ihmisen sydämistä, tai avaruusteleskoopin ottamat kuvat avaruudesta. Datasta usein tunnetaan tarkasti minkätyyppistä virhettä se sisältää, ja mitä datassa näkyy. Ihmisen sydämen kolmiulotteisesta mallista voidaan haluta mitata automaattisesti esimerkiksi iskutilavuus, ja avaruusteleskooppikuvista voidaan haluta luokitella tietyntyyppisiä kohteita esimerkiksi niiden lämpötilan tai etäisyyden perusteella. Muita käyttökohteita ovat esimerkiksi kuvien segmentointi ja segmenttien luokittelu, ja generatiiviset mallit, joilla voidaan esimerkiksi paikata kuvista alueita saumattomalla sisällöllä.

Malliperusteisessa datan tulkinnassa meillä on lähtökohtaisesti olemassa a priori malli, joka haluttaa sovittaa havaittuun dataan. Tarkkaillusta kohteesta siis tiedetään jo paljon jo ennen datan tulkintaa. Tyypillisesti tämä malli, esimerkiksi normaalin sydämen 3D-malli, halutaan kuvata mitattuun data-avaruuteen, ja erilaisin pienimpien mahdollisten transformaatioiden ja distortioiden avulla sovittaa malli havaittuun dataan. Tämän jälkeen nämä distortiot ja transformaatiot ovat mallinnettuja sovitusparametreja, jotka kertovat meille syvällistä informaatiota mitatusta kohteesta, esimerkiksi juuri koehenkilön sydämen kunnon.

Diskreetteihin tilastollisiin inferenssimalleissa hakuavaruus mallin parametreille on usein valtava. Tämä aiheuttaa sen, että triviaaleilla brute force -algoritmeilla ei päästä mihinkään. Tällaisissa käyttökohteissa voidaan käyttää esimerkiksi graafileikkausalgoritmia energiaminimin hakemiseen, ja erilaiset approksimatiiviset menetelmätkin, kuten simulated annealing voivat olla hyödyllisiä. Diskreeteissä algoritmeissa yleisnimenä ja sateenvarjokäsitteenä toimii yleisesti ottaen graafialgoritmit, ja minimoitavina energiafunktioina esimerkiksi Markov Random Field:it.

On olemassa myös ei-diskreettejä malliperusteisia menetelmiä, joita voidaan käyttää esimerkiksi datasignaalin puhdistukseen tietyntyyppisiltä häiriöiltä. Esimerkiksi Extended Kalman filttereitä voidaan käyttää fysikaalisten objektien paikkasignaalin siistimiseen mekanistisen fysikaalisen mallin perusteella. 

Keinoäly ja syvä data

Bioinspiroidut neuroverkot olivat pitkään melko kuihtunut tutkimuksellinen alue, koska tiettyjä skaalautumisongelmia ei saatu ratkaistua. Kuitenkin 00-luvun puolivälissä julkaistiin uusia menetelmiä ml. Geoffrey Hintonin toimesta, ja nyt neuroverkoista on kehittynyt yksi tärkeimmistä ja tehokkaimmista työkaluista syvän datan alueella. Myös laskentakapasiteetin nousu on antanut paljon uusia mahdollisuuksia neuroverkkojen hyödyntämiselle. Tärkeimpinä edistysaskelina modernien syvien neuroverkkojen kontekstissa on mainittava Deep Belief Network (DBN) ja esi-initialisaatio Restricted Boltzmann Machine (RBM) -menetelmin, sekä erilaiset edistysaskeleet Convolutional Neural Networks:ien saralla.

Neuroverkot perustuvat tilastolliseen malliin, jossa malli enkoodataan hajautetusti verkkoon neuroneita. Neuroneilla on tietty aktivoitumispotentiaali, ja ne on yhdistetty toisiinsa painokertoimellisten synapsien avulla. Neuroverkon toiminta on hyvin yksinkertaista sinänsä; dataa annetaan sisään neuroverkon sisääntuloneuroneille, jotka laskevat yksinkertaisella lineaarialgebralla aktivaationsa, ja antavat aktivaatiosignaalinsa eteenpäin seuraavan kerroksen neuroneille jos aktivaatiopotentiaali ylittyy. Neuroverkoista voidaan rakentaa erilaisia rakenteita, kuten Autoassociative Map -rakenteita semantic locality sensitive hash -toteutukseksi, tai esimerkiksi rekurrentteja neuroverkkoja ja näiden konvolutiivisia johdannaisia aikasignaalien käsittelyä varten. Varsinainen pihvi neuroverkoissa on kuitenkin niiden opetuksessa. Tarvitaan tehokas tapa säätää synapsien painoarvoja saadun opetusdatan perusteella.

Neuroverkkojen koulutukseen voidaan käyttää joko supervised, unsupervised tai reinforcement learning -menetelmiä, riippuen siitä onko valmiiksi tulkittua dataa saatavilla, ja millaisia määriä dataa on ylipäätään saatavilla. Yleisellä tasolla data kuitenkin jaetaan osioihin opetusdata, testausdata, ja validointidata, joilla ensin koulutetaan neuroverkko, sitten säädetään neuroverkon oppimisparametreja testausdatan avulla, ja viimekädessä validointidatalla validoidaan, että oppimisparametrien säätämisellä ei jouduttu overfitting-tilanteeseen. Neuroverkkojen opetuksessa on pidettävä huolta, että opitulla mallilla on vähemmän vapausasteita kuin syötedatalla, tai muuten malli pystyy yksinkertaisesti tallettamaan kaiken syötedatan sellaisenaan. Lisäksi on pidettävä mielessä, että neuroverkko tuskin voi löytää datasta sellaisia ominaisuuksia, joita siinä ei ole, eli jos koulutettu asiantuntija ei pysty auton moottorin painosta arvioimaan sen hintaa, niin ei pysty koulutettu neuroverkkokaan sen paremmin.

Syvän datan lähitulevaisuus ja Suomen tilanne

Syvät neuroverkot, syvä oppiminen ja syvä data ajavat tällä hetkellä voimakkaasti kehitystä muun muassa puheentunnistuksen ja kuvantunnistuksen alueella. Myös autonominen liikenne vaatii tämän kentän ratkaisuita. Asiantuntija-alojen etenevä ja kiihtyvä automatisointi ajaa myös osaltaan syvän datan trendiä eteenpäin. Kiinalainen Baidu palkkasi entisen Googlen tekoälytutkijan Yann LeCunin oman tekoälykeskuksensa johtajaksi. Euroopan Unionin Human Brain Project tähtää kokonaisten ihmisaivojen simulointiin vuonna 2023; tähän on investoitu rahaa miljardi euroa.

Finanssi- ja kaupan alan syvä data konkretisoituu kaoottisten markkinoiden ja kuluttajakäyttäytymisen yhä tarkempana ennustamisena ja mallintamisena. Teollisuuden syvä data realisoituu kaikkein keskeisimmin diagnostiikka- ja tietoturvakonteksteissa. Valtiollisen byrokratian automatisoinnissa ja päätöksenteon tukijärjestelmissä syvä data ja erityisesti sen visualisaatio on yhä suuremmassa merkityksessä. Big Datan visualisaatiosta lisää seuraavan kuun artikkelissa.

Suomessa syvään dataan ja syvään oppimiseen ei olla vielä juurikaan herätty, koska toisaalta ratkaisuja ei ole toimitettu koska niitä ei ole kysytty, ja ratkaisuja ei ole kysytty koska niiden olemassaolosta ei tiedetä. Kenttä tuntuu Suomessa odottavan suurten ulkomaisten toimittajien tuomia ratkaisuja, mutta tällä tavalla menetetään paljon potentiaalista liiketoimintaa. Kun syvä oppiminen alkaa nyt tekemään entryä Suomenkin markkinoille, on sillä kauaskantoisia ja hyvin käänteentekeviä vaikutuksia monelle alalle ja koko yhteiskuntaan. Tämän muutoksen kelkasta ei kannata pudota.


comments powered by Disqus