Big Data Suomessa - Visualisaatio


2014-11-07, 19:19 Kirjoittanut Tero Keski-Valkama

MindTrek 2014 ja Open Knowledge Roadshow 2014

Kirjoitan Big Data -artikkelisarjani viimeistä artikkelia kahden Open Dataan liittyvän tapahtuman jälkimainingeissa. Sain mahdollisuuden osallistua MindTrek 2014 My Data/Big Data osioon kuulijana, sekä kävin pyörähtämässä myös Open Knowledge Roadshow 2014 -tapahtumassa. Tiivistäen voi sanoa, että MyData on voimakkaasti nousemassa yhtenä avaimena Big Datan konkretisointiin. Tämä ei ole kovin yllättävää, koska identiteetti on aina ollut keskeisin ontologinen käsite ja ensimmäinen käyttökohde kaikissa datafederaatioissa sosiaalisista graafeista RDF:ään, OpenId:stä Shibbolethiin. Myös datan avaaminen valtiollisella ja kunnallisella sektorilla on kasvava trendi ja parantaa järjestelmien integraatioita kunnallisella, valtiollisella ja Euroopan Unionin tasolla.

MyData - lähde: Liikenne- ja viestintäministeriö: My data - johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen

MyDatassa kuitenkin federoituvat ja skaalautuvat de-facto rajapintastandardit (vrt. RDF, SparQL, OAuth, XMPP), jotka mahdollistaisivat datalähteiden avoimen ja skaalautuvan ekosysteemin ovat vasta hakemassa muotoaan; olemme vasta astumassa kohti aggregaattorimallia. Datan avaamisessa julkisen sektorin toimijat ovat ottaneet edelläkävijän roolin, vaikka niiden avoimella datalla ja avoimilla rajapinnoilla ratkaisemat ongelmat löytävät vastinkappaleensa myös yksityisellä sektorilla.

Lopettelen kuukausittaisen Big Data artikkelisarjani tähän, ja jatkan mahdollisesti whitepapereiden merkeissä.

Lista Big Data -artikkeleistani tähän mennessä

Big Data Suomalaisessa Teollisuudessa ja Liiketoiminnassa

Big Data Suomessa - Nopea Data

Big Data Suomessa - Olemassa Oleva Data

Big Data Suomessa - NoSQL & Cloud

Big Data Suomessa - Avoin Data

Big Data Suomessa - Syvä Data

Big Data Suomessa - Visualisaatio

Bigdata.fi: Big Data Suomessa - Älykäs Liikenne

Big Datan visualisaatio

Aivojen näkökeskus aivojen takaosassa

Tämän artikkelin varsinainen aihe on kuitenkin Big Datan visualisaatio. Data on monessa käyttötarkoituksessaan hyödytöntä, ellei siitä saada viime kädessä projektoitua keskeistä tietoa ihmisen ymmärtämään muotoon. Ihmisen retina pystyy lähettämään aivojen näkökeskukseen tietoa 8960 kilobittiä sekunnissa. Aivojen näkökeskus uuttaa tästä kolmiulotteisen mallin näkökentän sisällöstä, joka rakentuu kolmesta värikomponentista, alueista, rajoista ja liikkeestä. Aivojen näkökeskus summarisoi varsinaista tietoa tästä kuvasta syvemmille aivojen osille. Aivojen syvemmille, tiedostavammille osille visuaalista informaatiota päätyy vain 100 bittiä sekunnissa. Tutkitusti ihminen pystyy lukemaan tekstiä parhaimmillaan noin 35 bittiä sekunnissa, siten, että tähän ei sisälly tekstin syvällisempää ymmärtämistä.

Miten siis pystymme representoimaan valtavia datamassoja ja -virtoja ihmisen rajallisille aivoille? Aivojen estimoiduista kaistanleveyksistä voisi päätellä, että yksi kolmiulotteinen liikkuva kuva vastaisi noin kolminkertaista lukemisnopeutta. Kuvan avulla informaatio voidaan myös usein kontekstualisoida tehokkaammin. Tällä ei kuitenkaan päästä vielä lähellekään Big Datan vaatimia datamääriä.

Visualisaation kaksi pääasiallista tehtävää on (1) tiedon summarisointi, sekä (2) tiedon esittäminen sellaisessa muodossa, että ihminen pystyy kontekstualisoimaan sen oikein eli assosioimaan saamansa informaation muuhun kokemukseensa. Tiedon esittäminen myös tekstuaalisessa ja numeerisessa muodossa on visualisaatiota, ja monesti pelkkä numeroarvo saattaa kontekstualisoitua ihmiselle paremmin kuin numeron perusteella piirretty palkki tai ympyrä. Visualisointimenetelmät on aina valittava tarkoituksenmukaisesti, eikä kaikkiin tilanteisiin sopivia hopealuoteja ole olemassa. Käytännössä visualisaation alueella käytettävissä oleva työkalupakki onkin valtava, ja alueen asiantuntijoille on kovat vaatimukset.

Tärkein metriikka datavisualisaation toimivuudelle on se, miten nopeasti ihminen saa visualisaatiosta irti tarvitsemansa tiedon. Jos datan asiakkaana on automaatiojärjestelmä tai kone, ei visualisaatiota tarvita; kone pystyy käsittelemään dataa luonnostaan valtavia määriä. Visualisaation kohde on ihminen, joten käytettävyys- ja käyttöliittymäsuunnittelu ovat keskeistä osaamista tällä alueella.

Datan summarisointi

OpenStreetMap data heatmappina

Kvantitatiivisesta datasta saadaan usein irti tavanomaisilla tilastollisilla menetelmillä erilaisia avainlukuja ja projektioita, keskiarvosta histogrammiin, piirakkadiagrammeista aikasarjakuvaajiin. Big Datassa on hyvin tärkeää esittää data supistetussa muodossa siten, että sen sisältämä informaatiomäärä pienentyy merkittävästi useissa suuruusluokissa, mutta siten, että säilytetään datasta haluttavat ominaisuudet näkyvillä.

Menetelmiä datan summarisointiin on esimerkiksi kategorisointi ja luokittelu, kohinan erottaminen signaalista, ja erilaiset diagrammit ja kuvaajat, joita voidaan tarkastella eri projektioakseleilla tai eri granulariteeteissa ja aikaväleissä. Histogrammit on myös ymmärrettävä laajasti siten, että esimerkiksi "tag cloud" on histogrammi nominaaliselle datalle, jossa tagin koko määräytyy tagia vastaavien kohteiden määrästä. "Heatmap" on histogrammi datasta projisoituna karttapisteisiin.

Summarisointi vaatii usein Big Datalla raskasta laskentaa, ja sen toteuttaminen reaaliaikaisena aiheuttaa omat haasteensa, joita usein ratkaistaan esilaskennalla, ja vaikkapa esirasteroinnilla.

Datan kontekstualisointi

Map of Internet

Kaikkein ilmiselvin esimerkki datan kontekstualisoinnista on tiedon piirtäminen kartalle. Jos data liittyy jollain tavalla maantieteellisiin paikkoihin, tai vaikkapa rakennuksen pohjapiirrokseen, voidaan se projisoida kartalle ja antaa lukijalle välitön käsitys siitä mihin paikkoihin data liittyy. Verrattuna GPS-koordinaattiin tekstinä, kartalla oleva indikaattori on paljon paremmin kontekstualisoitu.

Data voidaan joskus kontekstualisoida myös itsensä suhteen, ja järjestää esimerkiksi toisiaan muistuttavat korkeamman tason käsitteet lähelle toisiaan kaksi- tai kolmiulotteiseen kuvaajaan niiden edustaman datan perusteella. Graafidata, jossa käsitteet on kytketty toisiinsa semanttisin linkein voidaan esittää suhteessa linkitettyihin muihin käsitteisiin.

Reaaliaikaisen datan kontekstina toimii nykyhetki, jota voidaan representoida jatkuvasti päivitettävällä liikkuvalla esityksellä. Esimerkiksi Tweetping.net representoi Twitterin n. 6000 tweettiä sekunnissa poimimalla sieltä niin monen tweetin tiedot kuin se ehtii käsittelemään, ja näyttämällä ne reaaliajassa kartalla. Pidemmällä aikavälillä Tweetping.net koostaa tapahtumista heatmappia ja histogrammeja.

Kun dataa yhdistetään monesta heterogeenisesta lähteestä, kuten semanttisesta tietämysgraafista, kartasta, tapahtumalokeista ja esimerkiksi videokuvasta, jotka kaikki käsittelevät samaa tarkasteltavaa aihetta, toimivat nämä muut datalähteet kontekstina toisilleen. Tämä tarkoittaa sitä, että käytännössä käyttöliittymässä ne on näytettävä yhtä aikaa assosioituna toisiinsa.

Interaktiiviset käyttöliittymät

Dataa interaktiivisena 3D-esityksenä

Monesti dataa halutaan esittää enemmän kuin mitä ihminen siitä viime kädessä pystyy omaksumaan, ja etsiä datasta relevantit tekijät ikään kuin ihmisen ja koneen yhteistyössä. Tällöin on annettava ihmiselle tapa navigoida datan sisällä, porautua siihen syvemmälle, tarkastella sitä eri kulmista ja projisoida sitä eri tavoilla.

Datasfääri on kaukana ihmisen luonnollisesta elinympäristöstä, ja datan esittämiselle ja interaktiivisuuden toteuttamiselle haetaan usein paradigmoja ihmisen käytännön elämästä, kuten kirjan selaamisesta sivuittain, tai vaikkapa liikkumisesta eri näkymien välillä. Uudempia tapoja interaktiivisuuden toteuttamiseen on syntynyt esimerkiksi rajattomasti zoomattavien ja pannattavien kuvien kautta, laajennetun todellisuuden ja virtuaalitodellisuuden menetelmistä, avatareiden käyttämisestä, sekä jaetuista virtuaalitiloista.

Big Datan kontekstissa tärkeää on tietysti jokaisessa näkymässä erikseen näyttää data summarisoituna ja kontekstualisoituna mahdollisimman hyvässä muodossa. Interaktiivisuus tarkoittaa tämän lisäksi sitä, että on otettava huomioon käyttäjän vapausasteet dataan porautumisessa, ja näiden vapausasteiden kytkentä käyttöliittymän toimintoihin. Esimerkiksi diagrammiin zoomaaminen syvemmälle voi olla yksi vapausasteista, joka voitaisiin kytkeä kahden sormen kosketusnäyttöeleeseen.

Käyttöliittymän toimintoja rajoittaa käytetty rajapinta, oli se sitten mobiililaite tai Oculus Rift. Perinteinen multiplatform-ajattelu on johtanut siihen, että yritetään tuottaa käyttöliittymäparadigmoja, jotka voidaan projisoida monelle erilaiselle alustalle. Tästä on esimerkkinä esimerkiksi Windows 8, jossa ydinkäyttöliittymä on sama sekä tabletti, että pöytäkoneille. Tämä johtaa luonnollisesti siihen, että käyttöliittymän mahdollistamia toimintoja ei voida käyttää täysin kattavasti, koska on tuettava myös käyttäjiä joilla on erilaiset päätelaitteet. Kuitenkin esimerkiksi HTML5-standardi sisältää rajapinnat esimerkiksi mobiililaitteiden orientaatio- ja liikeinformaation lukemista ja käyttämistä varten, vaikka esimerkiksi pöytäkoneilla ajettavissa selaimissa näitä toimintoja ei voi käyttää. Trendi on selkeästi takaisinpäin kohti spesialisoituja käyttöliittymiä nyt kun käyttöliittymien suuret yhteiset nimittäjät ovat jo konvergoituneet, ja kun mobiililaitteet, sekä uudet virtuaalitodellisuuden ja laajennetun todellisuuden laitteet mullistavat käyttöliittymät ja interaktiivisuuden moodit.

Dataan toteutettavia porautumisen vapausasteita syntyy eri tavoilla. Summarisoinnin menetelmistä syntyy inherentti tarve porautua summarisaation sisään, esimerkiksi kategorian valitsemalla halutaan usein porautua kategorian sisältämiin alikategorioihin. Myös kontekstualisoinnin kautta syntyy vapausasteita siten, että kontekstissa on voitava liikkua, esimerkiksi karttaa on voitava tarkastella eri paikoissa ja eri etäisyyksillä. Semanttisessa käsitegraafissa halutaan usein liikkua käsitteiden välillä. Monesta eri datalähteestä yhdistetyssä näkymässä voidaan haluta valita joku tietty hälytystapahtuma lokista, ja nähdä välittömästi videokuva tältä hetkeltä.

Datan kanssa interaktio ei ole aina pelkkää selaamista ja lukemista, vaan dataa halutaan usein myös käsitellä ja muokata. Isojen datamäärien muokkaaminen on hyvin haasteellinen alue, jota lähimmäksi tällä hetkellä päästään keskikokoisilla datamäärillä videoeditoinnissa ja 3D-mallinnuksessa. Datan muokkaaminen lisää vapausasteita selaamisen vapausasteiden päälle. Usein operaatiolle halutaan määritellä erilaisia pisteitä, esimerkiksi alku- ja loppuaikoja datasta. Videoeditoinnissa alku- ja loppupisteet valitaan aikajanalta esimerkiksi videon osan leikkaamista tai muuntamista varten. 3D-mallinnuksessa voidaan isoja operaatioita toteuttaa esimerkiksi proseduraalisen mallinnuksen tai teksturoinnin keinoin. Isojen data-aineistojen muokkaus ja käsittely on kuitenkin vielä tällä hetkellä alkutekijöissään.

Yhteenveto

Big Datan visualisaatio on tärkeää kaikissa Big Datan käyttökohteissa joissa datan asiakas on ihminen, tai jossa ihmisen työtä tarvitaan datan käsittelyn osana. Käytettävyyden ja käyttöliittymäsuunnittelun ammattilaiset ovat keskeisessä asemassa Big Datan visualisoinnin toteutuksissa, ja tämä lisää uusia vaatimuksia näille ammattialoille. Visualisoinnissa on pidettävä mielessä datan merkitykselliset summarisaatiotavat, datan konteksti, sekä dataan kohdistuvan interaktion vapausasteet.

Linkkejä ja Referenssejä

My data - johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen

Estimates of quantified human sensory system throughput

Reading Rates and the Information Rate of a Human Channel

Helsinki Regional Transport Authority (www.hsl.fi): one day of activity


comments powered by Disqus