Big Data Suomessa - Nopea Data


2014-06-02, 12:41 Kirjoittanut Tero Keski-Valkama

Tämä on toinen kirjoitukseni aiheesta Big Data Suomessa. Aihe kaipaa kipeästi konkretialähtöistä käsittelyä, koska keskustelua dominoi edelleen Gartnerin hypesykli ja buzzwordien kilpatyöntö.

Nopea Data on Big Datan segmentti, joka pitää sisällään sensoriverkot ja lokit, videostreamit ja transaktiovirrat. Sitä karakterisoi datan ensisijainen käyttötarkoitus, joka ei itsessään vaadi datan talletusta. Data siis kerätään, sitä käytetään, ja sitten se tyypillisesti jätetään tallentamatta, siivotaan tai poistetaan.

Syynä Nopean Datan primäärisen käyttötarkoituksen jälkeen datan hävittämiseen ei ole se, että data olisi hyödytöntä tämän jälkeen, vaan yksinkertaisesti se että menetelmiä datan keräämiseksi ja tallentamiseksi ei ole toteutettu. Vasta lähivuosina tallennuskapasiteetti on saavuttanut riittävän alhaisen hinnan, että tämän kaltaisen datan tallettaminen ja hyödyntäminen on muuttunut kannattavaksi.

Monesti myös varsinaisen tuotteen tai sovelluksen toteuttamisen jälkeen huomio ja mielenkiinto laajempaan kuvaan hiipuu, ja yksinkertaisesti jää huomaamatta että tuotteen versiossa kaksi voitaisiin tiedot kerätä keskitetysti talteen.

Lokit

Suurin Nopean Datan yksittäinen käyttökohde on lokit. Jokainen tietojärjestelmä kerää aina jonkinlaisia lokeja, oli kyseessä sitten sulautettu kylmäaseman maksupäätejärjestelmä tai auton OBD-väylä ja ajotietokone. Tietysti myös perinteiset yritysten tietojärjestelmät ja web-palvelut keräävät lokeja, ja nämäkin jäävät usein pitkälti hyödyntämättä.

Operaattoreille lokit ovat osa ydinliiketoimintaa. Software-as-a-Service-liiketoiminnassa jokainen toimija on eräänlainen operaattori, jonka täytyy ennustaa käyttöä ja järjestää saavutettavuus.

Lokien hyödyntäminen perustuu pitkälti riskien hallintaan, tietoturvaan, käyttömäärien ja -tapojen seurantaan ja ennustettavuuteen, sekä huollon optimointiin.

Tietoverkkojen ja -järjestelmien monimutkaistuessa ja niiden palvelemien käyttäjien määrän lisääntyessä tietoverkkoturvallisuuden hallinta on muuttunut erittäin haasteelliseksi. Isojen valtioiden tiedusteluorganisaatioiden ja verkkorikollisten muodostama Advanced Persistent Threat aiheuttaa jatkuvan erittäin hienostuneiden hyökkäysten virran kaikkiin suuren profiilin kohteisiin. Näihin kuuluvat valtioiden perusinfrastruktuuri, maksuliikenne, teollisuuden tuotantojärjestelmät, sekä liikesalaisuuksia sisältävät järjestelmät.

Hyökkäysten tunnistaminen ja kokonaiskuvan saaminen on käytännössä mahdotonta pelkästään lokiviestejä silmäilemällä; lokia saattaa syntyä tuhansia rivejä sekunnissa, hajautettuna eri järjestelmiin. Tarvitaan automatiikkaa, joka oppii miltä näyttää normaali käyttö, ja joka ilmoittaa epätavallisista poikkeavuuksista. Lisäksi tarvitaan edistynyttä tiedon selailua ja visualisaatiota kokonaiskuvan saamiseksi.

Yhä kehittyneempien hyökkäysten tunnistamiseksi on käytettävä yhä heterogeenisempiä lokilähteitä. Esimerkiksi WLAN-tukiasemat ja Bluetooth-päätelaitteet pystyvät passiivisesti valvomaan alueelle tulevia tuntemattomia mobiililaitteita ja niiden kulkemista alueella. Tästä tiedosta voidaan lisäksi tehdä analyysiä ihmisten kulkemistavoista ja kävijämääristä ostoskeskuksissa tai vaikkapa julkisissa liikennevälineissä.

Lokien keräämisessä haasteena on usein talletuskapasiteetin lisäksi keskenään erilaiset lokien lähteet. Sen lisäksi, että on ratkaistava tapa, jolla esimerkiksi WLAN-tukiasemat lähettävät tietoja niiden alueella liikkuvista mobiililaitteista, on tämä data koostettava keskitettyyn paikkaan normalisoidussa muodossa metadatoineen, että dataa voidaan jälkeenpäin hyödyntää. On huolehdittava, että esimerkiksi tukiasemien sijaintitiedot tässä tapauksessa on talletettu johonkin, että talletettu tieto ei olisi täysin hyödytöntä.

Lokien latentin arvon käyttöönsaamisessa auttavat valmiit ohjelmistopinot pitkälle. Esimerkiksi LogStash, ElasticSearch ja Kibana ovat nykyään osa Cybercomin perustyökaluvalikoimaa web-palveluita toteutettaessa. Jokainen käyttötarkoitus on kuitenkin yksilöllinen, eikä one-size-fits-all pakettiratkaisuita ole.

Tietovirrat l. streamit

Maailmassa on jatkuvasti enemmän videokameroita, mikrofoneja, sekä erilaisia syötteitä sensoreilta ja mittalaitteilta. Monesti näiden tietovirtojen tallentamiseen vaadittava kapasiteetti on merkittävää, ja siksi näitä tietoja talletetaan edelleen vain kun tallettamisessa on tunnistettu suora liiketaloudellinen hyöty.

Modernit koneälyjärjestelmät mahdollistavat myös videokuvasta ja äänivirrasta oppimisen, ja esimerkiksi liukuportaiden tai automaattiovien rikkoutumista voidaan hyvin ennustaa automatiikalla joka kuuntelee sen toiminnasta aiheutuvaa ääntä. Kulunvalvontajärjestelmät ja kamerat voivat hälyttää epätavallisesta toiminnasta, jos näiden järjestelmien kouluttamiseksi on talletettu riittävästi dataa.

Erityisesti teollisuudessa olisi tärkeää tunnistaa tulevaisuuden automatiikan vaatimukset, ja jo nyt lähteä fasilitoimaan ja keräämään korpusta ja datavirtoja, että älykäs automatiikka voidaan ylipäätään toteuttaa kun sitä tarvitaan.

Videostreameja voitaisiin usein tallettaa myös esillepanotarkoituksessa esimerkiksi esitelmistä ja luennoista; jos esimerkiksi yliopistoluentoa, tapahtumaa, esitelmää, kurssia tai seminaaria ei talleteta ja sitä aseteta saataville nettiin, häviää sen sisältämä arvo olemasta, ja se jää hyötykäyttämättä. Usein näitä ei kuitenkaan kuvata tai talleteta koska ei ole vielä toteutettu palvelua jossa nämä voitaisiin julkaista. Näissä voidaan joskus käyttökohteesta riippuen käyttää hyväksi myös täysin julkisia videostreamauspalveluita, kuten Youtube, Vimeo, ja Bambuser, tai vaihtoehtoisesti toteuttaa oma palvelu pilveen riittävällä tallennuskapasiteetilla ja kaistanleveyskapasiteetilla. Näissä kannattaa joka tapauksessa huomioida sosiaaliset aspektit, joihin sisältyvät tykkäykset, kommentoinnit, jakamiset ja tagaamiset, vaikka kyse olisikin pelkästään organisaation sisäisestä palvelusta.

Nopean datan arkkitehtuuri

Seuraavassa kuvataan tyypillinen kehityskulku Nopean Datan arkkitehtuurille.

Fast Data, tyypillinen arkkitehtuurin kehityskulku.


Tyypillinen Nopean Datan arkkitehtuuri on jatkokehitystä olemassa olevaan välitöntä tilannekuvaa tarjoavaan järjestelmään. Kun kerätty data halutaan käyttöön, se täytyy keräillä monesta lähteestä ja tarjota edelleen dataa tarvitseville palveluille. Käytännössä usein tapahtumalähteet eli esimerkiksi lokia keräilevät laitteet on konfiguroitu lähettämään tapahtumaviestinsä keskitettyyn palveluun, että näitä viestejä voidaan selailla.

Tietolähde on ensin hyvä muuttaa publish-subscribe -perusteiseksi, että reaaliaikainen tieto voidaan välittää eteenpäin muillekin palveluille jotka sitä tarvitsevat. Käytännössä väliin voidaan lisätä tapahtumien välityspalvelu, johon jo olemassa oleva välittömän tilan näyttöpalvelu voi rekisteröityä kuuntelemaan tapahtumaviestejä.

Tähän tapahtumien välityspalveluun rekisteröityy kuuntelijaksi myös tapahtumien tallennuspalvelu, joka tallettaa tapahtumaviestit yhteen tai useampaan kantaan. Tässä esimerkkinä käytetään Hadoop:ia varsinaisen datamassan tallettamiseen, ja Redisiä nopeiden summarisointien luomiseksi, sekä monimutkaisiin tapahtumiin liittyviin triggereihin kuuntelijaksi rekisteröitymistä varten. Tällaisia triggereitä voisi olla esimerkiksi tietyn tapahtumatyypin tapahtuminen tietyssä tapahtumalähteessä, tai vaikkapa halutun geopositioalueen sisällä tapahtuva tapahtuma. Tällaisia heterogeenisiä nopea reaaliaikadata vs. pitkän ajan massadatan talletus data-arkkitehtuureita kutsutaan nimellä Lambda Arkkitehtuuri. Tässä voitaisiin käyttää hieman erilaisella arkkitehtuurilla myös esimerkiksi ElasticSearchia. Talletustapojen valinta riippuu datan luonteesta ja käyttötapauksista.

Lopulta tapahtumien analyysi- ja koostepalvelu koostaa erilaisia kyselyrajapintoja käyttöä varten. Hadoop-pinon map-reduce -tuki mahdollistaa melko vapaat kädet erilaisten post hoc suunniteltujen kyselyiden lisäämiselle. Kyselyrajapinnoissa kannattaa ottaa tehokkuusnäkökulmat huomioon, ja rajoittaa kyselyiden kokoa rajapinnasta riippuen siten, että kyselyiden tulosten koot pysyvät järkevissä rajoissa. Tämä on erityisesti Denial-of-Service -hyökkäysten näkökulmasta tärkeää.

Yhteenveto

Nopea Data on yksi tärkeimmistä Big Data -segmenteistä Suomessa ja myös maailmalla. Sen hyödyntämismahdollisuudet perustuvat pääsääntöisesti jo kerättävään dataan, jota ei kuitenkaan vielä talleteta muotoon jossa sen jatkohyödyntäminen olisi mahdollista.

Cybercomin Big Data Task Forcelta ja Cybercomin Cloudista löytyvät hyvät edellytykset Nopean Datan sisältämän latentin arvon käyttöönottamisen mahdollistamiseksi.


comments powered by Disqus