Suuret ja avoimet aineistot politiikan tutkimuksessa

Raimo Muurinen
Kirjoittaja on valtio-opin opiskelija Tampereen yliopistossa.

"Datan määrän räjähdysmäinen kasvu on vaikuttanut “big datan” käsitteen yleistymiseen. Sitä ei yleensä käytetä viittaamaan mihinkään tarkkaan määrään dataa, vaan käsite on monin tavoin suhteellinen."

Alustus! Politiikan tutkimus on perinteisesti nojautunut laadullisiin menetelmiin, ja lähinnä vaalitutkimus on poikennut sen valtavirrasta tukeutumalla määrälliseen tutkimusotteeseen. Asetelman syy saattaa juontua aineistojen saatavuudesta. Sellainen inhimillinen toiminta, jota politiikan monimutkaiset vuorovaikutusverkostot ja ilmiöt edustavat, taipuu vaivoin määrällisesti mitattaviksi suureiksi ja muuttujiksi. Vaalit muodostavat kuitenkin erityisen poikkeuksen tähän säännönmukaisuuteen.

Teknologian moninaisen hyödyntämisen yleistyminen ihmisten ja organisaatioiden päivittäisessä käytössä on käynnistänyt politiikan tutkimuksen kannalta mielenkiintoisten aineistojen saatavuuteen liittyvän muutoksen. Yleisemmin ilmiötä on kutsuttu tietoyhteiskuntakehitykseksi, informaation vallankumoukseksi tai -aikakaudeksi ja digitalisaatioksi. Tälle ajalle on ominaista, että ihmisten välinen vuorovaikutus ja viestintä on teknologian välittämää. Niinpä jo suuri ja yhä kasvava osa inhimillisestä toiminnasta on digitaalista tietoa, dataa, joka on myös määrällisesti tarkasteltavissa.

Tässä alustuksessa tarkastellaan ensin big datan ja avoimen datan käsitteitä ja niiden kautta sitä, minkälaisia aineistoja laskennallisia menetelmiä hyödyntävässä politiikan tutkimuksessa Suomessa on viime aikoina käytetty.

Muotisanoja vai määriteltyjä käsitteitä?

Data on digitaalisessa muodossa esiintyvää informaatiota. Sitä esiintyy tallennettuna kovalevyille, usb-­muistitikuille tai cd-­levyille. Datan määrää mitataan tavuina (engl. byte), ja yksi tavu koostuu kahdeksasta bitistä, jotka ovat arvoltaan joko ykkönen tai nolla. Bittien binäärinen, numeerisesti ilmaistava “joko-tai” ­luonne linkittyy terminologisesti digitalisaation käsitteeseen, joka viittaa laskemiseen.

Konkreettiset esimerkit auttavat datan havainnollistamista, ja niitä löytyy runsaasti verkosta. Keskimääräinen englannin kielen sana vaati viisi tavua tallennustilaa, matalaresoluutioinen valokuva vie 100 kilotavua, raamatullinen tekstiä 4 megatavua ja ihmisen genomi 750 megatavua, joka mahtuu yhdelle cd-levylle. Yksi elokuva vie noin 5­7 gigatavua tallennustilaa, joka löytyy DVD-levyltä. Huomionarvoista on se, että ääni ja kuva, erityisesti liikkuva kuva, vievät moninkertaisesti tallennustilaa tekstiin verrattuna. Vertailun vuoksi akateemisen kirjaston sisältö ottaisi 2 teratavua. Vuonna 2014 Facebook kertoi puolestaan keräävänsä jopa 600 teratavua käyttäjädataa päivässä. (Holmes 2005; Rouse 2008; Vagata ja Wilfong 2014).

Datan määrän räjähdysmäinen kasvu on vaikuttanut “big datan” käsitteen yleistymiseen. Sitä ei yleensä käytetä viittaamaan mihinkään tarkkaan määrään dataa, vaan käsite on monin tavoin suhteellinen. Yksi määritelmä on, että kun perinteiset laitteistot, tietojärjestelmät, tietokannat ja ohjelmistot eivät kykene käsittelemään aineistoja, ainakaan inhimillisesti siedettävillä käsittelyajoilla, aletaan puhua big datasta. Tämä lähestymiskulma on luonnollisesti sidoksissa teknologiseen kehitykseen, tarkemmin tietokoneiden laskentatehoon ja ohjelmistojen käsittelykykyyn, jotka käytännössä paranevat ajan myötä. (Quora 2016; Stack Overflow 2016; Wikipedia: Big data 2016).

Toinen määritelmä tarkastelee datan ominaisuuksia, niin kutsuttua kolmea v:tä: tilaa (volume), nopeutta (velocity) ja moninaisuutta (variety). Perinteisen tilan lisäksi päivitystahti, esimerkiksi videon suoratoistolähetyksessä eli striimauksessa, kasvattaa nopeasti resurssien tarvetta. Moninaisuutta esiintyy esimerkiksi sosiaalisen median päivityksissä, jossa saattavat yhdistyä teksti ja kuva sekä ääni ja videot, jolloin yksi perinteinen tietokanta ei taivu eri sisältömuotojen käsittelyyn ­varsinkaan silloin kun viestejä lähetetään miljoonia tunnissa. Jotkut määrittelevät big datan dataksi, jonka käsittely vaatii hajautettuja järjestelmiä. Kriittisemmästä näkökulmasta, big dataa pidetään yksinkertaistavana markkinointiterminä, joka ei tarkoita mitään eksaktia informaatioteknologian kanssa työskenteleville.

Määrän ohella toinen olennainen datan ominaisuus on sen saatavuus, johon liittyy avoimen datan käsite. Avoimen datan käsitteen määritelmät vaihtelevat hieman eri lähteissä, mutta yhteistä niille on yleensä se, että data on teknisesti ja luvallisesti kenen tahansa vapaasti käytettävissä, mikä sisältää oikeuden edelleen jakaa ja julkaista muunneltuja tuotoksia. Vapaa käyttö tarkoittaa pääsääntöisesti maksuttomuutta. Useimmat avoimen datan käsitteen määritelmät sisältävät vaatimuksen, jonka mukaan julkaisija ei julkaisun jälkeen aseta mitään rajoituksia jatkokäytölle muita kuin korkeintaan vaatimuksen julkaista työt samalla avoimuuden säilyttävällä lisenssiehdolla. Joissakin tapauksissa määreet “kenen tahansa” tai “mihin tahansa käyttötarkoitukseen” vaihtelevat ja jotkut saattavat viitata avoimina myös sellaiseen dataan, jonka käyttöehdot kieltävät kaupallisen käytön tai rajaavat käyttötarkoituksia tai käyttäjäkuntaa muutoin tai vaativat esimerkiksi rekisteröitymistä tai muuta sopimuksenvaraisuutta. (Poikola ym. 2010; Pollock 2014).

Politiikan tutkimuksen uudet aineistot

Todennäköisesti suurin ja käytetyin politiikan tutkimuksen uusi aineistolähde tulee sosiaalisen median keskusteluista. Kansainvälisesti suosituin lähde lienee Twitter. Suomessa Aller oy herätti huomiota julkaisemalla Suomi24 -sivuston keskustelut epäkaupalliseen tutkimus­ ja opetuskäyttöön. (Lagus, Pantzar, Ruckenstein & Ylisiurua 2016). Maailman ylivoimaisesti suurin käytön määrällä mitattu yksittäinen sosiaalisen median palvelu Facebook sen sijaan ei ole kokonsa veroinen aineistolähde. Vaikka osa käyttäjien päivityksistä on julkisia, ne eivät esimerkiksi ole ohjelmallisesti saatavilla palvelun rajapinnasta. (Laaksonen 2016). Twitterin viestit sen sijaan ovat, ja pääsääntöisesti ovat aina olleet.

Tweetit ovat hyvä esimerkki avoimesta datasta politiikan tutkimuksessa. Pääosa tweeteistä ovat sekä julkisia ja helposti luettavassa muodossa että avoimien rajapintojen kautta myös koneluettavassa muodossa ja siten hyvää raaka­ainetta laskennallisille tutkimusmenetelmille. Muutamat kymmenet tuhannet aktiiviset suomalaiset twiittajaat muodostavat verrattain pienen käyttäjäjoukon, varsinkin twitter­keskusteluaineistojen big dataksi luokittelemisen kannalta. Sen sijaan kansainväliset, yleensä englanninkieliset otokset voivat helposti kasvaa suuriksi ja jatkuvan päivittymisen ansiosta muodostaa loputtoman aineistolähteen.

Lisäksi valtiontalouden tarkastusviraston vuodesta 2009 alkaen keräämät vaali­ ja puoluerahoitusilmoitukset ovat muodostuneet varteenotettavaksi tutkimusaineistoksi vaalirahakohun seurauksena. Ilmoitukset ovat luettavissa verkkopalvelussa ja lisäksi virasto raportoi tarkastuksensa vaaleittain. (Valtiontalouden tarkastusvirasto 2016). Toinen uusi aineistolähde ovat vaalikone­aineistot. Erityisesti Helsingin Sanomat ja Yle ovat julkaisseet sekä ehdokkaiden että joissakin tapauksissa myös vaalikoneiden käyttäjien vastauksia avoimena datana. (Haakana 2011; Haakana 2012; Mäkinen 2011a; Mäkinen 2011b; Mäkinen 2015; Yle 2012; Yle 2016). Vanhin julkaistu aineisto on Helsingin Sanomien 2011 julkaisema eduskuntavaalien 2007 aineisto. Tämän jälkeen sekä Yle että HS ovat julkaisseet kaikkien eduskuntavaalien ja presidentinvaalien ehdokkaiden aineistot (Mäkinen 2011c.) Myös MTV on avannut presidentinvaalien 2006 aineistot (MTV 2006). Yksittäistapauksissa mediatalot ovat julkaisseet myös euro- ja kunnallisvaalien aineistoja.

Helsingin Sanomien ja Ylen vaalikoneaineistot ovat pääsääntöisesti tarjolla verkkosivuilla julkaistun linkin kautta suoraan palvelimelta ladattavina tiedostoina. Aineistojen lisenssit ovat tyypillisesti vapaasti tai ei-kaupallisesti käytettäviä, kunhan lähdeviite mainitaan muutettuja töitä julkaistaessa. Joissakin tapauksissa aineistojen käyttäminen edellyttää avaimen pyytämistä toimitukselta. Myös Yhteiskuntatieteellinen tietoarkisto on kerännyt samoja aineistoja ja jakaa niitä omassa Aila-palvelussaan, mutta huomattavasti rajoitetuilla käyttöehdoilla, joissa määritellään tarkkaan, minkä tasoiseen tutkimukseen aineistoja saa käyttää (Yhteiskuntatieteellinen tietoarkisto 2016).

Vain ehdokkaiden vastaukset sisältävät vaalikoneaineistot ovat tyypillisesti muutamien kymmenien megatavujen kokoisia, jolloin niistä puhuminen big datana ei välttämättä ole oikein oikeutettua. Sen sijaan käyttäjien vastaukset sisältävät aineistot ovat useita satoja megatavuja, ja hieman ohjelmasta ja koneesta riippuen aineistojen käsittely saattaa olla enemmän tai vähemmän sujuvaa. Esimerkiksi Helsingin Sanomien vuoden 2007 pakkaamaton 500­megatavuinen aineisto osoittautui ylivoimaiseksi OpenOfficelle ja suhteellisen tehokkaalle tietokoneelleni. Näin ollen ainakin yhden aiemmin mainitsemani näkökulman mukaan big datan käsitteen käyttäminen tällaisten aineistojen yhteydessä voi olla perusteltua.

Data ja demokratia

Ohjelmointitaitoiset voivat soveltaa nopeasti valmiita koodikirjastoja enemmän tai vähemmän soveltuviin aineistoihin tai kehittää omia ratkaisujaan, mutta tulkintojen validiteetin arvioiminen jää tutkijoiden oman aktiivisuuden varaan. Kun vielä ajan henki suosii nopeaa ja näyttävää tutkimustulosten viestintää, tieteellinen laatu voi joutua sivulliseksi uhriksi. Hyvä esimerkki ei-­ohjelmistotaitoisille suunnatusta data-aineistojen tutkimustyökalusta on Kielipankin Korp­käyttöliittymä, jolla voi analysoida suuria tekstiaineistoja. (Lagus ym. 2016). Tällaisia työkaluja toivoisi näkevän tulevaisuudessa myös politiikan tutkimuksen alueella. Se ei poista tutkijoiden tarvetta menetelmien ymmärtämiseen, mutta voi luoda siltaa ohjelmointiin ja eri substanssikysymyksiin erikoistuneiden tieteenharjoittajien välille.

Toinen erityisen mielenkiintoinen kysymys on vaalikoneiden ja sosiaalisen median aineistojen todistusvoima kansalaisten arvojen ja julkisen mielipiteen suhteen. Eri tutkijoiden ja tutkimushankkeiden työn alla on ratkoa menetelmiin liittyviä teknisiä ongelmia siitä, kuinka vaalikonedatasta ja sosiaalisen median keskusteluista jalostetaan niin sanottua kansan tahtoa, joka voitaisiin ilmaista esimerkiksi hallitusohjelman tai yksittäisten lakien muodossa. Aineistolähtöisyyden vastavoimaksi asettuvat kuitenkin luotettavuuteen ja edustavuuteen liittyvät kysymykset. Syrjiikö digikuilu vielä 2010-luvun lopulla joitakin ryhmiä tai ovat vaalikoneet tai sosiaalinen media itsessään tai niitä ylläpitävät mediatalot epädemokraattista vääristymää aiheuttava tekijä?

Olisi mielenkiintoista paneutua siihen, että kumpaa ihmiset vierastavat enemmän ­ äänestämistä vai verkkoa poliittisen mielipiteenilmaisun välineenä? Jos verkkoa ei nähdä ongelmana ja siirrytään miettimään aineistojen täyttä potentiaalia demokratian kannalta, voidaan asetelma pelkistää vaikka seuraavaan kysymykseen: kumpi on demokraattisempaa, johtaa hallitusohjelma suoraan vaalikone(id)en yli 200 000 vastaajan otoksesta vai että vajaan kolmen miljoonan äänestäjän tahto pelkistetään 200 edustajaan, joista vain pieni osa osallistuu eturyhmien edustajien ja korkeiden virkamiesten kanssa neuvottelemaan ja kirjoittamaan vaalikauden tavoitteita?

Nyt kun aineistoja alkaa olla yhä enemmän tarjolla ja menetelmät kehittyvät, olisi älyllistä epärehellisyyttä hyödyntää niitä vain puolueiden tai edustuksellisuuden ongelmien ratkaisemiseen ja jättää taustalla piilevä laajempi demokratian toimintaedellytysten ongelma huomiotta.

Tämä alustus on muokattu valtio-opin syventävien menetelmien kurssille kirjoitetusta esseestä, joka julkaistiin 29.9. lyhentämättömänä Louhos-blogissa.