R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Microsoft Excel tutkimusaineiston hallintavälineenä

Microsoft Excel tai jokin muu vastaavanlainen taulukkolaskentaohjelma lienee eräs yleisimmistä aineistojen tallentamiseen ja manipulointiin käytetyistä tietokoneohjelmistoista. Sitä voi mainiosti käyttää vaikkapa tutkimusaineiston hallintavälineenä, mutta käytännössä voi olla hyötyä, jos toisettavan tutkimuksen (”reproducible research”) ideoita sovelletaan datan hallinnassa. Toistettavan tutkimuksen ajatuksena on, että aineiston analyysin aikana tehdyt muokkaukset ja sovelletut menetelmät tulevat dokumentoitua sellaisella tarkkuudella, että tutkimus voitaisiin niiden perusteella toistaa.

R:ää käyttäen tämä onnistuu esimerkiksi seuraavia vaiheita seuraten (Christopher Gandrud, Reproducible Research with R and RStudio):

1. Dokumentoi kaikki!
2. Kaikki ovat tekstitiedostoja
3. Tiedostojen tulisi olla ihmisten luettavissa
4. Sido tiedostot toisiinsa
5. Suunnittele datan hallinta

Tähän voisi lisätä ainakin seuraavat kohdat:

6. Tallenna tiedostot avoimessa tiedostomuodossa
7. Versioi kaikki tiedostot

Exceliin vastaavat säännöt voisi pukea esimerkiksi seuraaviksi konkreettisiksi toimenpiteiksi:

1. Tallenna vain yhden projektin aineisto yhteen Excel-tiedostoon.
2. Pidä eri projektit tietokoneen levyjärjestelmässä eri hakemistoissa.
3. Dokumentoi jokaisessa vaiheessa tiedostoihin tekemäsi muutokset toiseen tiedostoon, esimerkiksi erilliseen tekstitiedostoon. Tämä on riskinhallinnallinen kysymys. Jos Excel-tiedosto rikkoutuu tai häviää, niin jäljelle jää toivottavasti edes tuo loki, josta tehdyt muutokset voi sitten nopeahkosti tehdä uudelleen. Dokumentoi myös tiedoston sisältö: mitä eri sarakkeissa on, ja missä muodossa niihin talletetut tiedot ovat.
4. Tallenna alkuperäinen, tutkimuksen aikana kerätty aineisto Excel-tiedostoksi (tai mieluiten sarkaineroteltuna tekstinä tai ODF-muodossa). Nimeä tiedosto nimellä RAW, koska tässä tiedostossa on alkuperäinen raaka-data, johon ei ole tehty mitään jatkomuutoksia. Eikä tehdä jatkossakaan (ks. seuraava).
5. Jos raakadata-tiedostoa on tarpeen editoida, tee siitä kopio (versionhallinta!), jonka nimessä on esimerkiksi versionumero (vaikkapa V3) tai vähintäänkin päiväys (esim. 2014-09-24). Aina kun editoit tiedostoa, tee sitä uusi kopio.
6. Nimeä lopullinen editoitu versio nimellä MASTER, koska tässä tiedostossa on analyyseissä käytetty korjattu ja koodattu aineiston versio.
7. Analyysejä varten tee MASTER-tiedostosta kopio tai vie aineisto käyttämääsi analyysiohjelmistoon. Jos editoit aineistoa esimerkiksi uudelleen koodaamalla muuttujia tai muunnut niitä muutoin, sovella versiointia myös siellä.
8. Jos haluaa olla aivan varma ettei RAW- ja MASTER-tiedostojen aineistoihin tule tehtyä muutoksia, suojaa aineiston sisältävät välilehdet salasanalla (ja hävitä salasana, jos uskallat).
9. Tiedostot kannattaa tallentaa turvalliseen paikkaan.

Yllä kuvatulla tavalla suurissa tutkimuksissa tiedostoja syntyy tyypillisesti kelpo joukko. Tältä välttyy tekemällä kaikki manipulaatiot jollakin ”skriptikielellä”, kuten R:llä. Työn kulku on myös helppo dokumentoida koodiin kommenteilla.

Minä noudatan tärkeiden projektien kanssa jokseenkin ylle hahmottelemaani toimintatapaa, mutta lähinä R:ää käyttäen. Asian voi varmasti hoitaa muillakin tavoin, mutta tärkeintä lieneekin pohtia, mikä on järkevin tapa hoitaa tällaiset asiat. Siihenhän voi vaikutaa esimerkiksi sekin, käyttääkö samaa aineistoa useampi henkilö, jolloin pitä myös pohtia, miten vältytään eri aineistoversioiden kaaokselta. Aiemmin olemme ratkoneet tätä esimerkiksi päättämällä yhdessä, millaisia muunnoksia aineistolle tehdään, ja sitten kaikki käyttävät samoja muunnoksia.

Millaisiakohan tapoja muilla mahtaa olla?


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *