R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Lukiovertailuista

Tänä vuonna STT toteutti ensimmäistä kertaa koko SUomen kattavan lukiovertailun siten, että siinä huomioitiin myös oppilaiden lähtötaso. Helsingin Sanomat uutisoi asiasta mm. 8.12.2012, ja vertailun aineisto on saatavilla HS:n uutisesta. Aiemmin lukiovertailut on tehty yksinomaan koulujen ylioppilaskirjoitusten keskimääräisiä puoltoääniä käyttäen. Lisäksi tiedostusvälineiden välillä on eroja: MTV3:n vertailussa on käytetty perinteisesti kaikkien aineiden puoltoäänten keskiarvoa, ja Helsingin Sanomien toteuttamassa vertailussa vain pakollisten aineiden puoltoäänten keskiarvoa.

Ylioppilaskirjoituksissa kirjoitetaan nykyisin neljä pakollista ainetta, ja oppilaan valinnasta riippuen myös vaihteleva määrä valinnaisia aineita. Kunkin aineen ylioppilaskokeesta voi saada 1-7 puoltoääntä, jotka vastaavat eri arvosanoja, ja suurempi on parempi. Puoltoäänet voi helposti muuttaa kouluarvosanaksi lisäämällä kunkin aineen puoltoääneen kolme, jolloin arvosanot vaihtelevat välillä 4-10. Näin on toimittu tämän vuotisessa STT:n toteuttamassa lukiovertailussa.

Aiempia vertailuja on arvosteltu siksi, että niissä ei ole huomioitu koulun oppilaiden lähtötasoja. Lähtötason huomioiminen kuulostaa järkevältä, mutta ongelmana on, ettei peruskoulun päättötodistus ole välttämättä koko valtakunnan tasolla vertailukelpoinen, koska sitä ei ole standardoitu. Jos kuitenkin oletetaan, että peruskoulun päättötodistus mittaa hyvin lähtötasoa, voidaan lukioiden oppilailleen antamaa lisäarvoa mitata vertaamalla ylioppilaskirjoitusten puoltoäänten keskiarvoa lähtötasoon. Oppilailleen eniten lisäarvoa antavilla kouluilla ero lähtö- ja päättötason välillä on pienin. Sanottakoon myös, että ylioppilaskirjoituksen puoltoäänten keskiarvokin on varmasti hyvä ja vertailukelpoinen mittari, sillä se mittaa vertailukelpoisesti kunkin koulun oppilaiden osaamista.

Kouluja voidaan siis verrata joko 1) niiden oppilailleen antamalla lisäarvon ja 2) oppilaiden osaamisen perusteella. Minusta näiden kahden vertailumenetelmän paremmuudesta on oikeastaan turha kiistellä, sillä ne mittaavat ainakin osittain eri asioita, ja molemmille on varmasti paikkansa ja tarkoituksensa.

Tämän pitkän johdannon jälkeen päästäänkin itse asiaan. Koulujen antaman lisäarvon mittaaminen käyttämällä oppilaiden peruskoulun päättötodistusten ja ylioppilaskirjoitusten puoltoäänten keskiarvojen erotusta ei ole ongelmatonta. Nyt STT:llä käytetyssä menetelmässä on nimittäin useita heikkouksia, joista mainitsen vain yhden. Se nimittäin arvottaa koulut yksinomaan eri todistusten keskiarvoissa tapahtuneen muutoksen perusteella, ja olettaa ilman muuta, että pienimmän negatiivisen muutoksen tuloksekseen saanut koulu on paras. Ongelma on, että koulut ovat eri kokoisia, ja vertailussa parhaiten menestyneet koulut ovat pienimmästä päästä, joten niiden tuloksissa voi myös odottaa olevan eniten vaihtelua. Seuraava R:ssä tuotettu kaavio kuvastaa asiaa:

# Kopioi ensin koko Excel-taulukko leikepöydälle
# AJa sitten seuraava komento
dat<-read.table("clipboard", header=T, sep="\t", dec=",")
plot(x=dat$Vuoden.kirjoittajamäärä, y=as.numeric(as.vector(dat$Keskiarvojen.muutos)), xlab="Vuoden kirjoittajamäärä", ylab="Keskiarvojen muutos", pch=16, cex=0.5, main="Lukioiden lisäarvo")
abline(h=mean(as.numeric(as.vector(dat$Keskiarvojen.muutos))), col="red", lwd=2)

Kuvasta näkyy erittäin selvästi, että lukioiden välinen vaihtelu pienenee, kun siirrytään pienemmistä lukioista suurempiin. Pienimmissä lukioissa on enemmän sekä erittäin hyvin että huonommin pärjänneitä lukioita kuin suuremmissa lukioissa. Tämä kuvastaa todennäköisesti vain sitä, että lukion mitattuun lisäarvoon vaikuttaa suuresti satunnaisvaihtelu, joka on pienemmissä lukioissa suurempaa kuin isommissa lukioissa.

Molemmat mittarit (osaaminen ja koulun antama lisäarvo) voidaan toki sijoittaa myös samaan kaavioon:

plot(x=as.numeric(as.vector(dat$Yo.tulos.kouluarvosanana)), y=as.numeric(as.vector(dat$Keskiarvojen.muutos)), xlab="YO-tulos kouluarvosanana", ylab="Keskiarvojen muutos", pch=16, cex=0.5, main="Lukioiden lisäarvo")
identify(x=as.numeric(as.vector(dat$Yo.tulos.kouluarvosanana)), y=as.numeric(as.vector(dat$Keskiarvojen.muutos)), labels=dat$Koulu, cex=0.75)

Kuvasta nähdään, että osaamiseltaan parhaat koulut eivät näyttäisi olevan samoja kouluja kuin lisäarvoltaan parhaat koulut. Näin voi toki olla, mutta epäilen pienten koulujen tapauksessa satunnaisvaihtelun olevan myös tärkeä tekijä. Samasta asiasta ovat argumentoneet mm. Wainer ja Zwerling vuonna 2006 artikkelissaan Evidence that smaller schools do not improve student achievement. Jos vertailua toteutetaan samalla tavolla myös tulevaisuudessa, voivat tällaiset usean vuoden seurannat myös selventää tilannetta.

HS:n haastattelemat asiantuntijat ovat sitä mieltä, että oppilaiden lähtötaso selittää suuren osan koulujen eroista. Tämä voikin päteä suurissa asutuskeskuksissa, kuten Helsingissä, mutta oppilaiden vanhempien, erityisesti äitien, koulutustaso näyttää koko maata tarkasteltaessa huomattavasti voimakkaammalta selittävältä tekijältä (Kuusela J, 2003, Lukioiden tuloksiin vaikuttavista tekijöistä). Suurissa asutuskeskuksissa koulujen välinen oppilasaineksen valikoituminen on suurta, ja aiheuttaa suuren osan koulujen välisistä eroista.

Asiassa ei varmasti vielä ole sanottu viimeistä sanaa, mutta henkilökohtaisesti toivoisin lukiovertailujen tilanteeseen selvennystä. Erityisen toivottavaa olisi, että jos vertailua halutaan jatkaa, se olisi etenkin menetelmällisiltä seikoiltaan sopivien asiantuntijoiden tukemaa tai toteuttamaa toimintaa.


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *