R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Lineaarinen ja Deming-regressio

Toisinaan tulee esille lineaarisen regression ja pääkomponenttianalyysin ero, tarkemmin sanoen kaksiulotteiseen avaruuteen sovitetun lineaarisella regressiosuoran ja pääkomponentin ero. Asiaa voi havainnollistaa esimerkiksi graafisesti. Alla oleva R-koodi

x <- rnorm(10000)
y <- x + rnorm(10000, mean=0, sd=0.5)
plot(y~x,pch=19,cex=0.5,xlab="Isän pituus (normitettu)",ylab="Pojan pituus (normitettu)", las=1)
r <- lm(y~x)
abline(r, col="#CC0000",lwd=3)
r <- princomp(cbind(x,y))
b <- r$loadings[2,1] / r$loadings[1,1]
a <- r$center[2] - b * r$center[1]
abline(a,b,lwd=3,col="#0066CC")
legend(x="topleft", lwd=c(3,3), col=c("#CC0000", "#0066CC"), legend=c("Lineaarinen regressio", "Pääkomponenttianalyysi"), bty="n")

tuottaa seuraavan kuvan, josta eri menetelmien tuottamien suorien erot ilmenevät:

Ero johtuu siitä, että lineaarisessa regressiossa virhetermit lasketaan y-akselin suunnassa, mutta pääkomponenttia muodostettaessa kohtisuoraan pääkomponenttia (tai sitä edustavaa suoraa) vastaan. Jos mallissa on vain yksi vastemuuttuja ja yksi selittävä muuttuja, kutsutaan pääkomponenttianalyysiä myös Deming-regressioksi tai ortogonaaliseksi regressioksi. Deming-regressiota suositaan toisinaan erityisesti siinä tapauksessa, että sekä vaste- että selittävän muuttujan mittauksiin sisältyy virhettä; lineaarinen regressio kun olettaa, että selittävän muuttujan mittaukseen ei sisälly virhettä tai se on ainakin varsin pientä. R:ssä Deming-regression voi sovittaa esimerkiksi MethComp -paketin komennolla Deming().


Category