R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Seemingly unrelated regression (SUR) R:llä

Seemingly unrelated regressions (SUR) on ekonometrinen menetelmä, jossa aineistoon sovitetaan useampia regressiomalleja, joiden virhetermien välillä on korrelaatiota. SUR voidaan käsittää myös klassisessa mielessä paneelidatamenetelmäksi, ja se muistuttaa eräiltä piirteiltään myös structural equation model (SEM) -malleja. R:ssä tällaisen mallin voi sovittaa systemfit-paketin funktioilla. Paketti antaa myös mahdollisuuden testata mm. erilaisia hypoteeseja mallien parametrien estimaattien suhteesta. Otetaanpa […]

Posted in Note to self, R-ohjelmointi | No Comments

Robusti regressio ja robustit keskivirheet

Robustilla regressiolla tarkoitetaan yleensä menetelmää, joka ei ole esimerkiksi tavanomaisen lineaarisen regression tapaan yhtä herkkä poikkeaville havainnoille. R:ssä robustin regression voi sovittaa esimerkiksi MASS-paketin funktiolla rlm(). Funktio sovittaa lineaarisen regression käyttäen M-estimaattoria, joka on selitetty hyvin Cross Validated -palstan keskustelussa. M-estimaattori on robusti vastemuuttujassa oleville poikkeaville havainnoille, muttei välttämättä selittävien muuttujien poikkeaville havainnoille. Jos mallin […]

Posted in R-ohjelmointi | No Comments

Lisätoiminnallisuuksia tekstinlouhintaan: entiteettien tunnistaminen ja ontologioiden käyttö

Olen useasti aiemminkin kirjoittanut suomenkielisen tekstin tekstinlouhinnasta R:ää käyttäen. Aiemmat funktioni on julkaistu GitHub-repositoryssä TextMining, mutta päätin muuttaa funktiot toimimaan merkkijonovektoreilla, ja uudet funktiot löytyvät repositorystä TextMining2. Mukana on suurin osa aiemman funktiokokoelman toiminnallisuuksista, mutta uusiakin on tullut mukaan. Nykyisillä funktioilla voi tehdä suomenkieliselle tekstille stemmauksen lisäksi myös lemmatisointia (preprocessText()-funktion argumentti lemmatization) ja tunnistaa lauseenjäseniä […]

Posted in R-ohjelmointi | 2 Comments

Category