R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

huhtikuu, 2016

Todennäköisyys, että raportoitu löydös on oikea

Viime aikoina olen kuullut keskustelua siitä, että joka ikisen analyysin yhteydessä pitäisi ilmoittaa todennäköisyys, että löydös on väärä. Ilmeisesti keskustelu ei ole koskenut p-arvoa, vaan nimenomaan väärän johtopäätöksen todennäköisyyttä, mikä tekeekin asiasta hieman kinkkisemmän. P-arvohan on frekventistisen tilastotieteen käsite, joka ilmoittaa toistetun otannan tilanteessa sen frekvenssin, jolla havaittua testisuureen arvoa äärevämpiä arvoja esiintyy, jos nollahypoteesi […]

Posted in Aiheeton | No Comments »

Muistatteko nopean fread() -funktion? Nyt sillä on kaverikin: fwrite()!

R:n laajennuspaketissa data.table on funktio fread(), jolla suurienkin tekstitiedostojen lukeminen R:ään onnistuu suhteellisen nopeasti. Nyt funktiolle on tullut aisapariksi funktio fwrite(), jolla tekstitiedostojen kirjoittaminen onnistuu nopeasti. Kirjoitusfunktio on paketin uusimmassa kehitysversiossa,joka asennetaan seuraavasti: library(devtools) install_github("Rdatatable/data.table") Asennus vaatii Rtools-työkalustosta paikallisen asennuksen. Otetaanpa esimerkki, miten data.table-paketin funktioita käytetään. Latasin airlines-aineistosta vuoden 2008, ja poimin siitä 1 000 […]

Posted in R-ohjelmointi | No Comments »

Elämä viikkoina esitettynä

Miltä näyttää keskimääräinen suomalaisen ihmisen elämä viikkoina havainnollistettuna? Katsotaanpa. Mainittakoon alkajaisiksi, että tämä havainnollistamistapa sai alkunsa, kun yritin selvittää vuoden viikkoja päivämäärien perusteella. Tämä onnistuu nähtävästi R:ssä helposti esimerkiksi seuravalla koodilla: as.numeric(format(as.Date(2016-04-18″), ”%V”)). Tässä muodostettavan kuvion esitystapa noudattelee löyhästi usein epidemiologiassa käytettyjä tapoja. Niissä havainnollistetaan yksiköitä (henkilö, aika, yms.) yksittäisinä symboleina, jolloin luonnollisten frekvenssien hahmottaminen […]

Posted in Grafiikka, R-ohjelmointi | 1 Comment »

Palkansaajan verokorttilaskentaa R:ssä

Mikä on verokortti? Verokortti on asiapaperi, jonka palkansaaja toimittaa työnantajalleen. Verokortissa on mainittu palkansaajan veroprosentti, jonka perusteella työnantaja suorittaa palkasta ennakonpidätykset ja muut säädetyt maksut. Loppuosan palkasta työnantaja maksaa palkansaajalle. Jos vuoden aikana tehdyt ennakonpidätykset eivät kata koko veronmaksuvelvollisuutta, muodostuu palkansaajalle (verovelvolliselle) jäännösveroa, joka pitää joka tapauksessa maksaa myöhemmin. Jos taas palkasta on pidätetty liikaa […]

Posted in R-ohjelmointi | No Comments »

Sarjassamme ”vanha puusilmä tarinoi” – työtilojen lataamisesta eri ympäristöihin load()-funktiolla

Tiedättehän tilanteen, jossa työskentelee saman aineiston kanssa useina eri ajankohtina, ja jokaisen kerran jälkeen tallentaa R:n työmuistin sisällön .RData-tiedostoksi? Tällöin eri ajankohtina tallennetuissa tiedoistoissa on väkisinkin saman nimisiä objekteja. Jos haluaisi myöhemmin ladata samaan sessioon kahtena eri ajankohtana tallennetun .RData-tiedoston, tulee viimeisenä ladutun tiedoston sisältämistä objekteista nykyiseen sessioon vain tuo viimeisin versio, koska vanhemmat tulevat […]

Posted in Note to self, R-ohjelmointi | No Comments »

RODBC -yhteydet, kertaus

Lauri kirjoitti aiemmin kolme artikkelia (osa 1, osa 2, osa 3) RODBC-yhteyden luomisesta Microsoftin SQL Server-tietokantaan. Koska artikkelen julkaisemisesta on kulunut hieman aikaa, on pieni kertaus paikallaan. Seuraavassa on kommentoitu R-koodi, joka käy läpi tarvittavat SQL Server 2016:lle asennettuun Adventure Works-tietokantaan (asennusohje) kytkeytymiseen ja sen kyselemiseen liittyvät työvaiheet. ## Asennetaan paketti install.packages(”RODBC”) ## Otetaan paketti […]

Posted in Note to self, R-ohjelmointi | No Comments »