R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Todennäköisyys, että raportoitu löydös on oikea

Viime aikoina olen kuullut keskustelua siitä, että joka ikisen analyysin yhteydessä pitäisi ilmoittaa todennäköisyys, että löydös on väärä. Ilmeisesti keskustelu ei ole koskenut p-arvoa, vaan nimenomaan väärän johtopäätöksen todennäköisyyttä, mikä tekeekin asiasta hieman kinkkisemmän. P-arvohan on frekventistisen tilastotieteen käsite, joka ilmoittaa toistetun otannan tilanteessa sen frekvenssin, jolla havaittua testisuureen arvoa äärevämpiä arvoja esiintyy, jos nollahypoteesi […]

Posted in Aiheeton | No Comments

Muistatteko nopean fread() -funktion? Nyt sillä on kaverikin: fwrite()!

R:n laajennuspaketissa data.table on funktio fread(), jolla suurienkin tekstitiedostojen lukeminen R:ään onnistuu suhteellisen nopeasti. Nyt funktiolle on tullut aisapariksi funktio fwrite(), jolla tekstitiedostojen kirjoittaminen onnistuu nopeasti. Kirjoitusfunktio on paketin uusimmassa kehitysversiossa,joka asennetaan seuraavasti: library(devtools) install_github("Rdatatable/data.table") Asennus vaatii Rtools-työkalustosta paikallisen asennuksen. Otetaanpa esimerkki, miten data.table-paketin funktioita käytetään. Latasin airlines-aineistosta vuoden 2008, ja poimin siitä 1 000 […]

Posted in R-ohjelmointi | No Comments

Elämä viikkoina esitettynä

Miltä näyttää keskimääräinen suomalaisen ihmisen elämä viikkoina havainnollistettuna? Katsotaanpa. Mainittakoon alkajaisiksi, että tämä havainnollistamistapa sai alkunsa, kun yritin selvittää vuoden viikkoja päivämäärien perusteella. Tämä onnistuu nähtävästi R:ssä helposti esimerkiksi seuravalla koodilla: as.numeric(format(as.Date(2016-04-18″), ”%V”)). Tässä muodostettavan kuvion esitystapa noudattelee löyhästi usein epidemiologiassa käytettyjä tapoja. Niissä havainnollistetaan yksiköitä (henkilö, aika, yms.) yksittäisinä symboleina, jolloin luonnollisten frekvenssien hahmottaminen […]

Posted in Grafiikka, R-ohjelmointi | 1 Comment

Palkansaajan verokorttilaskentaa R:ssä

Mikä on verokortti? Verokortti on asiapaperi, jonka palkansaaja toimittaa työnantajalleen. Verokortissa on mainittu palkansaajan veroprosentti, jonka perusteella työnantaja suorittaa palkasta ennakonpidätykset ja muut säädetyt maksut. Loppuosan palkasta työnantaja maksaa palkansaajalle. Jos vuoden aikana tehdyt ennakonpidätykset eivät kata koko veronmaksuvelvollisuutta, muodostuu palkansaajalle (verovelvolliselle) jäännösveroa, joka pitää joka tapauksessa maksaa myöhemmin. Jos taas palkasta on pidätetty liikaa […]

Posted in R-ohjelmointi | No Comments

Sarjassamme ”vanha puusilmä tarinoi” – työtilojen lataamisesta eri ympäristöihin load()-funktiolla

Tiedättehän tilanteen, jossa työskentelee saman aineiston kanssa useina eri ajankohtina, ja jokaisen kerran jälkeen tallentaa R:n työmuistin sisällön .RData-tiedostoksi? Tällöin eri ajankohtina tallennetuissa tiedoistoissa on väkisinkin saman nimisiä objekteja. Jos haluaisi myöhemmin ladata samaan sessioon kahtena eri ajankohtana tallennetun .RData-tiedoston, tulee viimeisenä ladutun tiedoston sisältämistä objekteista nykyiseen sessioon vain tuo viimeisin versio, koska vanhemmat tulevat […]

Posted in Note to self, R-ohjelmointi | No Comments

RODBC -yhteydet, kertaus

Lauri kirjoitti aiemmin kolme artikkelia (osa 1, osa 2, osa 3) RODBC-yhteyden luomisesta Microsoftin SQL Server-tietokantaan. Koska artikkelen julkaisemisesta on kulunut hieman aikaa, on pieni kertaus paikallaan. Seuraavassa on kommentoitu R-koodi, joka käy läpi tarvittavat SQL Server 2016:lle asennettuun Adventure Works-tietokantaan (asennusohje) kytkeytymiseen ja sen kyselemiseen liittyvät työvaiheet. ## Asennetaan paketti install.packages(”RODBC”) ## Otetaan paketti […]

Posted in Note to self, R-ohjelmointi | No Comments

Tekstinlouhintaa R:llä, osa 3

Kirjoitin jo kahdesti [1, 2] aiemmin R:n tarjoamista tekstinlouhintamahdollisuuksista. Edellisen artikkelin kirjoittamisen jälkeen R:ään on ilmestynyt muutamia parannuksia, jotka poistavat riippuvuuksia ulkopuolisista ohjelmistoista. Lisäksi uusille toiminnallisuuksillekin on ilmennyt tarvetta ja funktioiden dokumentaatio on ollut surkuteltavassa tilassa. Nyt julkaistava uusin versio pyrkii parantamaan näitä kaikkia osa-alueita. Funktiot ja dokumentaatio Funktiot on tehty varta vasten suomenkielisen tekstin […]

Posted in R-ohjelmointi | No Comments

Alteryx ja R

Alteryx on muun muassa aineiston esikäsittelyyn, yhdistelyyn ja analysointiin soveltuva ohjemisto. Saman tyyppiä ohjelmistoja ovat mm. Knime ja RapidMiner, Taverna. Lisäksi myös esim. SPSS Modeller ja SAS Enterprise Miner tarjoavat työvuohon perustuvan työskentelytavan. Kirjoitin Alteryx:stä jo aiemmin, mutta ilmaisversio on sittemmin poistunut jakelusta, ja nykyisin tarjolla on vain ilmainen testiversio Alteryx Designer:sta. Olen viime aikoina […]

Posted in Muu ohjelmointi, R-ohjelmointi, Yleistä | No Comments

SQL Server 2016 CTP3 ja SQL Server R Services

Microsoft:in SQL Server 2016:stä on tällä hetkellä jaossa testiversio CTP3. Se tulee sisältämään uutuutena muun muassa R-tuen. Testataanpa, miltä CTP3 näyttää! Kokeiluversion asentaminen Mainitun kokeiluversion voi ladata Microsoftin sivuilta. Asennuspaketti on koooltaan melko massiivinen, mutta mukana tulevan wizard:in avulla asennus onnistuu kokonaisuudessaan alle tunnissa. Asensin tätä testiä varten SQL Server:stä paikallisen kopion omalle tietokoneelleni. Tällaisessa […]

Posted in Note to self, R-ohjelmointi | No Comments

Tilastokeskuksen verotilastot R:ään, osa 3 – infografiikkaa Suomen verojärjestelmästä

Kirjoitin jo aiemmin Tilastokeskuksen verotilastojen lukemisesta R:ään. Käytän niitä seuraavassa Suomen verojärjestelmän esittelemiseen. Suomen verotusjärjestelmä Suomen verotusjärjestelmä on periaatteessa hyvin looginen ja helppo. Verojen laskeminen menee nimittäin pääsääntöisesti näin: 1. Verotettavan tulon määrä lasketaan kussakin tulolähteessä. 2. Kunkin tulolähteen tulo jaetaan ansio- ja pääomatuloihin. 3. Kaikkien tulolähteiden ansiotulojen ja pääomatulojen määrät lasketaan yhteen. 4. Ansiotuloista […]

Posted in Grafiikka, R-ohjelmointi | No Comments