R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Yleistä

Logistinen regressio

Sisällys Mikä on logistinen regressio? Hieman teoriaa Vedonlyöntisuhde Vetosuhde Vetosuhteen tilastollinen testaaminen Logistinen malli Logistinen regressio R:ssä Aineisto Mallin sovittaminen Mallin sopivuuden mittarit Mallin tulosten tulkinta Mallin tulosten esittäminen Mallin ennusteiden muuntaminen todennäköisyyksiksi Ennustemallin toimivuuden arviointi Mallin valinta Mallien sovittaminen Mallien vertailu Automaattiset menetelmät Erikoistapauksia Ehdollinen logistinen regressio Firthin harhattomampi menetelmä Harrellin lrm-funktio Tulosten visuaalinen […]

Tags: , , ,

Posted in Note to self, R-ohjelmointi | No Comments »

Logistisen regression ongelmatilanteita ja niiden ratkaisuja

Logistinen regressio on esimerkiksi epidemiologian tilastollinen perustyökalu. Katsahdetaanpa seuraavassa kahteen usein vastaan tulevaan ongelmaan ja niiden mahdollisiin ratkaisuihin. Ongelma 1: separaatio Tavanomainen logistinen regressio ajautuu ongelmiin erityisesti tilanteessa, jossa aineistossa on jonkin selittävän muuttujan suhteen selkeä separaatio. Separaatio tarkoittaa tilannetta, jossa jollakin (kategorisen) selittävän muuttujan arvolla tai selittäjien yhdistelmällä esiintyy vain toista vastemuuttujan arvoa. Separaation […]

Tags:

Posted in R-ohjelmointi, Yleistä | No Comments »

KHO:n vuosikirjapäätökset

Korkein hallinto-oikeus (KHO) valvoo alempien viranomaisten lainkäytön oikeellisuutta, ja se käyttää ylintä tuomiovaltaa hallintolakiin liittyvissä asioissa. KHO julkaisee julkisia päätöksiään muun muassa vuosikirjapäätöksinä. Vuosikirjapäätökset ovat nykyisin kyseltävissä REST API:n kautta. Aineisto on julkaistu CC BY 4.0 -lisenssillä, ja tarkempiin käyttöehtoihin voi tutustua Oikeusministeriön, Aalto-yliopiston ja Edita Publishing Oy:n kehittämä Semanttinen Finlex datapalvelun käyttöehdot-sivulla. Katsotaanpa millaisia […]

Posted in Note to self, R-ohjelmointi, Skriptit | No Comments »

Kuvatiedoston tyypin tunnistaminen

Tämä(kin) postaus sai alkunsa pieleen menneestä visualisoinnista. Yritin alunperin tuottaa R:llä GIF-animaatioon tarvittavia kuvia, mutta onnistuin luomaan samaan kansioon joukon sekalaisia, eri tiedostomuodoissa olevia kuvatiedostoja, joissa ei tietenkään ollut edes tiedostopäätteitä. Piti siis selvittää, mitä kuvia oikein tulikaan generoitua… ImageMagick tunnistaa laajan valikoiman erilaisia kuvatyyppejä vaivatta. Koska se löytyi koneelta, kutsuin sitä suoraan R:stä kullekin […]

Posted in Note to self, R-ohjelmointi, Skriptit | No Comments »

Kaksiarvoinen vaste ja lineaarinen regressio

Taloustieteissä mallia, jossa ennustetaan kaksiarvoista muuttujaa (0/1) lineaarisella regressiolla, kutsutaan nimellä linear probability model (LPM). LPM-mallissa todennäköisyyden kuulua luokkaan 1 ajatellaan kasvavan lineaarisesti vastemuuttujan arvojen kasvaessa. Tällöin on tietysti vaarana, että ennustettu todennäköisyys tulee suuremmaksi kuin 1, mikä on konseptuaalisesti hankalaa. Esimerkiksi biostatistiikassa tällaista mallia on myös perinteisesti pidetty hyvin huonona käytäntönä, koska monet menetelmän […]

Posted in R-ohjelmointi, Yleistä | No Comments »

Suomen kartta-aineistot Tilastokeskuksesta

Tilastokeskus tarjoaa avoimen rajapinnan, josta kartta-aineistoja voi siirtää omaan käyttöön esimerkiksi johonkin sopivaan paikkatieto-ohjelmistoon. Kartta-aineistoja voidaan ladata suoraan URL-osoitteiden kautta. Listan tarjolla olevista aineistoista saa avaamalla vaikkapa selaimessa seuraavan linkin: http://geo.stat.fi/geoserver/wfs?service=WFS&request=GetCapabilities&version=1.0.0 . Linkin takaa avautuu listaus aineistoista. Listauksen kentissä Nametagien välissä on kerrottu kunkin aineiston nimi. Kun nimi on tiedossa, itse tiedosto saadaan ladattua vaikkapa […]

Posted in Note to self, R-ohjelmointi | No Comments »

Matematiikkapulma

Sain linkin matematiikkapulmaan. Pulmassa on tarkoituksen ottaa neljä lukua, jotka koostuvat luvuista 1-4, ja löytää sellainen kunkin nelinumeroisen luvun permutaatioiden yhdistelmä, että näiden neljän luvun summaksi tulee tasan 9000. Siis esimerkiksi näin: 1234 1234 1234 1234 —— + 4936 Tässäkin tapauksessa asetetun ongelman voi toki ratkaista päättelemällä esimerkiksi seuraavasti: Yksikään numeroista 1, 2, 3, ja […]

Posted in R-ohjelmointi, Yleistä | No Comments »

Suuri veropäivä – osa 2: Power BI -raportti vuoden 2014 julkisista verotiedoista

Julkaistaanpa Suuren veropäivän kunniaksi tässä vielä julkisista verotilastoista laadittu interaktiivinen Power BI -raportti. Raportin tuottoon tarvittava aineisto on haettu PXWeb-rajapinnasta seuraavalla R-koodilla: ################## # Perusasetukset ##################   # Ladataan paketit library(pxweb) library(reshape2)   # Päivitetään API:t update_pxweb_apis() api_catalogue()   # Luetaan dataa # Tällä saa tarvittavat koodit toistamista varten d <- interactive_pxweb("vero")     #################### […]

Posted in Grafiikka, R-ohjelmointi, Yleistä | No Comments »

RStudio ja R Notebooks

RStudion esimulgaisuversiossa on uutena ominaisuutena R Notebook-toiminnallisuus. Muistikirjaominaisuuden ydinajatuksena on nivoa yhteen ohjelmointikieliset komennot, niiden tuottamat tulosteet ja näiden selväkieliset selitykset, tulkinnat ja muut vastaavanlaiset muistiinpanot. RStudion:n muistikirjat muistuttavat Pythonin Jupyter-muistikirjoja tai IPython-muistikirjoja. RStudio ei ole suinkaan ainoa tuote R-markkinoilla, vaan saatavilla on mm. Beaker Notebook ja rNotebook (github). RStudion R Notebooks -tutoriaali tarjoaa eväät […]

Posted in R-ohjelmointi, Yleistä | No Comments »

Using sqldf to manipulate data frames and SQLite databases

Sqldf is an R package that offers tools for manipulating tabular data. Tabular data can be either data frames or tables in a database. The next code collection goes through some common manipulations of the data frames covering both the canonical (base-R) and the sqldf ways to implement these manipulations. In addition, the last code […]

Posted in Note to self, R-ohjelmointi | No Comments »