R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Note to self

Logistinen regressio

Sisällys Mikä on logistinen regressio? Hieman teoriaa Vedonlyöntisuhde Vetosuhde Vetosuhteen tilastollinen testaaminen Logistinen malli Logistinen regressio R:ssä Aineisto Mallin sovittaminen Mallin sopivuuden mittarit Mallin tulosten tulkinta Mallin tulosten esittäminen Mallin ennusteiden muuntaminen todennäköisyyksiksi Ennustemallin toimivuuden arviointi Mallin valinta Mallien sovittaminen Mallien vertailu Automaattiset menetelmät Erikoistapauksia Ehdollinen logistinen regressio Firthin harhattomampi menetelmä Harrellin lrm-funktio Tulosten visuaalinen […]

Tags: , , ,

Posted in Note to self, R-ohjelmointi | No Comments »

KHO:n vuosikirjapäätökset

Korkein hallinto-oikeus (KHO) valvoo alempien viranomaisten lainkäytön oikeellisuutta, ja se käyttää ylintä tuomiovaltaa hallintolakiin liittyvissä asioissa. KHO julkaisee julkisia päätöksiään muun muassa vuosikirjapäätöksinä. Vuosikirjapäätökset ovat nykyisin kyseltävissä REST API:n kautta. Aineisto on julkaistu CC BY 4.0 -lisenssillä, ja tarkempiin käyttöehtoihin voi tutustua Oikeusministeriön, Aalto-yliopiston ja Edita Publishing Oy:n kehittämä Semanttinen Finlex datapalvelun käyttöehdot-sivulla. Katsotaanpa millaisia […]

Posted in Note to self, R-ohjelmointi, Skriptit | No Comments »

Kuvatiedoston tyypin tunnistaminen

Tämä(kin) postaus sai alkunsa pieleen menneestä visualisoinnista. Yritin alunperin tuottaa R:llä GIF-animaatioon tarvittavia kuvia, mutta onnistuin luomaan samaan kansioon joukon sekalaisia, eri tiedostomuodoissa olevia kuvatiedostoja, joissa ei tietenkään ollut edes tiedostopäätteitä. Piti siis selvittää, mitä kuvia oikein tulikaan generoitua… ImageMagick tunnistaa laajan valikoiman erilaisia kuvatyyppejä vaivatta. Koska se löytyi koneelta, kutsuin sitä suoraan R:stä kullekin […]

Posted in Note to self, R-ohjelmointi, Skriptit | No Comments »

Suomen kartta-aineistot Tilastokeskuksesta

Tilastokeskus tarjoaa avoimen rajapinnan, josta kartta-aineistoja voi siirtää omaan käyttöön esimerkiksi johonkin sopivaan paikkatieto-ohjelmistoon. Kartta-aineistoja voidaan ladata suoraan URL-osoitteiden kautta. Listan tarjolla olevista aineistoista saa avaamalla vaikkapa selaimessa seuraavan linkin: http://geo.stat.fi/geoserver/wfs?service=WFS&request=GetCapabilities&version=1.0.0 . Linkin takaa avautuu listaus aineistoista. Listauksen kentissä Nametagien välissä on kerrottu kunkin aineiston nimi. Kun nimi on tiedossa, itse tiedosto saadaan ladattua vaikkapa […]

Posted in Note to self, R-ohjelmointi | No Comments »

Using sqldf to manipulate data frames and SQLite databases

Sqldf is an R package that offers tools for manipulating tabular data. Tabular data can be either data frames or tables in a database. The next code collection goes through some common manipulations of the data frames covering both the canonical (base-R) and the sqldf ways to implement these manipulations. In addition, the last code […]

Posted in Note to self, R-ohjelmointi | No Comments »

Todennäköisyysfunktiot

R tarjoaa monien todennäköisyysjakaumien kanssa työskentelyyn erilaisia todennäköisyysfunktioita. Funktiot on pääsääntöisesti nimetty seuraavasti: dX – tiheysfunktio (probability distribution function, pdf) pX – kertymäfunktio (cumulative distribution function, cdf) qX – kvantiilifunktio rX – satunnaisgeneraattori jossa X on jakauman nimi, esimerkiksi norm (normaalijakauma), t (t-jakauma), f (f-jakauma) tai binom (binomijakauma). Aloitetaanpa funktiotyyppien läpikäynti käänteisessä järjestyksessä käyttäen t-jakaumaa […]

Posted in Note to self, R-ohjelmointi | No Comments »

Ovatko sanat anagrammeja – kokemuksia funktion kehittämisestä ryhmätyönä

Kokeilimme kolmeen pekkaan, mitä hyötyä voisi olla esimerkiksi R-funktioiden kehittämisestä ryhmätyönä. Valitsimme testiin yksinkertaisen esimerkin: toteutettavan funktion piti testata, ovatko sille syötteenä annetut merkkijonot keskenään anagrammeja. Anagrammeja ovat kaikki ne merkkijonot, jotka ovat permutaatioita samasta merkkijonosta, ja lisäksi muodostavat jonkin ymmärrettävän sanan. Siten esimerkiksi merkkijonot, jotka ovat eri mittaisia tai koostuvat eri kirjaimista eivät voi […]

Posted in Note to self, R-ohjelmointi, Yleistä | No Comments »

Sarjassamme ”vanha puusilmä tarinoi” – työtilojen lataamisesta eri ympäristöihin load()-funktiolla

Tiedättehän tilanteen, jossa työskentelee saman aineiston kanssa useina eri ajankohtina, ja jokaisen kerran jälkeen tallentaa R:n työmuistin sisällön .RData-tiedostoksi? Tällöin eri ajankohtina tallennetuissa tiedoistoissa on väkisinkin saman nimisiä objekteja. Jos haluaisi myöhemmin ladata samaan sessioon kahtena eri ajankohtana tallennetun .RData-tiedoston, tulee viimeisenä ladutun tiedoston sisältämistä objekteista nykyiseen sessioon vain tuo viimeisin versio, koska vanhemmat tulevat […]

Posted in Note to self, R-ohjelmointi | No Comments »

RODBC -yhteydet, kertaus

Lauri kirjoitti aiemmin kolme artikkelia (osa 1, osa 2, osa 3) RODBC-yhteyden luomisesta Microsoftin SQL Server-tietokantaan. Koska artikkelen julkaisemisesta on kulunut hieman aikaa, on pieni kertaus paikallaan. Seuraavassa on kommentoitu R-koodi, joka käy läpi tarvittavat SQL Server 2016:lle asennettuun Adventure Works-tietokantaan (asennusohje) kytkeytymiseen ja sen kyselemiseen liittyvät työvaiheet. ## Asennetaan paketti install.packages(”RODBC”) ## Otetaan paketti […]

Posted in Note to self, R-ohjelmointi | No Comments »

SQL Server 2016 CTP3 ja SQL Server R Services

Microsoft:in SQL Server 2016:stä on tällä hetkellä jaossa testiversio CTP3. Se tulee sisältämään uutuutena muun muassa R-tuen. Testataanpa, miltä CTP3 näyttää! Kokeiluversion asentaminen Mainitun kokeiluversion voi ladata Microsoftin sivuilta. Asennuspaketti on koooltaan melko massiivinen, mutta mukana tulevan wizard:in avulla asennus onnistuu kokonaisuudessaan alle tunnissa. Asensin tätä testiä varten SQL Server:stä paikallisen kopion omalle tietokoneelleni. Tällaisessa […]

Posted in Note to self, R-ohjelmointi | No Comments »