R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Shiny – palvelinpään ratkaisut

Shiny on R-paketti, jolla voi helposti tehdä esimerkiksi erilaisia käyttöliittymiä, interaktiivisia visualisointiratkaisuja ja Dashboard-esityksiä. Sovellusten ajaminen paikallisesti Shinyllä tehtyjä ratkaisuja voi ajaa paikallisesti joko RStudio IDE:n kautta tai suoraan R:stä. Paikallisten sovellusten jakaminen on helppoa, sillä käyttäjän koneella tarvitsee olla vain R ja tarvittavat paketit, sovellus voidaan sitten jakaa esimerkiksi organisaation sisäisestä sovellusvarastosta (repository) tai […]

Posted in R-ohjelmointi | No Comments

OCR R:ssä

Olen aiemmin kirjoittanut PDF-tiedostojen käsittelystä tekstinlouhinnan yhteydessä. CRAN:sta löytyvällä pdftools-paketilla on siis mahdollista poimia tekstiä sellaisesta PDF-tiedostosta, jossa teksti on koodattu tekstimuotoon. Toisinaan koko PDF-tiedosto on kuitenkin tallennettu kuvaksi tai kuvina. Tällöin tekstin poimiminen ei ole yhtä suoraviivaista, vaan tiedoston sivut pitää ensin käyttää jonkin Optical Character Recognition (OCR) -työkalun kautta. R:n käyttäjille asiaan on […]

Posted in R-ohjelmointi | No Comments

Suomen kartta-aineistot Tilastokeskuksesta

Tilastokeskus tarjoaa avoimen rajapinnan, josta kartta-aineistoja voi siirtää omaan käyttöön esimerkiksi johonkin sopivaan paikkatieto-ohjelmistoon. Kartta-aineistoja voidaan ladata suoraan URL-osoitteiden kautta. Listan tarjolla olevista aineistoista saa avaamalla vaikkapa selaimessa seuraavan linkin: http://geo.stat.fi/geoserver/wfs?service=WFS&request=GetCapabilities&version=1.0.0 . Linkin takaa avautuu listaus aineistoista. Listauksen kentissä Nametagien välissä on kerrottu kunkin aineiston nimi. Kun nimi on tiedossa, itse tiedosto saadaan ladattua vaikkapa […]

Posted in Note to self, R-ohjelmointi | No Comments

Matematiikkapulma

Sain linkin matematiikkapulmaan. Pulmassa on tarkoituksen ottaa neljä lukua, jotka koostuvat luvuista 1-4, ja löytää sellainen kunkin nelinumeroisen luvun permutaatioiden yhdistelmä, että näiden neljän luvun summaksi tulee tasan 9000. Siis esimerkiksi näin: 1234 1234 1234 1234 —— + 4936 Tässäkin tapauksessa asetetun ongelman voi toki ratkaista päättelemällä esimerkiksi seuraavasti: Yksikään numeroista 1, 2, 3, ja […]

Posted in R-ohjelmointi, Yleistä | No Comments

Suuri veropäivä – osa 2: Power BI -raportti vuoden 2014 julkisista verotiedoista

Julkaistaanpa Suuren veropäivän kunniaksi tässä vielä julkisista verotilastoista laadittu interaktiivinen Power BI -raportti. Raportin tuottoon tarvittava aineisto on haettu PXWeb-rajapinnasta seuraavalla R-koodilla: ################## # Perusasetukset ##################   # Ladataan paketit library(pxweb) library(reshape2)   # Päivitetään API:t update_pxweb_apis() api_catalogue()   # Luetaan dataa # Tällä saa tarvittavat koodit toistamista varten d <- interactive_pxweb("vero")     #################### […]

Posted in Grafiikka, R-ohjelmointi, Yleistä | No Comments

Suuri veropäivä

Tänään on Suuri veropäivä: Verohallinto on julkaissut henkilöverotuksen avoimia tietoja verovuodelta 2015 tiedotusvälineiden käyttöön. Tilastokeskus julkaisi vuoden 2015 palkkatilaston noin kuukautta aiemmin. Katsahdetaanpa näin veropäivän kunniaksi tilastojen eroihin. Tilastokeskuksen palkkatilastoon on sisällytetty vain kokoaikaiset palkansaajat (yli 90 % alan normaalista). Palkkatilastossa mainittuihin ansioihin ei sisälly lomarahoja. Verohallinnon verotilastoon on sisällytetty kaikki verovelvolliset. Palkkatilaston perusteella ei […]

Posted in Grafiikka, R-ohjelmointi | No Comments

Riskin visualisointi: esimerkkinä rokotukset

Kirjoitin jo aiemmin riskien visualisoinnista luonnollisia frekvenssejä käyttäen. Ylen Prisma Studion Näkökulmassa oli vastikään artikkeli, josta sain aiheen palata tällaiseen visualisointiin uudelleen. Artikkelissa nimittäin havainnollistetaan rokottamiseen ja rokottamatta jättämiseen liittyviä riskejä vertaamalla niiden suuruuksia noppapeliin. Riskien suuruuksien hahmottamisessa riskiteatteri voisi kuitenkin olla hyödyllinen lisätyökalu. Esimerkiksi todennäköisyyttä saada tuhkarokkorokotteesta verihiutaleniukkuus (trombosytopenia) kuvataan artikkelissa seuraavasti: ”Toisella kierroksella […]

Posted in Grafiikka | Kommentit pois päältä artikkelissa Riskin visualisointi: esimerkkinä rokotukset

RStudio ja R Notebooks

RStudion esimulgaisuversiossa on uutena ominaisuutena R Notebook-toiminnallisuus. Muistikirjaominaisuuden ydinajatuksena on nivoa yhteen ohjelmointikieliset komennot, niiden tuottamat tulosteet ja näiden selväkieliset selitykset, tulkinnat ja muut vastaavanlaiset muistiinpanot. RStudion:n muistikirjat muistuttavat Pythonin Jupyter-muistikirjoja tai IPython-muistikirjoja. RStudio ei ole suinkaan ainoa tuote R-markkinoilla, vaan saatavilla on mm. Beaker Notebook ja rNotebook (github). RStudion R Notebooks -tutoriaali tarjoaa eväät […]

Posted in R-ohjelmointi, Yleistä | No Comments

Biodiversiteettiä Suomessa

Global Biodiversity Information Facility (GBIF) on eräs eliölajiston monipuolisuus- ja levinneisyystietoa keräävistä kansainvälisistä yhteistyöhankkeista. Suomi on GBIF:n osallistunut toimintaan vuodesta 2001. Osallistuvissa maissa on kansallinen solmu, joka hoitaa lajistotiedon vaihtoa GBIF-projektin kanssa. Suomessa solmuna on Suomen lajitietokeskus (laji.fi). Lajitietokeskuksella on puolestaan omia kansallisia yhteistyökumppaneita, joiden keräämän lähdeaineiston varaan mm. laji.fi:täkin rakennetaan. Laji.fi ei vielä tarjoa […]

Posted in Grafiikka, R-ohjelmointi | No Comments

Preattentiivinen prosessointi ja sen hyödyntäminen datan visualisoinnissa

Ihmisen näköaisti Tilastollisten kaavioiden laatimiseen on tiettyjä hyväksi havaittuja pääsääntöjä, jotka perustuvat tieteellisiin tutkimuksiin ihmisen näköaistista ja näköhavaintojen tulkintaan liittyvistä neurologisista prosesseista. Tiedon visualisointi onkin arvostettu ja pitkän historian omaava tieteenala. Ihmisen näköaistin toimintaa koskeva feature integration theory (Treisman, 1998) postuloi, että näköaistimukset analysoidaan kahdessa vaiheessa: 1) preattentiivisessa vaiheessa havaitaan yleisiä näkökentässä olevia peruspiirteitä, jotka […]

Posted in Grafiikka, R-ohjelmointi | No Comments