R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Aiheeton

Pieni päivitys tekstinlouhintafunktioihin – OCR

Olen aiemmin kirjoitellut useasti tekstinlouhinnasta, ja näissä kirjoituksissa esitellyt funktiot löytyvät GitHub repositorysta. Funktiokokonaisuuteen on nyt lisätty Optical Character Recognition (OCR) toiminnallisuus, jota on periaatteellisesti aiemmin esitylty toisessa postauksessa. OCR voidaan tehdä R:llä yksinkertaisesti seuraavasti. Ladataan ensin tarvittavat funktiot, ja tarvittaessa asennetaan puuttuvat paketit: source("https://raw.githubusercontent.com/jtuimala/TextMining/master/tm-functions.R") load(url("https://github.com/jtuimala/TextMining/raw/master/fintm-data.RData"))   installAndInitialize() initiateTesseract() Tämän jälkeen ympäristö on käyttökunnossa. Ladataan […]

Posted in Aiheeton | No Comments »

Todennäköisyys, että raportoitu löydös on oikea

Viime aikoina olen kuullut keskustelua siitä, että joka ikisen analyysin yhteydessä pitäisi ilmoittaa todennäköisyys, että löydös on väärä. Ilmeisesti keskustelu ei ole koskenut p-arvoa, vaan nimenomaan väärän johtopäätöksen todennäköisyyttä, mikä tekeekin asiasta hieman kinkkisemmän. P-arvohan on frekventistisen tilastotieteen käsite, joka ilmoittaa toistetun otannan tilanteessa sen frekvenssin, jolla havaittua testisuureen arvoa äärevämpiä arvoja esiintyy, jos nollahypoteesi […]

Posted in Aiheeton | No Comments »

Suomen kuntakartta Tableau:hun (!?#%) – R avuksi!

Tableau on erityisesti datan esittämiseen ja visualisointiin kehitetty ohjelmisto. Suuri osa tavanomaisista aineistoista vilahtaa Tableau:hun kuin vettä vain, mutta yritäpäs änkeä sinne uusi karttapohja, niin ongelmissa ollaan. Tableau (9.0.4) ei nimittäin lue ESRI Shapefilejä, KML:ää eikä liioin GeoXML:ää. Kartta pitää syöttää ohjelmaan polygoneina. Seuraavassa on ratkaisuesimerkki käyttäen Suomen kuntakarttaa vuodelta 2013. Mistä löytäisi kuntakartan? Pohjoismaiden […]

Posted in Aiheeton | No Comments »

Vilttikaavio

Tieteellinen aikakauslehti PLOS ONE julkaisu alkuvuodesta artikkelin, jossa kuvataan uusi R-funktio, joka piirtää lämpökarttakuvioita, mutta jättää niistä pois usein käytetyt puukaaviot. Tätä ovat muutkin ihmetelleet. Tuntuu nimittäin erikoiselta, että tuollainen artikkeli julkaistaan tieteellisessä lehdessä. Artikkelin tieteelliset ansiot nimittäin tuntuvat aavistuksen heppoisilta. Toinen hieman samankaltainen artikkeli julkaistiin samaten tänä vuonna Nature Methods-lehdessä. Siinä kuvataan palvelu, jolla […]

Posted in Aiheeton, Valitus | No Comments »

R-kielen perusteet -kirja

Työstin muutama vuosi sitten melko laajaa suomenkielistä R-opasta, mutta työ jäi kesken. En ole ehtinyt päivittämään käsikirjoitusta viimeiseen kahteen vuoteen, mutta tarkoituksenani on julkaista se jossakin muodossa päivitettynä tulevaisuudessa. Julkaisen joka tapauksessa nyt parin vuoden takaisen käsikirjoitusversion (R-kielen_perusteet_2010-04-14) PDF-muodossa alla mainitulla CC-lisenssillä. Käsikirjoitus sisältää varmasti virheitä, epätarkkuuksia ja turhan laajoja yleistyksiä, ja tällä alustuksella vastuu […]

Posted in Aiheeton | No Comments »

Lukiovertailuista

Tänä vuonna STT toteutti ensimmäistä kertaa koko SUomen kattavan lukiovertailun siten, että siinä huomioitiin myös oppilaiden lähtötaso. Helsingin Sanomat uutisoi asiasta mm. 8.12.2012, ja vertailun aineisto on saatavilla HS:n uutisesta. Aiemmin lukiovertailut on tehty yksinomaan koulujen ylioppilaskirjoitusten keskimääräisiä puoltoääniä käyttäen. Lisäksi tiedostusvälineiden välillä on eroja: MTV3:n vertailussa on käytetty perinteisesti kaikkien aineiden puoltoäänten keskiarvoa, ja […]

Posted in Aiheeton | No Comments »

Onko paksu nuoliputki parempi kuin ohut?

Jousiammunnassa keskustellaan aika ajoin siitä, onko parempi käyttää paksua nuoliputkea vai ohutta. Keskeinen argumentti on, että paksulla nuoliputkella saa keskimäärin hieman enemmän pisteitä. Tämän uskotaan johtuvan siitä, että paksu nuoliputki koskee taulun renkaiden rajaa hieman useammin kuin ohut. Mikäli nuoliputki koskettaa kahta väriä tai mitä tahansa kahden pistevyöhykkeen rajaviivaa, merkitään tulokseen arvoksi vyöhykkeistä suurempi. Toisin […]

Posted in Aiheeton | No Comments »

Karkea väestöennuste

Tilastokeskus muodostaa ja päivittää Suomen väestöennusteen tietyin välein. Olen pariin otteeseen lukenut mielipidekirjoituksia, joissa väestöennustetta arvostellaan rankasti. Väestöennusteita on mahdollista laatia varsin monilla tavoilla, ja Tilastokeskuksen käyttämä menetelmä on huomattavan yksityiskohtainen. Havainnollistan seuraavassa väestöennusteen laatimista huomattavasti yksinkertaisemmalla mallilla sen selittämiseksi, miten väestöennuste voidaan laatia, ja mitkä seikat siihen vaikuttavat. Periaatteessa väestöennuste on helppo laatia. Ennusteen […]

Posted in Aiheeton | No Comments »

Data-analyysien vaatiman työmäärän arviointi

Olen viime aikoina yrittänyt tutustua ohjelmoijien tuottavuuden mittaamiseen, lähinnä sitä ajatellen, että osaisin ennen projektin alkamista karkeasti haarukoida tarvittavan työmäärän. Merkittävä osa työstäni nimittäin koostuu erilaisten tilastollisten aineistojen analysoimisesta, ja käytän pääasiallisena työvälineenäni  R-ohjelmistoa. Olen viimeiset vuodet pitänyt kirjaa kuhunkin projektiin käyttämästäni työajasta, ja tässä muutamia kokemuksiani. Olen ottanut tavaksi kommentoida tutkimushankkeissa käyttämäni koodin melko […]

Posted in Aiheeton | No Comments »

Blogi päivitetty

Päivitin blogin iänikuisen vanhasta WordPressin 2.6.2-versiosta versioon 3.2.0. Käytössä olevat pluginit toimivat tässä versiossa hyvin. Jossain vaiheessa on tarkoitus päivittää blogi uusimpaan versioon (tällä hetkellä 3.4.1). Vähän aikaa mennään default-teemalla, siihenkin tulee muutos jossain vaiheessa, kunhan ehdin taas aiheeseen paneutua.

Posted in Aiheeton, Yleistä | No Comments »