R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

helmikuu, 2016

Tilastokeskuksen verotilastot R:ään, osa 3 – infografiikkaa Suomen verojärjestelmästä

Kirjoitin jo aiemmin Tilastokeskuksen verotilastojen lukemisesta R:ään. Käytän niitä seuraavassa Suomen verojärjestelmän esittelemiseen. Suomen verotusjärjestelmä Suomen verotusjärjestelmä on periaatteessa hyvin looginen ja helppo. Verojen laskeminen menee nimittäin pääsääntöisesti näin: 1. Verotettavan tulon määrä lasketaan kussakin tulolähteessä. 2. Kunkin tulolähteen tulo jaetaan ansio- ja pääomatuloihin. 3. Kaikkien tulolähteiden ansiotulojen ja pääomatulojen määrät lasketaan yhteen. 4. Ansiotuloista […]

Posted in Grafiikka, R-ohjelmointi | No Comments »

Kirjat jotka data-analyytikon kannattaisi mahdollisesti joskus lukea

Viime aikoina olen sattunut lukemaan useita muiden kirjoittamia blogipostauksia (esim. Analytics Vidhya) kirjallisuudesta, johon on syytä tutustua, jos mielii erikoistua ”datatieteeseen” (Data Science). Koska kirjahyllyyni on vuosien varrella kertynyt yli kymmenen hyllymetriä tilastotieteeseen liittyvää kirjallisuutta, aloin pohtia, mitkä kirjat nimeäisin, jos joutuisin valitsemaan. Päädyin valitsemaan listan kirjoja, joiden vaikutus omaan ajatteluuni on ollut kaikkein suurinta. […]

Posted in Yleistä | 2 Comments »

Verohallinnon avoin data – Power BI -visualisointi

Verohallinto julkaisee nykyisin vuosittain yhteisöjen ja yhteisetuuksien tuloverotuksen tietoja avoimena datana. Käytännössä avoin data sisältää siis muun muassa osakeyhtiöiden, kuntien, valtion ja seurakuntien tietoja. Listaus julkisten tietojen sisällöstä löytyy Verohallinnon sivuilta. Vanhemmat aineistot on julkaistu HRI nimeä -lisenssillä ja 14.1.2015 jälkeen julkaistuihin aineistoihin sovelletaan ilmeisesti CC BY 4.0 nimeä -lisenssiä, vaikka Verohallinnon sivulla mainitun lisenssin […]

Posted in Note to self, R-ohjelmointi, Yleistä | No Comments »

Tilastokeskuksen verotilastot R:llä Power BI:hin, osa 2

Edellisessä osassa haravoitiin Tilastokeskuksen tilastoista verotukseen liittyviä tietoja. Tässä artikkelissa testataan Microsoftin Power BI:n R-liittymää, ja ladataan sen avulla edellisessä osassa esiteltyjä tietoja suoraan Power BI:hin. Tiedot on haettu Tilastokeskuksen sivuilta 9.2.2016. Power BI on Microsoftin ilmainen Business Intelligence -työkalu. Power BI muistuttaa toimintatavaltaan muita tunnettuja BI -työkaluja, kuten Tableau:ta, mutta on tällä hetkellä niitä […]

Posted in Grafiikka, R-ohjelmointi | 2 Comments »

Tilastokeskuksen verotilastot R:ään, osa 1

Verotilastot Ilmaisten verotilastojen tuottaminen on nykyisin pääasiassa Tilastokeskuksen vastuulla. Tilastoja on kahdenlaisia: Aiemmin Verohallinnon ylläpitämät tilastot löytyvät nykyisin vero2.stat.fi -osoitteesta. Muut verotilastot löytyvät Tilastokeskuksen tilastoista Veronalaiset tulot ja Verot ja veronluoteiset maksut. Verotilastojen kyseleminen R:stä Verotilastot voidaan lukea ohjelmallisesti suoraan R:ään pakettien pxR ja pxweb funktioilla. Tilastoissa Veronalaiset tulot ja Verot ja veronluoteiset maksut käytettäviä […]

Posted in Grafiikka, R-ohjelmointi | No Comments »

Liiketoiminnan tarpeita: päivystysvuorolista ja muutama R-jippo

Katselin vierestä, kun työkaverini lupautui auttamaan työvuorolistan luomisessa. Ongelma oli periaatteessa yksinkertainen. Päivystyslistalla oli n kappaletta asiantuntijoita, jotka tuli sijoittaa kullekin vuoden k viikolle p päivystysvuoroon siten, ettei kukaan saanut esimerkiksi etupäivystysvuoroa useammin kuin muut. Etupäivystäjä on henkilö, johon aina ensimmäisenä otetaan yhteyttä, joten hänen työkuormansa on etupäivystysviikolla todennäköisesti muita suurempi, ja sen vuoksi kyseinen […]

Posted in Note to self, R-ohjelmointi | 1 Comment »

Apufunktiot GAM-mallien sovittamiseen

OIVA-palvelu Ympäristöhallinnon ympäristö- ja paikkatietopalvelu OIVA tarjoaa muun muassa erilaisia ympäristön tilan seurantaan liittyviä aikasarja-aineistoja. Palvelusta saa esimerkiksi kasviplanktonin seurannassa kerättyjä tietoja. Aineistojen avulla voidaan selvittää vaikkapa kasviplanktonin biomassassa tapahtuneita pitkäaikaismuutoksia. Aineisto Hain palvelusta Suomenlahden rannikon näytteenottopisteen ’Suomenl Haapas Kyvy-11’ kasviplankton- ja ympäristötekijätietoja 30.1.2016. Katsotaanpa, miten aineistoon voidaan sovittaa Generalized Additive Model (GAM)-malli, jonka avulla […]

Posted in R-ohjelmointi | 2 Comments »

Category