R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

kesäkuu, 2017

How to speed up data import in R

Have you ever wondered what is the fastest way to load binary R files (e.g., .RData) to R? Well, me neither, but now the need arose. Here are some benchmarks of different approaches. Let’s first generate some test data: N <- 4600000 m <- data.frame(matrix(ncol=150, nrow=N, data=0))N <- 4600000 m <- data.frame(matrix(ncol=150, nrow=N, data=0)) Why […]

Posted in R-ohjelmointi | Kommentit pois päältä artikkelissa How to speed up data import in R

Excel-tiedostojen tuottaminen R:stä

Data-analyytikko toimii tyypillisesti liiketoiminnan kanssa yhteistyössä. Tällöin on tarpeen pystyä tuottamaan raportteja ja erilaisia listauksia sellaisessa tiedostomuodossa, että liiketoiminnan edustajatkin pystyvät niitä käyttämään omilla tietokoneillaan. Microsoftin Office -perheen ohjelmistot ovat laajalti levinneitä, joten etenkin niiden kanssa yhteensopivien tiedostomuotojen tuottaminen on käytännössä osoittautunut varsin hyödylliseksi ominaisuudeksi. Raportteja on nykyään melko yksinkertaista tuottaa Microsoft Word -muotoon esimerkiksi […]

Posted in R-ohjelmointi | Kommentit pois päältä artikkelissa Excel-tiedostojen tuottaminen R:stä

Tekstin generointi Markovin ketjulla – nimigeneraattori

Väestörekistrikeskus on julkaissut avoimena datana suomalaisten etunimitilaston. Tilastossa ovat kaikki suomalaisten etunimet, joita esiintyy vähintään kymmenellä henkilöllä. Aineisto käytettävissä CC BY 4.0 -lisenssillä. Aineistolla saammekin värkättyä yksinkertaisen etunimigeneraattorin! Seuraavassa muodostettava generaattori perustuu Markovin ketjuun, joka sovitetaan merkeiksi pilkottuun nimiaineistoon. Sovitetun Markovin mallin perusteella voidaan sitten generoida uusia nimiä miltei rajattomasti. Katsotaanpa miten tämä onnistuu R:n […]

Tags:

Posted in R-ohjelmointi | Kommentit pois päältä artikkelissa Tekstin generointi Markovin ketjulla – nimigeneraattori