R-ohjelmointi.org
Tilastotieteellistä ohjelmointia R-kielellä
Ison datan tuominen R:n
JD Long esitti blogissaan, että miten iso data kannattaa ladata R:n. Kokeilin hänen koodiaan (vähän pienemmällä datalla) omassa koneessani, ja ero kahden menetelmän välillä oli kyllä huomattava.
> library(sqldf) > #Muodostetaan iso data.frame ja kirjoitetaan ulos > bigdf <- data.frame(dim=sample(letters, replace=T, 4e6), fact1=rnorm(4e6), fact2=rnorm(4e6, 20, 50)) > write.csv(bigdf, "bigdf.csv", quote = F) > #Testataan importointia sqldf:n kanssa > f <- file("bigdf.csv") > system.time(bigdf <- sqldf("select * from f", dbname = tempfile(), file.format = list(header = T, row.names = F))) user system elapsed 44.532 2.820 49.044 > rm(list=ls(all=TRUE)) > > #Testataan latausta > system.time(bigdf <- read.csv("bigdf.csv")) user system elapsed 182.866 1.577 183.027 > |
Vastaa