R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Ison datan tuominen R:n

JD Long esitti blogissaan, että miten iso data kannattaa ladata R:n. Kokeilin hänen koodiaan (vähän pienemmällä datalla) omassa koneessani, ja ero kahden menetelmän välillä oli kyllä huomattava.

> library(sqldf)
> #Muodostetaan iso data.frame ja kirjoitetaan ulos
> bigdf <- data.frame(dim=sample(letters, replace=T, 4e6), 
fact1=rnorm(4e6), fact2=rnorm(4e6, 20, 50))
> write.csv(bigdf, "bigdf.csv", quote = F)
 
> #Testataan importointia sqldf:n kanssa
> f <- file("bigdf.csv")
> system.time(bigdf <- sqldf("select * from f", dbname = tempfile(), 
file.format = list(header = T, row.names = F)))
user system elapsed
44.532 2.820 49.044
> rm(list=ls(all=TRUE))
>
> #Testataan latausta
> system.time(bigdf <- read.csv("bigdf.csv"))
user system elapsed
182.866 1.577 183.027
>


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *