R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Gene Expression Omnibus (GEO) ja GEOmetadb

Bob O’Hara pyysi jo pari vuotta sitten blogissaan Deep Thoughts and Silliness selvittämään GEO-tietokannan eksperimenttien koot. GEO-tietokantaan on tallennettu DNA-sirukokeiden tuloksia.

Bioconductorin laajennuspaketilla GEOmetadb eksperimenttien kokojen selvittäminen käy äkkiä. Aiempaan 10% otokseen GEO:sta perustuva arvioni siitä, että 90% eksperimenteista koostuu alle 50 DNA-sirusta piti näemmä aika tarkalleen paikkansa: koko tietokannan perusteella 89,4% eksperimenteistä on kooltaan alle 50 DNA-sirua, mediaanikoon ollessa 11 DNA-sirua.

Ja näin se siis selviää:

library(GEOmetadb)
getSQLiteFile()  
con <- dbConnect(SQLite(), "GEOmetadb.sqlite")
gsm <- dbGetQuery(con, "select series_id from gsm")
sum(table(gsm$series_id)<50)/length(table(gsm$series_id))
median(table(gsm$series_id))

GEOmetadb on muutenkin varsin kiinnostava tiedonlähde. Arvatkaapa montako eksperimenttiä (GSE), joissa tekijänä on suomalainen, GEO:sta löytyy?


gse<-dbGetQuery(con, "select * from gse") grep("Finland", gse$contact) # 81


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *