R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

joulukuu, 2011

Tilastolliset tietosuojamenetelmät R:ssä

Tilastollisten tietosuojamenetelmien tarkoituksena on estää esimerkiksi henkilö-, yritys- tai muun yksikkötasoisen tiedon paljastuminen. Paljastuminen voi koskea esimerkiksi yksikön identiteettiä (suora tunnistaminen) tai ominaisuuksia (epäsuora tunnistaminen). Epäsuora tunnistus voi lisäinformaation kanssa yhdistettynä johtaa myös yksikön suoraan tunnistamiseen. Tunnistus voi tapahtua jopa hyvin vähäisiä tietomääriä käyttäen (esimerkiksi syntymävuosi ja sukunimi), ja voi perustua myös esimerkiksi taulukoituihin tietoihin. Aineisto […]

Posted in Aiheeton | Kommentit pois päältä artikkelissa Tilastolliset tietosuojamenetelmät R:ssä

Datan lukeminen R:ään: Scan

Blogin päivittämisessä on ollut kohtalaisen pitkä tauko muiden kiireiden johdosta. Ajattelin, että seuraava koodinpätkä voisi olla jakamisen arvoinen, se osoittaa mielestäni hyvin R:n ilmaisuvoiman. Esimerkin lähtökohtana on data, jossa koko data on tekstitiedostossa yhdellä rivillä. Datan rakenne on seuraava: Henkilö1 Hetu Henkilö2 Hetu… Seuraava koodi muuttaa datan data.frame-muotoon: x <- scan(file = textConnection("Henkilo1 XXXXXX-XXXX Henkilo2 […]

Posted in R-ohjelmointi, Skriptit | Kommentit pois päältä artikkelissa Datan lukeminen R:ään: Scan