R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Excel-tiedostojen tuottaminen R:stä

Data-analyytikko toimii tyypillisesti liiketoiminnan kanssa yhteistyössä. Tällöin on tarpeen pystyä tuottamaan raportteja ja erilaisia listauksia sellaisessa tiedostomuodossa, että liiketoiminnan edustajatkin pystyvät niitä käyttämään omilla tietokoneillaan. Microsoftin Office -perheen ohjelmistot ovat laajalti levinneitä, joten etenkin niiden kanssa yhteensopivien tiedostomuotojen tuottaminen on käytännössä osoittautunut varsin hyödylliseksi ominaisuudeksi. Raportteja on nykyään melko yksinkertaista tuottaa Microsoft Word -muotoon esimerkiksi […]

Posted in R-ohjelmointi | No Comments

Tekstin generointi Markovin ketjulla – nimigeneraattori

Väestörekistrikeskus on julkaissut avoimena datana suomalaisten etunimitilaston. Tilastossa ovat kaikki suomalaisten etunimet, joita esiintyy vähintään kymmenellä henkilöllä. Aineisto käytettävissä CC BY 4.0 -lisenssillä. Aineistolla saammekin värkättyä yksinkertaisen etunimigeneraattorin! Seuraavassa muodostettava generaattori perustuu Markovin ketjuun, joka sovitetaan merkeiksi pilkottuun nimiaineistoon. Sovitetun Markovin mallin perusteella voidaan sitten generoida uusia nimiä miltei rajattomasti. Katsotaanpa miten tämä onnistuu R:n […]

Posted in R-ohjelmointi | No Comments

A quick note on TensorFlow and R

TensorFlow is an open source software for machine learning. TensorFlow seems to be especially prominently used for fitting deep learning models, but it also includes many other kinds of algorithms. Data is shaped into tensors in Tensorflow. The data analysis is run using a computational graph, where computational operations are nodes of the said graph. […]

Posted in R-ohjelmointi | No Comments

A quick note on Spark and R

Apache Spark is cluster-computing system with a few add-on tools for added functionality such as SQL queries and machine learning. Spark has an APIs in several languages, one of which is R. There are at least two R packages that implement an interface to Spark. These are SparkR and sparklyr. Package sparklyr makes installing Hadoop, […]

Posted in Note to self, R-ohjelmointi | No Comments

Phylogenetic analyses using R

Phylogenetics (or molecular systematics) is a methodology that is used for inferring evolutionary relationships between individuals or taxa, such as species. Nowadays phylogenetics is often classified as a subfield of bioinformatics. Phylogenetic bioinformatics is distinctively a computational field, although phylogenetics as such just has deep roots in episdemology and theory of evolution. Contemporary computational phylogenetics […]

Posted in R-ohjelmointi | No Comments

Interaktiivinen kuntakartta, vol 2: Millä alueilla asuvat osingonsaajat?

Jarno kirjoittikin jo aiemmin interaktiivisen kuntakartan muodostamisesta R:llä leafletR-pakettia hyödyntäen. Esitän seuraavassa toisen tavan toteuttaa interaktiivinen kuntakartta hyödyntämällä R:ää, Javascriptiä ja SVG-tiedostomuotoa. Idea syntyi tarpeesta tehdä kuntakarttojen teko mahdollisimman helpoksi R:ää osaamattomalle käyttäjälle. Ratkaisussa on lisäksi etuna kustomoitavuus (kehittäjille) ja paikallisuus (ratkaisu ei nojaa pilvipalveluihin, joka saattaa olla este esimerkiksi arkaluontoisia tietoja käsitellessä). Tekstin rakenne […]

Posted in Grafiikka, Muu ohjelmointi, R-ohjelmointi | No Comments

Suomen kielen aakkosten esiintymistaajuuksien selvittäminen

Kahdessa edellisessä (1, 2) postauksessa olen käsitellyt lyhyesti klassisia salakirjoitusmenetelmiä. Eräs salakirjoitusten avaamiseen yleisesti käytetty menetelmä on frekvenssianalyysi, jota voidaan tehokkaimmin hyödyntää, jos tunnetaan salatun tekstin alkuperäiskielen aakkosten suhteelliset osuudet. Miten esiintymistaajuudet sitten voidaan selvittää? Seuraavassa on esitellään kolme erilaista mahdollisuutta. 1. Suomen kielen sanaston käyttö Kirjainten taajuudet voidaan selvittää vaikkapa Kotuksen sanastoa käyttäen. Ladataan […]

Posted in R-ohjelmointi | No Comments

Lisää klassisia salausmenetelmiä

Edellisessä postauksessa esiteltiin muutamia klassisia salakirjoitusmenetelmiä. Jos Singhin kirja ei ole saatavilla, myös Crypto Corner perehdyttää klassisiin salakirjoitusmenetelmiin. Tutustumme tässä artikkelissa hieman monimutkaisempiin klassisiin salakirjoitusmenetelmiin. Vigenère Caesar-salakirjoitus oli aikoinaan tehokas, mutta myöhemmin auttamattomasti liian heikko. Samaa ideaa voidaan kuitenkin laajentaa siten, että salakirjoituksessa käytetään apuna koodiavainta, joka kertoo, millä monista erilaisista Caesar-tyyppisistä salakirjoituksista kyseinen merkki […]

Posted in R-ohjelmointi | No Comments

Klassisia salausmenetelmiä

Salakirjoitusmenetelmät ovat aina kiinnostaneet minua. Muistan, että järjestimme jo kymmenvuotiaina muutaman kaverin kanssa kilpailun, jossa piti purkaa salakielinen sanoma. Viestin salaus onnistui silloin niin hyvin, ettei sen purkaminen onnistunut käsipelillä. Muistan kyllä tajunneeni, että muut(kin) käyttivät todennäköisesti menetelmää, jossa alkuperäiset aakkoset on korvattu toisilla merkeillä. Koska salakirjoitettu viesti oli kovin lyhyt, ei sen purkaminen käyttäen […]

Posted in R-ohjelmointi | No Comments

Kiertoja ja peilauksia R:llä

Talon muotoisilla pelinappuloilla leikkiminen tuotti lopputuloksena tähden muotoisen kuvion. Heräsi kysymys, miten paljon tähteä on mahdollista laajentaa. Pelinappulat ja rakentelijan kärsivällisyys loppuivat pian kesken, mutta onneksi R taipui siihen, mihin sorminäppäryys ei riittänyt. Samalla kuvion symmetrisyys tarjosi hyvän tilaisuuden harjoitella kiertoja ja peilauksia. Yllä oleva pelinappuloista rakennettu tähti ei itse asiassa laskennallisesti ole edes mahdollinen, […]

Posted in Grafiikka, R-ohjelmointi | No Comments

Category