R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Regular Expression Analyzer

Dataa analysoidessa tulee usein vastaan tilanne, jossa on tarpeen erottaa tai ”validoida” osia merkkijonosta. Tämä onnistuu ns. säännöllisten lausekkeiden eli regular expressioneiden (lyh. regexp) avulla. R:ssä regexp-moottoria hyödyntäviä funktoita ovat mm. grep, sub, gsub, regexp ja gregexpr. Myös eräissä muissa funktioissa on mahdollista käyttää säännöllisiä lausekkeita (esim. ls).

R:ssä säännöllisten lausekkeiden käyttöön saa ohjeitta kirjoittamalla konsolisssa ?regexp. Netistä löytyy useita hyviä lähteitä, joista ehkä paras on www.regular-expressions.info. Toinen kätevä apuri on Regular Expression Analyzer: kokeileppa kirjoittaa Analyzerin vapaaseen kenttään (optiolla Perl) esim. tämä regexp

\b[A-Z0-9._%+-][email protected][A-Z0-9.-]+\.[A-Z]{2,4}\b

Aika kätevää, vai mitä? R:n regexp-funktioissa on mahdollista käyttää parametria perl=TRUE, jolloin myös Perl-kielen kaltaiset regexp:it toimivat.

One Response to “Regular Expression Analyzer”


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *