R-ohjelmointi.org
Tilastotieteellistä ohjelmointia R-kielellä
Regular Expression Analyzer
Dataa analysoidessa tulee usein vastaan tilanne, jossa on tarpeen erottaa tai ”validoida” osia merkkijonosta. Tämä onnistuu ns. säännöllisten lausekkeiden eli regular expressioneiden (lyh. regexp) avulla. R:ssä regexp-moottoria hyödyntäviä funktoita ovat mm. grep, sub, gsub, regexp ja gregexpr. Myös eräissä muissa funktioissa on mahdollista käyttää säännöllisiä lausekkeita (esim. ls).
R:ssä säännöllisten lausekkeiden käyttöön saa ohjeitta kirjoittamalla konsolisssa ?regexp. Netistä löytyy useita hyviä lähteitä, joista ehkä paras on www.regular-expressions.info. Toinen kätevä apuri on Regular Expression Analyzer: kokeileppa kirjoittaa Analyzerin vapaaseen kenttään (optiolla Perl) esim. tämä regexp
\b[A-Z0-9._%+-][email protected][A-Z0-9.-]+\.[A-Z]{2,4}\b
Aika kätevää, vai mitä? R:n regexp-funktioissa on mahdollista käyttää parametria perl=TRUE, jolloin myös Perl-kielen kaltaiset regexp:it toimivat.
[…] joskus aiemmin nettisaitista, jolla voi tarkistaa mitä joku tietty säännöllinen lauseke (regular expression) […]