R-ohjelmointi.org

Tilastotieteellistä ohjelmointia R-kielellä

Pieni päivitys tekstinlouhintafunktioihin – OCR

Olen aiemmin kirjoitellut useasti tekstinlouhinnasta, ja näissä kirjoituksissa esitellyt funktiot löytyvät GitHub repositorysta. Funktiokokonaisuuteen on nyt lisätty Optical Character Recognition (OCR) toiminnallisuus, jota on periaatteellisesti aiemmin esitylty toisessa postauksessa.

OCR voidaan tehdä R:llä yksinkertaisesti seuraavasti. Ladataan ensin tarvittavat funktiot, ja tarvittaessa asennetaan puuttuvat paketit:

source("https://raw.githubusercontent.com/jtuimala/TextMining/master/tm-functions.R")
load(url("https://github.com/jtuimala/TextMining/raw/master/fintm-data.RData"))
 
installAndInitialize()
initiateTesseract()

Tämän jälkeen ympäristö on käyttökunnossa.

Ladataan ensin yksi PDF-tiedosto, ja sen jälkeen erotellaan siitä sivulta 7 esipuheen teksti:

download.file("http://tuimala.mbnet.fi/oppaat/R/kirja/R-kielen_perusteet_2010-09-23.pdf", "R-kielen_perusteet_2010-09-23.pdf", mode="wb")
 
OCR(file=paste0(getwd(), "/R-kielen_perusteet_2010-09-23.pdf"), lang="fin", page=7)

Tulostiedosto löytyy nyt työkansiosta samalla nimellä kuin alkuperäinen tiedosto, mutta tulostiedostn päätteenä on .pdf:n sijasta .txt.


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Category