martedì 10 febbraio 2009

OCR - riconoscimento caratteri

Oggi mi sono dedicato ad una attività di ricerca. Vorrei poter ricavare il testo contenuto in documenti "scannerizzati" (nessuna polemica per l'uso del termine, sul quale sussistono varie interpretazioni).
E' più una curiosità che altro, dato che in ambiente linux non mi risulta ci sia così tanta scelta per questa specifica esigenza. Dai pacchetti elencati nei repository che utilizzo, da una rapida ricerca, trovo alcuni programmi che sembrano corrispondere alla soluzione del problema.
Clara: ha una interfaccia grafica molto spartana, il che va bene per le persone come me che si concentrano sulle funzionalità e velocità di esecuzione più che all'estetica. Accetta formati PBM e PGM per cui ho scartato immediatamente questa soluzione.
unpaper: è uno strumento di post processing delle pagine scannerizzare ed un pre processing per l'ocr vero e proprio. Contiene una miriade di opzioni che permettono la "pulizia" dell'immagine ottenuta dalla scannerizzazione su tutto ciò che non sembra essere testo. E' un utility, a linea di comando, orientata per la preparazione di pagine provenienti da libri ed opere, quindi, a quanto mi sembra di aver compreso, per lavori batch su grandi quantità di dati.
tesseract: sperimentazione in corso. E un progetto Open source, originariamente sviluppato da HP, ora acquisito da bigG. Speriamo in un implementazione di funzionalità che ne migliorino l'utilizzabilità, anche se sembra che funzioni solo sul formato tiff.
gocr: tool a linea di comando, accetta formati pnm, pbm, ppm, pcx e tga. L'ho configurato per funzionare con xsane collegato ad uno scanner di rete dotato di ADF (caricatore automatico). Risultato deludente, quello che si vede in foto. Scansione a 400dpi in bianco e nero (binario). Il testo risulta illeggibile, sicuramente inadatto per un elaborazione. Con un tale risultato, tanto vale digitare a mano il testo, si fa prima.
Procedo con gli esperimenti. Alla prossima

P.S. uno a zero per golia. Ripeto: uno a zero per golia.

Nessun commento: