Google come OCR dei tuoi PDF
Dalla lettura di questo post http://www.labnol.org/software/convert-scanned-pdf-images-to-text-with-google-ocr/5158/ scopro che google e’ dotato anche di un potente ocr sui documenti pdf.
L’autore propone un piccolo hack:
- acquisire un documento con il proprio scanner e salvarlo in formato pdf
- archiviare il file creato su un sito web
- attendere che google passi ad indicizzare il file
- cercare il file attraverso una query su google nello stile
site:sitoweb.com filetype:pdf
(dove sitoweb.com e’ il server che ospita il file pdf copiato) - utilizzare la funzione “Vedi come HTML” di google
… e il gioco e’ fatto …
l’hack e’ sicuramente carino, rimane il problema della sensibilita’ dei dati raccolti nel documento inoltre esiste diverso software libero in grado di fare ocr.
Il Linux Day 2008 all’insegna della solidarietà Wikipedia, opensteetmap, flickr, creative commons, blog a scuola!