de.straba.us

destrabauz thoughts

Google come OCR dei tuoi PDF

Dalla lettura di questo post http://www.labnol.org/software/convert-scanned-pdf-images-to-text-with-google-ocr/5158/ scopro che google e’ dotato anche di un potente ocr sui documenti pdf.
L’autore propone un piccolo hack:

  • acquisire un documento con il proprio scanner e salvarlo in formato pdf
  • archiviare il file creato su un sito web
  • attendere che google passi ad indicizzare il file
  • cercare il file attraverso una query su google nello stile
    site:sitoweb.com filetype:pdf
    (dove sitoweb.com e’ il server che ospita il file pdf copiato)
  • utilizzare la funzione “Vedi come HTML” di google

… e il gioco e’ fatto …

l’hack e’ sicuramente carino, rimane il problema della sensibilita’ dei dati raccolti nel documento inoltre esiste diverso software libero in grado di fare ocr.

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>