Google come OCR dei tuoi PDF

Share Button

Dalla lettura di questo post http://www.labnol.org/software/convert-scanned-pdf-images-to-text-with-google-ocr/5158/ scopro che google e’ dotato anche di un potente ocr sui documenti pdf.
L’autore propone un piccolo hack:

  • acquisire un documento con il proprio scanner e salvarlo in formato pdf
  • archiviare il file creato su un sito web
  • attendere che google passi ad indicizzare il file
  • cercare il file attraverso una query su google nello stile
    site:sitoweb.com filetype:pdf
    (dove sitoweb.com e’ il server che ospita il file pdf copiato)
  • utilizzare la funzione “Vedi come HTML” di google

… e il gioco e’ fatto …

l’hack e’ sicuramente carino, rimane il problema della sensibilita’ dei dati raccolti nel documento inoltre esiste diverso software libero in grado di fare ocr.

Share Button

Leave a Reply