L'anno scorso, in un articolo intitolato The Real Paperless Office, ho spiegato il mio sistema per mantenere il mio ufficio a casa quasi interamente privo di carta, utilizzando nient'altro che uno scanner, il software OCR incluso e altro AppleScript.
Da quando quell'articolo è stato pubblicato, però, alcune cose sono cambiate, richiedendo un aggiornamento degli script che ho fornito. In particolare, Adobe ha rilasciato Acrobat 9 (]) e volevo rivedere gli script per essere abbastanza intelligente da usarlo nuova versione, o una versione precedente, senza costringere gli utenti a scegliere tra diversi script o eseguire manualmente la modifica. Sulla base del feedback dei lettori, volevo anche integrare un ulteriore controllo degli errori.
Informazioni sugli script
Se utilizzi Acrobat Standard, Acrobat Pro o Readiris Pro per OCR, il modo più semplice per automatizzare il processo di OCR delle nuove scansioni è con uno di questi AppleScript.
Poiché il supporto di Acrobat per AppleScript è limitato (e il supporto di Readiris per AppleScript è praticamente inesistente), questi script utilizzano lo scripting dell'interfaccia utente per alcune attività. Ciò significa che invece di inviare comandi direttamente alle applicazioni in background, devono far credere all'applicazione che i comandi di menu sono stati scelti, i pulsanti cliccati e così via. Pertanto, non puoi svolgere altre attività durante l'esecuzione di questi script, perché ciò potrebbe impedire che i controlli corretti siano visibili allo script al momento giusto.
Affinché lo scripting dell'interfaccia utente funzioni, è necessario abilitare l'accesso per i dispositivi di assistenza. Per fare ciò, vai al pannello Accesso universale delle Preferenze di Sistema e assicurati che "Abilita l'accesso per i dispositivi di assistenza" sia selezionato nella parte inferiore della finestra. Gli script aggiornati controllano questa impostazione e ti avvisano se non è corretta.
Installazione degli script
Per iniziare, scarica e decomprimi questo archivio. Copia i tre script che contiene in /Library/Scripts/Folder Action Scripts.
OCR Questo (Acrobat).scpt fa in modo che Acrobat riconosca il testo nei documenti PDF e quindi salvi il file (con il nome esistente, nella posizione esistente) e lo chiude senza alcuna necessità di interazione.
OCR This (Acrobat) con Save As.scpt fa in modo che Acrobat riconosca il testo e quindi chieda di inserire un nome e selezionare una posizione; dopo aver salvato il file, lo script indica ad Acrobat di chiudere la finestra. (Potrebbe esserci un brevissimo ritardo prima che la finestra si chiuda.) Nota che con questo script, il file originale rimane nella cartella a cui hai allegato l'azione cartella (vedi sotto); in seguito puoi eliminarlo manualmente se lo desideri.
Entrambi questi due script sono stati aggiornati per funzionare con Acrobat Standard versione 7 e Acrobat Pro versioni 7, 8 e 9, senza richiedere alcuna modifica. (Ahimè, Adobe Reader non dispone di funzionalità OCR, quindi è necessario utilizzare la versione Standard o Pro.) Se si dispone è installata più di una versione di Acrobat Standard o Acrobat Pro, lo script utilizza automaticamente la versione più recente versione.
Prima di poter utilizzare uno di questi script, è necessario configurare le impostazioni OCR di Acrobat come descritto in The Real Paperless Office. Si noti che in Acrobat Pro 9 è disponibile una nuova opzione nella finestra di dialogo Riconosci testo – Impostazioni. Al posto della mia precedente raccomandazione di scegliere Immagine ricercabile (esatta) dal menu a comparsa Stile di output PDF, puoi optare per ClearScan, che può ridurre le dimensioni del file di incorporare uno o più caratteri sintetizzati nel documento che approssimano l'aspetto dei caratteri esistenti, memorizzando una versione a bassa risoluzione dell'immagine scansionata si. Se non sei sicuro di quale potresti preferire, prova a duplicare un PDF scansionato ed eseguire il riconoscimento del testo con entrambe le impostazioni, quindi apri i file risultanti per vedere come appaiono.
Come suggerisce il nome, OCR This (Readiris Pro).scpt funziona con Readiris Pro. È stato testato con la versione 11.6.3; Non posso garantire quanto bene funzionerà con le versioni precedenti o più recenti.
Per utilizzare questo script, è necessario configurare Readiris. Nel menu Impostazioni: Tipo di documento, assicurati che Testo sia selezionato; in caso contrario, selezionalo. Quindi, scegli Impostazioni: Formato testo e, dal menu a comparsa Formato nella parte superiore della finestra, scegli PDF. Dal menu a comparsa accanto ad esso, scegli Immagine-Testo. Deseleziona Incorpora caratteri e Crea segnalibri e seleziona Chiedi nome file e posizione. Lasciando invariate le altre impostazioni, fare clic su OK. Infine, scegli Impostazioni: Salva come predefinito. (In questo modo, queste impostazioni dovrebbero essere mantenute quando si utilizza nuovamente Readiris Pro.)
Per implementare questi script, fai clic con il pulsante destro del mouse (Control-clic) sulla cartella che hai designato per contenere le nuove scansioni e, dal menu contestuale, scegli Altro: Abilita azioni cartella. Fare di nuovo clic con il pulsante destro del mouse e scegliere Altro: allega un'azione cartella. Nella finestra che appare, vai al file AppleScript che desideri utilizzare, selezionalo e fai clic su Scegli.
Successivamente, ogni volta che si scansiona un nuovo documento e questo appare in questa cartella, lo farà AppleScript attivare automaticamente, aprendo il file scansionato in Acrobat o Readiris e attivando l'OCR del programma funzione. Se utilizzi Readiris, ti verrà chiesto di inserire un nome e selezionare una posizione. Dopo aver salvato il file, Readiris crea un nuovo documento (che cancella dall'elenco tutte le pagine digitalizzate esistenti).
NOTA: Se ti è capitato di avere delle pagine aperte in Readiris prima di eseguire uno script, lo script le chiuderà (in modo da evitare di aggiungere ulteriori pagine ai tuoi PDF). Pertanto, prima di eseguire qualsiasi scansione, assicurati di aver salvato tutto ciò su cui stavi lavorando in precedenza.