|
Questo documento è disponibile in: Deutsch English Francais Italiano Turkce |
Iznogood <iznogood/at/iznogood-factory.org> L'autore: Coinvolto in GNU/Linux per un certo periodo, ora mi occupo del sistema Debian. Malgrado i miei studi di elettronica, ho maggiormente effettuato lavori di traduzione per la comunitá di GNU/Linux. Tradotto in Italiano da: Lucia Di Gaeta <lucialinux/at/hotmail.co.uk> Contenuto: |
Una catena di strumenti per una transformazione da carta stampata a HTMLPremessa:
Vi presenteró una catena di strumenti per trasformare la tradizionale carta
stampata di una rivista in HTML. Illustreró il processo dalla scansione
fino alla riproduzione in HTML.
|
Ho letto che alcune universitá negli Stati Uniti hanno aiutato o
permesso a Google di digitalizzare la propria biblioteca sotto forma
numerica. Io non sono Google e non possiedo una tale biblioteca, ma ho
alcune riviste di elettronica vecchie. La qualitá della carta non é delle
migliori: le pagine cominciano a staccarsi e la carta ad ingrigirsi...
Ho quindi deciso di convertire il tutto in forma digitale in
quanto, anche se alcuni numeri non sono pubblicati da dieci anni, alcuni
articoli sono ancora validi!
Per cominciare, ho bisogno di inserire i dati nel mio computer. Uno
scanner mi permetterá di farlo. Dopo alcuni controlli di compatibilitá, ne
ho comprato uno, uno ScanJet 4300C di seconda mano, ma economico e dopo
aver consultato Internet, ho trovato quello di cui avevo bisogno per
configurarlo.
Su Debian, come d'abitudine ho installato sane, xsane, gocr e gtk-ocr:
apt-get install sane xsane gocr gtk-ocrcome radici.
sane-find-scannerSono poi andato su /etc/sane.d/ per modificare alcuni documenti:
hp niashe ho modificato in commento tutto il resto.
/dev/usb/scanner0 option connect-devicee selezionato tutto il resto.
chgrp scanner scanner0ed ho aggiunto iznogood come utente per permettermi di usare lo scanner senza esserne la radice:
adduser iznogood scannerUn riavvio, ed é tutto fatto!
append="hdb=ide-scsi ignore hdb"poi
liloper rendere il cambiamento effettivo.
/dev/sdc0 /dvdrom iso9660 user, noauto 0 0E poi ho cambiato il gruppo scd0 in cdrom
chgrp cdrom scd0Abbastanza semplice.
Per continuare il processo, ho avuto bisogno di qualche software:
sane, xsane, gimp, gocr, gtk-ocr, un editore di testo e di html ed un po'
di spazio sul disco rigido.
sane é l'interfaccia dello scanner e xsane é l'interfaccia grafica.
La
mia idea é quella di mantenere la massima risoluzione ed ottenere un
documento di 50 MB per pagina, salvarlo sul disco rigido per lavorarci ed
una volta fatto, salvarlo su un DVD-ROM.
Ho aggiustato la risoluzione a 600 dpi, un po'piú di brillantezza ed ho
cominciato la conversione. Siccome ho usato un vecchio computer (un PII 350
MHz), ci é voluto un po' di tempo, ma ho ottenuto un'immagine ottima e
precisa. L'ho salvata in formato png.
Perché una tale risoluzione ed un documento di 50 MB? Ho voluto mantenere
la risoluzione massima per l'archivio e per ulteriori processi
numerici.
Con Gimp ho tagliato la pagina separando le immagini grafiche da quelle
scansite come testo.
Ho salvato i grafici in png con dimensioni ridotte per adattarli ad una
pagina html ed il testo e le immagini non sono state ridotte, ma modificate
su una scala di grigi (Tools, Color Tools, Threshold e Ok) ed ho salvato
con un'estensione .pcx per procedere con il software per il riconoscimento
ottico.
cat *.txt > test.txtho ottenuto un test.txt e con un editore di testo ho apportato delle modifiche (caratteri non francesi rimossi, correzione delle parole...).
Mi ricordo sempre di un mio professore di matematica di quando ero piú giovane, che mi disse:
"Per essere pigro, hai bisogno di essere intelligente".
Va bene, ho quindi cominciato ad essere pigro !!!! ;-)
Ci sono alcune parti manuali che non sono facili da automatizzare
(creazione di una categoria, scansione, tagli con gimp e creazione di
documenti). Il resto puó essere automatizzato.
C'é un saggio in inglese riguardo la scrittura Bash, ABS (Advanced Bash
Scripting Guide), ed io ho trovato una traduzione in francese.
Si puó trovare la versione in inglese su www.tldp.org.
Questa guida mi ha permesso di scrivere alcuni piccoli programmi. Eccone la trascrizione:
#!/bin/bash REPERTOIRE=$(pwd) cd $REPERTOIRE mkdir ../ima mv *.png ../ima/ for i in `ls *` do gocr -f UTF8 -i $i -o $i.txt done cd .. mv ima/ $REPERTOIRE cd $REPERTOIRE cat *.txt | sed -e 's/_//g' -e 's/(PICTURE)//g' -e 's/ì/i/g' \ -e 's/í/i/g' -e 's/F/r/g' -e 's/î/i/g' > test.txt
ocr-rppwd fornirá il percorso dalla categoria alla scrittura, poi un ima é creato al difuori della categoria e vi saranno trasferiti tutti i documenti .png. Tutti i documenti .txt sono elencati, trattati con gocr, concatenati in testi .txt e modificati per adattarsi ai caratteri francesi.
Webpages maintained by the LinuxFocus Editor team
© Iznogood "some rights reserved" see linuxfocus.org/license/ http://www.LinuxFocus.org |
Translation information:
|
2006-07-05, generated by lfparser version 2.54