[LinuxFocus-icon]
Castellano Chinese Deutsch English Français Nederlands

Questo documento è disponibile in: Deutsch  English  Francais  Italiano  Turkce  

[Photo of the Author]
Iznogood
<iznogood/at/iznogood-factory.org>

L'autore:
Coinvolto in GNU/Linux per un certo periodo, ora mi occupo del sistema Debian. Malgrado i miei studi di elettronica, ho maggiormente effettuato lavori di traduzione per la comunitá di GNU/Linux.

Tradotto in Italiano da:
Lucia Di Gaeta <lucialinux/at/hotmail.co.uk>

Contenuto:

 

Una catena di strumenti per una transformazione da carta stampata a HTML

[Illustration]

Premessa:

Vi presenteró una catena di strumenti per trasformare la tradizionale carta stampata di una rivista in HTML. Illustreró il processo dalla scansione fino alla riproduzione in HTML.

_________________ _________________ _________________

 

Introduzione

Ho letto che alcune universitá negli Stati Uniti hanno aiutato o permesso a Google di digitalizzare la propria biblioteca sotto forma numerica. Io non sono Google e non possiedo una tale biblioteca, ma ho alcune riviste di elettronica vecchie. La qualitá della carta non é delle migliori: le pagine cominciano a staccarsi e la carta ad ingrigirsi...
Ho quindi deciso di convertire il tutto in forma digitale in quanto, anche se alcuni numeri non sono pubblicati da dieci anni, alcuni articoli sono ancora validi!

 

Hardware

Per cominciare, ho bisogno di inserire i dati nel mio computer. Uno scanner mi permetterá di farlo. Dopo alcuni controlli di compatibilitá, ne ho comprato uno, uno ScanJet 4300C di seconda mano, ma economico e dopo aver consultato Internet, ho trovato quello di cui avevo bisogno per configurarlo.
Su Debian, come d'abitudine ho installato sane, xsane, gocr e gtk-ocr:

apt-get install sane xsane gocr gtk-ocr
come radici.

Sane ed xsane sono gli strumenti per lo scanner di cui avevo bisogno per far sí che il mio HP funzionasse.
Gocr e gtk-ocr sono gli strumenti per trasformare un'immagine in testo.

Lo scanner ha un'entrata USB:
sane-find-scanner
Sono poi andato su /etc/sane.d/ per modificare alcuni documenti:
in dll.conf, ho decommentato
hp
niash
e ho modificato in commento tutto il resto.

In hp.conf e niash.conf, ho scritto:
/dev/usb/scanner0
option connect-device
e selezionato tutto il resto.

Ho modificato il gruppo proprietá per le periferiche dei files/dev/usb/scanner con
chgrp scanner scanner0
ed ho aggiunto iznogood come utente per permettermi di usare lo scanner senza esserne la radice:
adduser iznogood scanner
Un riavvio, ed é tutto fatto!

Per conservare le immagini, i riproduttori DVD sono economici abbastanza per questo lavoro, come ad esempio un NEC 3520. Ho un piccolo nucleo (2.4.18), di conseguenza il riproduttore IDE si é servito dell'interfaccia SCSI:
Con modconf, ho caricato ide-scsi

ed ho aggiunto /etc/lilo.conf:
append="hdb=ide-scsi ignore hdb"
poi
 lilo
per rendere il cambiamento effettivo.
Ho aggiunto /etc/fstab, in:
/dev/sdc0    /dvdrom     iso9660    user, noauto     0  0
E poi ho cambiato il gruppo scd0 in cdrom
chgrp cdrom scd0
Abbastanza semplice.

 

Software

Per continuare il processo, ho avuto bisogno di qualche software:
sane, xsane, gimp, gocr, gtk-ocr, un editore di testo e di html ed un po' di spazio sul disco rigido.

sane é l'interfaccia dello scanner e xsane é l'interfaccia grafica.
La mia idea é quella di mantenere la massima risoluzione ed ottenere un documento di 50 MB per pagina, salvarlo sul disco rigido per lavorarci ed una volta fatto, salvarlo su un DVD-ROM.
Ho aggiustato la risoluzione a 600 dpi, un po'piú di brillantezza ed ho cominciato la conversione. Siccome ho usato un vecchio computer (un PII 350 MHz), ci é voluto un po' di tempo, ma ho ottenuto un'immagine ottima e precisa. L'ho salvata in formato png.
Perché una tale risoluzione ed un documento di 50 MB? Ho voluto mantenere la risoluzione massima per l'archivio e per ulteriori processi numerici.
Con Gimp ho tagliato la pagina separando le immagini grafiche da quelle scansite come testo.
Ho salvato i grafici in png con dimensioni ridotte per adattarli ad una pagina html ed il testo e le immagini non sono state ridotte, ma modificate su una scala di grigi (Tools, Color Tools, Threshold e Ok) ed ho salvato con un'estensione .pcx per procedere con il software per il riconoscimento ottico.



Si puó vedere l'immagine scansita in alto a destra e le parti tagliate sulla sinistra.
Quando si taglia l'immagine, si possono rimuovere i titoli, in quanto occupano troppo spazio e non sono riconosciuti da gocr.
Ho creato una sottocategoria ima per le immagini e l'ho separata dai documenti .pcx.

Ora é il momento di gtk-ocr, l'interfaccia grafica di gocr. gocr é un software per il riconoscimento di caratteri ottici. É molto semplice da usare: basta selezionare i documenti e gtk-ocr si occuperá di tutto il resto. Ho ottenuto un documento .txt per ogni documento .pcx trattato.




Con un semplice
 cat *.txt > test.txt
ho ottenuto un test.txt e con un editore di testo ho apportato delle modifiche (caratteri non francesi rimossi, correzione delle parole...).

Dopo, Copia/Incolla sull'editore html, Mozilla Composer, ed ho cominciato con la mia composizione (bisogna assicurarsi di avere solamente i links relativi quando si aggiungono delle immagini).


 

Scrittura Bash

Mi ricordo sempre di un mio professore di matematica di quando ero piú giovane, che mi disse:

"Per essere pigro, hai bisogno di essere intelligente".

Va bene, ho quindi cominciato ad essere pigro !!!! ;-)

Ci sono alcune parti manuali che non sono facili da automatizzare (creazione di una categoria, scansione, tagli con gimp e creazione di documenti). Il resto puó essere automatizzato.
C'é un saggio in inglese riguardo la scrittura Bash, ABS (Advanced Bash Scripting Guide), ed io ho trovato una traduzione in francese.
Si puó trovare la versione in inglese su www.tldp.org.
Questa guida mi ha permesso di scrivere alcuni piccoli programmi. Eccone la trascrizione:


#!/bin/bash

REPERTOIRE=$(pwd)
cd $REPERTOIRE
mkdir ../ima
mv *.png ../ima/
for i in `ls *`
do
 gocr -f UTF8 -i $i -o $i.txt
done
cd ..
mv ima/ $REPERTOIRE
cd $REPERTOIRE
cat *.txt | sed -e 's/_//g'  -e 's/(PICTURE)//g' -e 's/ì/i/g' \
-e 's/í/i/g' -e 's/F/r/g' -e 's/î/i/g' > test.txt

Il documento é stato cambiato in esecutivo e copiato su /usr/local/bin come radice con il nome di ocr-rp.

Per farlo funzionare, c'é bisogno di essere nella categoria da processare ed avviare:
ocr-rp
pwd fornirá il percorso dalla categoria alla scrittura, poi un ima é creato al difuori della categoria e vi saranno trasferiti tutti i documenti .png. Tutti i documenti .txt sono elencati, trattati con gocr, concatenati in testi .txt e modificati per adattarsi ai caratteri francesi.

Dopo di ché si riprende lo stesso procedimento di prima: Copia/Incolla su Mozilla Composer.
La soluzione piú pigra sarebbe effettuare la trascrizione, aggiungere intestazioni e note a pié pagina al documento di testo, salvarlo ed aprire Mozilla composer direttamente, ma io sono troppo pigro. Lo faró domani!!!! ;-)

 

Conclusioni

Ho presentato una panoramica sugli strumenti di digitalizzazione e ci sono ovviamente diverse strade per farlo ed anche migliori. Ma c'é una costante nel mondo di GNU/Linux: gli strumenti dell'hardware sono supportati meglio di anno in anno e piú facili da usare.
Per esempio, ho usato un riproduttore DVD per conservare le mie immagini di 50 MB. L'installazione mi ha preso 10 minuti ed ho lavorato senza problemi con un k3b (Ho solamente dovuto: apt-get install dvdrtools dvd+rwtools).
Ma con un vecchio PII 350, 192MB di RAM, uno scanner economico, un riproduttore DVD, un po' di spazio sul disco rigido, ci sono strumenti di digitalizzazione abbastanza buoni per dare "immortalitá" ad una vecchia rivista di elettronica. Ecco la homepage per gli strumenti che ho usato per effettuare la digitalizzazione:
 

Discussioni su quest'articolo

ogni articolo possiede una sua pagina di discussione, da questa pagina puoi inviare un commento o leggere quelli degli altri lettori:




Webpages maintained by the LinuxFocus Editor team
© Iznogood
"some rights reserved" see linuxfocus.org/license/
http://www.LinuxFocus.org
Translation information:
en --> -- : Iznogood <iznogood/at/iznogood-factory.org>
en --> fr: Iznogood <iznogood/at/iznogood-factory.org>
en --> it: Lucia Di Gaeta <lucialinux/at/hotmail.co.uk>

2006-07-05, generated by lfparser version 2.54