[LinuxFocus-icon]
<--  | Ana Sayfa  | Eriþimdüzeni  | Ýçindekiler  | Arama

Duyumlar | Belgelikler | Baðlantýlar | LF Nedir
[an error occurred while processing this directive]
[Photo of the Author]
Iznogood
<iznogood/at/iznogood-factory.org>

Yazar hakkýnda:

Bir süreliðine GNU/Linux ile ilgilendim ve þu anda Debian sistemi kullanýyorum. Elektronik çalýþmalara raðmen; çoðunlukla, GNU/Linux topluluðu için, bir Fransýzca çeviri çalýþmasý yapýyorum.



Türkçe'ye çeviri:
ONUR YILMAZ <onur2029(at)yahoo.com>

Ýçerik:

 

Kâðýttan HTML 'e dönüþüm için bir araç zinciri

[Illustration]

Özet:

Burada, bir geleneksel kâðýt dergiyi HTML 'e çevirmek için kullanýlan bir araç zinciri anlatýlmaktadýr. Taramadan html biçimine kadar olan süreci açýklayacaðým.

_________________ _________________ _________________

 

Giriþ

Bazý US üniversitelerinin Google 'a, kütüphanelerini dijitalleþtirmek (sayýsal ortama aktarmak) için, yardým edeceðini veya izin vereceðini okudum. Ben Google deðilim ve bir üniversite kütüphanem yok; fakat elektronik hakkýnda bazý eski kâðýt dergilerim var. Ve kâðýt kalitesi iyi deðil: Sayfalar iþe yaramaz hale gelmeye baþladý, grileþti...
Daha sonra dijitalleþtirmeye karar verdim; çünkü konular yaklaþýk olarak 10 yýl önce kapanmasýna raðmen, bazý makaleler daima güncel!

 

Donaným

Baþlamak için, veriyi bilgisayara aktarmak gerekli. Bir tarayýcý bana bunu yapmama izin verir: bazý uyumluluk denetimlerinden sonra bir tarayýcý aldým, kullanýlmýþ fakat ucuz ScanJet 4300C. Ve biraz internet gezintisiyle, onu yapýlandýrmak için gerekli ayarlarý buldum.
Debian 'da, sane, xsane, gocr ve gtk-ocr 'ý olaðan þekliyle kurdum:

apt-get install sane xsane gocr gtk-ocr
root iken.

Sane ve xsane benim HP tarayýcýmýn çalýþmasý için gerekli olan tarayýcý araçlarýdýr.
Gocr ve gtk-ocr metine dönüþmüþ bir görüntü yapan araçlardýr.

Tarayýcý bir USB tarayýcý:
sane-find-scanner
sonra bazý dosyalarý düzenlemek için /etc/sane.d/ 'e gittim:
dll.conf içinde, þunlarý
hp
niash
ve diðer her þeyi yorum konumundan çýkarttým (satýr baþlarýndaki # 'leri kaldýrarak).

hp.conf ve niash.conf içine, þunlarý yazdým:
/dev/usb/scanner0
option connect-device
ve diðer her þeyi yorum konumundan çýkarttým.

Aygýt dosyasýnýn /dev/usb/scanner gurup sahipliðini þununla deðiþtirdim
chgrp scanner scanner0
ve tarayýcýyý root olmadan kullanabilmek için kullanýcý olarak iznogood 'u ekledim:
adduser iznogood scanner
Bir yeniden baþlatma ve tamamlandý!

Görüntüleri depolamak için, DVD yazýcýlar iþ yapmaya yeterince ucuz, örneðin bir NEC 3520. Eski bir çekirdeðim var (2.4.18) bu yüzden, IDE yakýcý SCSI arabirimini kullanýr:
modconf ile, ide-scsi 'yi yüklettim

ve /etc/lilo.conf 'a þunu ekledim:
append="hdb=ide-scsi ignore hdb"
sonra
 lilo
iþleme sokulmasý amacýyla.
/etc/fstab içine, þunu ekledim:
/dev/sdc0    /dvdrom     iso9660    user, noauto     0  0
Sonra scd0 gurubunu cdrom 'a deðiþtirdim
chgrp cdrom scd0
Oldukça kolay.

 

Yazýlým

Ýþleme devam etmek için, bazý yazýlýmlara gereksinimim vardý:
sane, xsane, gimp, gocr, gtk-ocr, bir metin editörü, bir html editörü ve biraz disk alaný.

Sane tarayýcý arka ucu (arka plan iþlerini yapan program veya program parçasý) ve xsane grafiksel ön uç (kullanýcý arabiriminden sorumlu olan program veya program parçasý).
Amacým çözünürlüðü maksimum tutmak ve her sayfa için 50 MB bir dosya elde etmek, üzerinde çalýþmak için bir sabitdiskte depolamak ve tamamlandýðý zaman, bir DVD-ROM üzerine saklamaktý.
Çözünürlüðü 600 dpi 'a getirdim, biraz daha parlaklýk verdim ve dönüþtürmeye baþladým. Çok eski bir bilgisayar olduðundan (bir PII 350 MHz), biraz zaman aldý fakat iyi ve doðru bir görüntüye sahip oldum. Onu png biçiminde sakladým.
Neden böyle bir çözünürlük ve 50 MB dosya? Arþiv ve ilerideki sayýsal iþleme için çözünürlüðü maksimum tutmak istedim.
Gimp kullanarak sayfayý grafiksel görüntülere ve sadece taranmýþ metin içeren görüntülere kestim.
Grafikler, html sayfasýna uyacak þekilde küçültülmüþ boyutlarla, png olarak saklandý ve metin görüntüleri küçültülmedi, ama renkliden gri ve tonlarýna dönüþtürüldü (Tools, Colors Tools, Threshold ve Ok) ve optik tanýma yazýlýmýyla iþlemek için .pcx uzantýsýyla saklandý.



Taranmýþ görüntünün tamamýný sað üstte ve kesik parçalarý solda görebilirsiniz.
Resmi keserken, baþlýklarý kaldýrabilirsiniz; çünkü fazla alan iþgal ediyorlar ve gocr tarafýndan tanýnmayacaklar.
Görüntüler için bir ima alt dizini yaratýrým ve .pcx dosyalarýndan ayýrýrým.

Þimdi gtk-ocr zamaný, gocr ön ucu. gocr bir optik karakter tanýma yazýlýmýdýr. Kullanmasý çok kolay: Sadece dosyalarý seçmem gerekir ve gtk-ocr her þeyi yönetir. Bana her iþlenmiþ .pcx dosyasý için bir .txt dosyasý verdi.




Kolaylýkla
 cat *.txt > test.txt
bir test.txt 'te sahip oldum ve bir metin editörüyle bazý ayarlamalar yapmam gerekti. (fransýzca olmayan karakterler kaldýrýldý, sözcükler düzeltildi...).

Html editörüne bir Kopyala/Yapýþtýr, benim için Mozilla Composer, ve html kompozisyonuna baþladým (resimleri eklediðiniz zaman sadece iliþkili baðlantýlara (links) sahip olduðunuza dikkat edin).


 

Bash betikleme

Gençliðimde bana bu atasözünü söyleyen, bir matematik öðretmenini daima hatýrlarým:

"Tembel olmak için, zeki olman gerekir".

Tamam, tembel olmaya baþladým !!!! ;-)
Kolaylýkla otomatikleþtirilmeyen bazý el yordamý gerektiren bölümler var (dizin yaratýlmasý, tarama, gimp 'te kesme biçme ve dosya yaratýlmasý). Geri kalanýný otomatikleþtirebilirsiniz.
Bash betikleme hakkýnda inanýlmaz bir Ýngilizce öðretici var, ABS (Advanced Bash Scripting Guide) (Ýleri Bash Betikleme Kýlavuzu), ve bir Fransýzca çevirisini buldum.
Ýngilizce versiyonunu www.tldp.org 'da bulabilirsiniz.
Bu kýlavuz küçük bir program yazmama izin verdi. Ýþte betik:

#!/bin/bash

REPERTOIRE=$(pwd)
cd $REPERTOIRE
mkdir ../ima
mv *.png ../ima/
for i in `ls *`
do
 gocr -f UTF8 -i $i -o $i.txt
done
cd ..
mv ima/ $REPERTOIRE
cd $REPERTOIRE
cat *.txt | sed -e 's/_//g'  -e 's/(PICTURE)//g' -e 's/ì/i/g' \
-e 's/í/i/g' -e 's/F/r/g' -e 's/î/i/g' > test.txt

Dosya çalýþtýrýlabilir olarak deðiþtirildi ve /usr/local/bin 'e root olarak ocr-rp ismiyle kopyalandý.

Çalýþmasý için, iþlenecek dizinde olmamýz gerekir.Bunu çalýþtýrýn:
ocr-rp
pwd betiðe dizin yolunu verecek, sonra dizinin dýþýna ima yaratýlýr ve tüm .png dosyalarý içine taþýnýr. Tüm .txt dosyalarý sonra listelenir, gocr ile iþlemden geçirilir, test.txt 'de birleþtirilir ve Fransýzca karakterleri uydurmak için bazý deðiþiklikler yapýlýr.

Ve ayný iþleme önceden olduðu gibi devam ederiz: Mozilla Composer 'a kopyala/yapýþtýr .
En tembelce çözüm, betiðin bazý sayfa baþlýklarýný ve altlýklarýný metin dosyasýna eklemesini, bunu saklamasýný ve Mozilla Composer 'ý doðrudan açmasýný saðlamak olurdu fakat fazla tembelim. Bunu yarýn yapacaðým!!!! ;-)

 

Sonuç

Bu, dijitalleþtirme araçlarý hakkýnda sadece bir gözden geçirmeydi ve açýkçasý, bunu yapmak için birden fazla ve daha iyi yollar vardýr. Fakat GNU/Linux dünyasýnda bir gerçek vardýr: donaným araçlarý her yýl daha iyi desteklenir ve kullanýmý kolaylaþtýrýlýr.
Örneðin, benim 50 MB görüntüleri tutmak için bir DVD yazýcý kullandým. Kurulumu 10 dakikamý aldý ve k3b ile sýkýntý olmadan çalýþtý (Sadece yaptýðým: apt-get install dvdrtools dvd+rwtools).
Fakat eski bir PII 350, 192MB RAM, ucuz bir tarayýcý, DVD yazýcý, biraz sabitdisk alaný ile, elektronikle ilgili eski bir kâðýt dergiye "ölümsüzlük" vermek için yeterince iyi bir dijitalleþtirme aracýna sahipsiniz. Dijitalleþtirme yapmak için kullandýðým araçlarýn ana sayfalarý:
 

Bu yazý için görüþ bildiriminde bulunabilirsiniz

Her yazý kendi görüþ bildirim sayfasýna sahiptir. Bu sayfaya yorumlarýnýzý yazabilir ve diðer okuyucularýn yorumlarýna bakabilirsiniz.
 talkback page 

<--, Bu sayýnýn ana sayfasýna gider

Görselyöre sayfalarýnýn bakýmý, LinuxFocus Editörleri tarafýndan yapýlmaktadýr
© Iznogood, FDL
LinuxFocus.org
Çeviri bilgisi:
en --> -- : Iznogood <iznogood/at/iznogood-factory.org>
en --> fr: Iznogood <iznogood/at/iznogood-factory.org>
en --> tr: ONUR YILMAZ <onur2029(at)yahoo.com>

2005-08-25, generated by lfparser version 2.46