|
![]() |
|
![]() Iznogood <iznogood/at/iznogood-factory.org> Yazar hakkýnda: Bir süreliðine GNU/Linux ile ilgilendim ve þu anda Debian sistemi kullanýyorum. Elektronik çalýþmalara raðmen; çoðunlukla, GNU/Linux topluluðu için, bir Fransýzca çeviri çalýþmasý yapýyorum. Türkçe'ye çeviri: ONUR YILMAZ <onur2029(at)yahoo.com> Ýçerik: |
Kâðýttan HTML 'e dönüþüm için bir araç zinciri![]() Özet:
Burada, bir geleneksel kâðýt dergiyi HTML 'e çevirmek için kullanýlan bir araç zinciri anlatýlmaktadýr.
Taramadan html biçimine kadar olan süreci açýklayacaðým.
|
Bazý US üniversitelerinin Google 'a, kütüphanelerini dijitalleþtirmek
(sayýsal ortama aktarmak) için, yardým edeceðini veya izin vereceðini
okudum. Ben Google deðilim ve bir üniversite kütüphanem yok; fakat
elektronik hakkýnda bazý eski kâðýt dergilerim var. Ve kâðýt kalitesi iyi deðil:
Sayfalar iþe yaramaz hale gelmeye baþladý, grileþti...
Daha sonra dijitalleþtirmeye
karar verdim; çünkü konular yaklaþýk olarak 10 yýl önce kapanmasýna raðmen, bazý makaleler
daima güncel!
Baþlamak için, veriyi bilgisayara aktarmak gerekli. Bir tarayýcý bana bunu
yapmama izin verir: bazý uyumluluk denetimlerinden sonra bir tarayýcý aldým, kullanýlmýþ
fakat ucuz ScanJet 4300C. Ve biraz internet gezintisiyle, onu yapýlandýrmak için
gerekli ayarlarý buldum.
Debian 'da, sane, xsane, gocr ve gtk-ocr 'ý olaðan þekliyle kurdum:
apt-get install sane xsane gocr gtk-ocrroot iken.
sane-find-scannersonra bazý dosyalarý düzenlemek için /etc/sane.d/ 'e gittim:
hp niashve diðer her þeyi yorum konumundan çýkarttým (satýr baþlarýndaki # 'leri kaldýrarak).
/dev/usb/scanner0 option connect-deviceve diðer her þeyi yorum konumundan çýkarttým.
chgrp scanner scanner0ve tarayýcýyý root olmadan kullanabilmek için kullanýcý olarak iznogood 'u ekledim:
adduser iznogood scannerBir yeniden baþlatma ve tamamlandý!
append="hdb=ide-scsi ignore hdb"sonra
liloiþleme sokulmasý amacýyla.
/dev/sdc0 /dvdrom iso9660 user, noauto 0 0Sonra scd0 gurubunu cdrom 'a deðiþtirdim
chgrp cdrom scd0Oldukça kolay.
Ýþleme devam etmek için, bazý yazýlýmlara gereksinimim vardý:
sane, xsane, gimp, gocr, gtk-ocr, bir metin editörü, bir html editörü ve biraz disk alaný.
Sane tarayýcý arka ucu (arka plan iþlerini yapan program veya program parçasý) ve
xsane grafiksel ön uç (kullanýcý arabiriminden sorumlu olan program veya program parçasý).
Amacým çözünürlüðü maksimum tutmak ve her sayfa için 50 MB bir dosya elde etmek,
üzerinde çalýþmak için bir sabitdiskte depolamak ve tamamlandýðý zaman, bir DVD-ROM
üzerine saklamaktý.
Çözünürlüðü 600 dpi 'a getirdim, biraz daha parlaklýk verdim ve dönüþtürmeye baþladým.
Çok eski bir bilgisayar olduðundan (bir PII 350 MHz), biraz zaman aldý fakat
iyi ve doðru bir görüntüye sahip oldum. Onu png biçiminde sakladým.
Neden böyle bir çözünürlük ve 50 MB dosya? Arþiv ve ilerideki sayýsal iþleme
için çözünürlüðü maksimum tutmak istedim.
Gimp kullanarak sayfayý grafiksel görüntülere ve sadece taranmýþ metin içeren
görüntülere kestim.
Grafikler, html sayfasýna uyacak þekilde küçültülmüþ boyutlarla, png olarak saklandý
ve metin görüntüleri küçültülmedi, ama renkliden gri ve tonlarýna dönüþtürüldü (Tools, Colors Tools,
Threshold ve Ok) ve optik tanýma yazýlýmýyla iþlemek için .pcx uzantýsýyla saklandý.
cat *.txt > test.txtbir test.txt 'te sahip oldum ve bir metin editörüyle bazý ayarlamalar yapmam gerekti. (fransýzca olmayan karakterler kaldýrýldý, sözcükler düzeltildi...).
Gençliðimde bana bu atasözünü söyleyen, bir matematik öðretmenini daima
hatýrlarým:
"Tembel olmak için, zeki olman gerekir".
Tamam, tembel olmaya baþladým !!!! ;-)
Kolaylýkla otomatikleþtirilmeyen bazý el yordamý gerektiren bölümler var (dizin yaratýlmasý,
tarama, gimp 'te kesme biçme ve dosya yaratýlmasý). Geri kalanýný otomatikleþtirebilirsiniz.
Bash betikleme hakkýnda inanýlmaz bir Ýngilizce öðretici var, ABS (Advanced Bash Scripting Guide)
(Ýleri Bash Betikleme Kýlavuzu), ve bir Fransýzca çevirisini buldum.
Ýngilizce versiyonunu www.tldp.org 'da bulabilirsiniz.
Bu kýlavuz küçük bir program yazmama izin verdi. Ýþte betik:
#!/bin/bash REPERTOIRE=$(pwd) cd $REPERTOIRE mkdir ../ima mv *.png ../ima/ for i in `ls *` do gocr -f UTF8 -i $i -o $i.txt done cd .. mv ima/ $REPERTOIRE cd $REPERTOIRE cat *.txt | sed -e 's/_//g' -e 's/(PICTURE)//g' -e 's/ì/i/g' \ -e 's/í/i/g' -e 's/F/r/g' -e 's/î/i/g' > test.txt
ocr-rppwd betiðe dizin yolunu verecek, sonra dizinin dýþýna ima yaratýlýr ve tüm .png dosyalarý içine taþýnýr. Tüm .txt dosyalarý sonra listelenir, gocr ile iþlemden geçirilir, test.txt 'de birleþtirilir ve Fransýzca karakterleri uydurmak için bazý deðiþiklikler yapýlýr.
|
Görselyöre sayfalarýnýn bakýmý, LinuxFocus Editörleri tarafýndan yapýlmaktadýr
© Iznogood, FDL LinuxFocus.org |
Çeviri bilgisi:
|
2005-08-25, generated by lfparser version 2.46