|
|
|
|
|
|
- Bilgisayar Hakkında Herşeyi Bulabilirsiniz |
|
OCR Büyüsü Yazıya Dönüşen Resimler
Eğer elinizin altında bilgisayarda yazılması gereken
yüzlerce sayfalık belge bulunuyorsa, maalesef sadece iki
seçeneğiniz var: Ya günlerce, sabah akşam demeden
bunları yazacaksınız ya da belgenin tümünü OCR tekniği
ile okutarak tüm işi bir günde bitireceksiniz. Seçim
sizin!
• Bilgisayarınızın içinde bulunan donanımlar ve yüklemiş
olduğunuz yazılımların hepsi, tek bir amaç
doğrultusunda, kullanıcıların işlerini kolaylaştırmak
için üretilmiş yardımcılardır. Bir donanım parçası olan
yazıcı, sizi tüm belgeleri oturup el ile yazmaktan
kurtarırken, bir yazılım olan Word ise yazıya
istediğiniz şekli vermenizi sağlar... Sonuçta donanımlar
ve bunları kullanmak için yazılmış olan yazılımlar hep
ikili olarak çalışarak işlerinizi kısa zamanda, hatasız
ve zahmetsiz bir şekilde tamamlamanıza yardımcı olurlar.
Size çok zaman kazandıracak muhteşem teknoloji: OCR
Donanım olarak tarayıcı ve OCR yazılımları da işte bu
ikililer içinde yer alır. Optical Character
Recognization (optik karakter tanıma) kelimelerinin baş
harflerinden oluşan OCR teknolojisi, kısaca resim
formatındaki herhangi bir dosya içindeki yazıyı
tanıyarak sonradan tekrar düzenlenebilecek metin
biçimine dönüştürebilir. Yani eğer elinizde, içinde yazı
bulunan bir JPG, GIF, TIF ya da BMP dosyası varsa OCR
teknolojisi bunu içinden çıkartıp TXT ya da DOC olarak
kaydedebilir.
Tabii ki bu resim dosyasını elde etmek için bir de
tarayıcıya ihtiyacınız olacak. Bu şekilde önce herhangi
bir kitabı, dergiyi ya da kağıt üzerine yazılmış yazıyı
tarayıcınızı kullanarak bilgisayara bir resim dosyası
olarak aktardıktan sonra kullandığınız OCR yazılımı
diğer tüm işlemleri yapacaktır. Hesaplayacak olursanız
bir A4 sayfasının bilgisayara aktarılması; taranması
için ortalama 40, 45 sn. ve karakterlerin tanımlanması
için de l dakika olacak şekilde 2, hataların
düzeltilmesini de eklerseniz ortalama 2,5 dakika içinde
bitecektir. 10 parmak klavye kullanan profesyonellerin
bile zor eriştiği bu süre, özellikle bu konuda çok iyi
değilseniz gerçekten muhteşem olarak nitelendirilebilir.
Ocr Büyüsü
Çalışacağınız dile göre OCR yazılımının seçimi önemli
Ancak öncelikle yapmanız gereken bazı ayarlar ve
bilmeniz gereken bazı ön bilgiler mevcut. Bu konuda ilk
dikkat etmeniz gereken, tarayacağınız metinlerin diline
uygun bir OCR programı seçmek olmalıdır. Bu konuda
özellikle Fine Reader ve Recognita gibi yazılımlar,
destekledikleri dillerin fazlalığı açısından başı
çekmektedirler. Bu yazılımların yanında eğer İngilizce
metinler ile ağırlıklı olarak çalışacağınızı
düşünüyorsanız, Text Bridge ve Pagegenie gibi benzeri
birçok farklı yazılımı da deneyebilirsiniz. Bu yazıda
ise çok fazla sabit disk alanı kaplamaması ve Türkçe
dahil 50'den fazla dil desteği ile Fine Reader
programının kullanılması anlatılacaktır. Yazılımı bu
ayki Chip CD'si içinden sisteminize kurabilirsiniz.
Taradığınız resimler içinde yer alan düzgün okunan hemen
her türlü yazının OCR tarafından tanınması mümkün
oluyor.
Eğer tarayıcınızı sisteminize tanıtıp, CD'den de Fine
Reader yazılımım kurduysanız artık işlemlere
başlayabilirsiniz, ilk etapta eğer biraz önce
bahsettiğimiz gibi İngilizce dışında bir dilin tanımım
yapacaksanız Fine Reader'ın sitesinden istediğiniz dile
ait yama dosyasını indirmeniz gerekiyor, http:/ /www.abbyy.com/download/index.htm
adresinden boyları l ile 2 Mb arasında değişen yamayı
kurduğunuz an artık yazılımınız o dili de tanır. Şimdi
Başlat menusu altından ABBYY FineReader klasöründeki
yazılımın kısayolu ile programı çalıştırabilirsiniz.
Sihirbazların kullanımı ile kolaylaşan tanımlama
işlemleri
Programın oldukça sade ama kullanışlı ana ekranı
üzerinde menüler ve araç çubuğunun yanı sıra bir OCR
sihirbazı da bulunuyor. Bunun yanı sıra ilk açılışta
çalışma penceresi, solda taranan sayfaların ikonları
sağda ise içeriği olacak şekilde ikiye ayrılmış olarak
görünür. Taranacak sayfayı tarayıcıya yerleştirdikten
sonra buradan isterseniz F9 kısayolu ile ya da
sihirbazın en başında yer alan Scan&Read simgesi ile
otomatik ve hızlı bir şekilde hem tarama hem de
tanımlamayı gerçekleştirebilirsiniz. Ancak bu işlemi ilk
tarama için yapmanız pek tavsiye edilmez. Çünkü
karakterlerin başarılı bir şekilde tanımlanması için
önce tarayıcınız ile ilgili birkaç ince ayar
gerekebilir. İlk birkaç taramada en iyi sonucu alana
kadar uzun yoldan ayarları yaptıktan sonra diğer
sayfalar için bu tuşu kullanmanız daha iyi olacaktır.
İyi sonuç için yapılması gereken ön ayarlar
Şimdi sayfa tarayıcı içindeyken birinci adım olarak
üzerinde "l" yazan Scan simgesine tıklayın.
Tarayıcınızın arabirimi karşınıza gelecektir. Fine
Reader tarayıcınıza gerekli bilgileri yolladığından
burada tarama modu olarak 256 renk gri, çözünürlük
olarak 300 dpi ve orta derece parlaklık ayarları
otomatik olarak seçili olacaktır. Aksi durumda bu
ayarları el ile yapmanız gerekebilir. Tarayıcıların
markasına göre yeri değişebilecek bu ayarlar için
tarayıcınızın kullanma kılavuzuna bakabilirsiniz. Bizim
örnek olarak kullandığımız Genius marka tarayıcıda bu
ayarlar oldukça renkli bir arabirim üzerinde sağ tarafta
bulunmaktaydı.
Taramadan önce sayfanın doğru konumda olduğunun kontrolü
işlem sona erdiği zaman program yazıyı sütunlar hariç
neredeyse birebir düzeyde tanıyabiliyor.
Gerekli ayarlan yaptıktan sonra yine tarayıcınıza göre
değişecek "Preview" ya da "Prescan" gibi tuşlar ile önce
bir ön izleme alıp sayfayı düzgün yerleştirip
yerleştirmediğinizi kontrol edin. Daha sonra "Scan" yani
tarama tuşu ile taramayı gerçekleştirebilirsiniz. Tarama
işleminin ardından, taranan resim Fine Reader'a
gönderilecek ve programa geri dönülecektir. Bundan sonra
artık 3 parçaya bölünmüş olarak çalışacak olan çalışma
penceresinde sağ tarafta üst bölümde taranmış olarak
bulunan siyah beyaz sayfa yer alır. Alttaki bölüm ise
navigasyona yarar. Şimdi artık "2" no'lu Mark Blocks
simgesine tıklayabilirsiniz.
Bu işlem otomatik olarak içinde yazı bulunan bölümlerin
bloklanarak seçilmesini sağlayacaktır. Böylelikle
tanımlama esnasında programın sadece yazıların olduğu
bölümlere odaklanarak daha hızlı çalışmasını
sağlayabilirsiniz.
İsterseniz bu adım atlanarak 3. adıma da geçilebilir.
Ancak bu süreyi uzatacağı için pek tavsiye edilmez. 3.
adımda "Recognize" tuşuna basıldığı zaman tanımlama
işlemi başlayacak ve bittiği zaman da yeni bir pencere
açılıp sonuç burada font boyları ve yazı biçimi büyük
bir oranda korunmaya çalışılarak görüntülenecektir. Bu
adımdan sonra yapmanız gereken, artık dönüştürülmüş
metin üzerinde olası hataları tespit edip düzeltmekten
ibaret.
Ne kadar başarılı olsa da siz kontrolü elden bırakmayın
Eğer kendi gözünüze güvenmiyorsanız, metni kaydedip
sonradan herhangi bir metin editörü ile düzeltmeleri
yapabilirsiniz. Ancak eğer isterseniz bu işlem için de
Fine Reader size yardımcı olabiliyor. 4. adımda yer alan
"Check Re-sults" simgesi, kendince hatalı gördüğü ya da
tanımakta zorluk çektiği kelimeleri sıralayacağı bir
pencere açacaktır. Burada şüpheli kelimeleri bir bir
düzeltip devam edebilirsiniz. Pencere içinde yer alan
oldukça geniş sözcük dağarcığı da istediğinizi
bulmanızda size yardımcı olacaktır. "Change to"
bölümünde yer alan alana düzeltmeyi yapıp "Replace"
olarak değişecek Confirm tuşuna bastığınızda düzeltme
yapılacak ve bir sonraki kelimeye geçilecektir. Alt
bölümde bulunan "Suggest" alanı ise biraz önce de
bahsettiğimiz sözlük içinden benzer kelimeleri
listeleyerek size tavsiyelerde bulunacaktır.
Tarayıcılara göre tarama arabirimi değişse de hemen
hepsinde dpi, parlaklık ve renk modu ayarı mutlaka
bulunur.
Eğer yaptığınız düzeltme tavsiyeler arasında yoksa "Add"
tuşunu kullanarak bunu listeye eklemeniz de mümkün. Bu
durumda aynı kelime üzerine bir sonraki düzeltmede
önerilenler arasında bu kelime de yer alacaktır. Eğer
düzeltme gerekmiyorsa "Confirm" ya da "Ignore" tuşunu
kullanıp bu kelimeyi geçebilirsiniz. Close ile bu
pencereden çıkabilirsiniz. Türkçe sözlük kullandığınız
için program tüm İngilizce kelimelerde hata varmış gibi
gösterebilir. Bunu göz ardı edebilirsiniz.
Sihirbazın en son adımı olan 5. adımda ise, tüm
sonuçları listede yer alan Word ya da Excel gibi bir
programa gönderebilirsiniz. Sonuçların rtf, doç, txt ve
htm gibi tüm metin biçimlerinde dosya olarak
kaydedilmesi, varsayılan e-mail programına ya da panoya
gönderilmesi de buradan mümkün olmaktadır. Eğer bu
seçenekler arasından Word'ü seçtiyseniz, Fine Reader'ın
neredeyse sayfanın birebir tasarımını belge içinde de
oluşturduğunu da görebilirsiniz. Program burada
yazıların dışında resimleri de ayıklayarak doğru
yerlerine yerleştirecektir.
Önceden taranmış resimlerin tanımlanması da çok farklı
değil
Eğer taramaya gerek duymuyorsanız, yani zaten hazırda
olan bir resmi yazılım içinde kullanmak istiyorsanız,
ilk adım hariç diğer adımları aynen uygulayarak da
sonuca ulaşabilirsiniz. Bu durumda ilk adımda
gerçekleştirdiğimiz l nolu "Scan" işlemi yerine bunun
hemen solunda yer alan Scan&Read'in alt seçeneklerinden
birini kullanmamız gerekecektir. Simgenin hemen
yanındaki aşağı ok tuşuna bastığınızda açılacak olan
menüden "Open&Read" seçeneğini kullanarak sabit
diskinizdeki herhangi bir resim dosyasını
seçebilirsiniz.
Ancak tabii ki en iyi sonucun alınması için seçeceğiniz
resmin de bazı niteliklere sahip olması gerekir.
Dolayısıyla daha yüksek çözünürlüklü ve daha okunaklı
resimlerin düşük çözünürlüklü ve karmaşık yazılar içeren
resimlere göre daha fazla şansı olacağını da unutmayın.
Ayrıca seçeceğiniz resmi daha önceden bir resim
düzenleme yazılımı ile 256 renk gri tonlamaya ya da
sadece yazı ise siyah beyaz renk modu-na çevirerek
programın tanımlama kalitesini artırabilirsiniz.
Çok fazla hata yapmasa da Fine Reader içinde yer alan
hataları 4 adımda düzeltebilirsiniz.
Sihirbaz içindeki sihirbaz ile hızlı sayfa tanımlamaları
Daha önce yazının başında da belirttiğimiz gibi eğer tüm
sihirbaz adımlarını izleyerek başarılı bir şekilde
tanımlama yapmaya başladıysanız artık Scan&Read'i
kullanıp, tarayıcınız varsa ilk 3 adımın yoksa da 2 ile
3. adımların otomatik olarak gerçekleştirilmesini
sağlayabilirsiniz. Bunun yanı sıra bu ilk simgenin
yanındaki aşağı ok tuşunu kullanarak da sihirbaz
içindeki Scan&Read adlı diğer bir sihirbazı da devreye
sokabilirsiniz. Bu durumda eğer sisteminizde tarayıcı
varsa onunla ilgili yapmanız gereken ön ayarları program
size gösterecektir.
OCR teknolojisinin yapıp yapamayacakları ve hataları
Sonuç olarak tarayıcılar ile birlikte kullanılan OCR
yazılımları, basılı metni bilgisayara aktarmak için
kullanılabilecek inanılmaz programlardır. Üstelik sadece
matbu harfleri değil, düzenli yazılmış el yazısını da
tanıyabilirler. Ancak bu işlem, biraz daha uzun
sürebilir. Sonuçta el yazınıza alışık olmayan programın
tanıyamadığı her harf ya da kelime için öğrenme ile
geçecek bir zamana hazır olmanız gerekebilir. Ayrıca
çoğu OCR programında rastlandığı gibi Fine Reader'da da
bulunan doğal bir hata birbirine çok yakın karakter
tiplerinde harflerin yanlış algılanmasına yol açabilir.
Sonuçları Word'e gönderdiğimizde taradığınız sayfanın
resimler ile birlikte neredeyse birebir kopyasına
ulaşabiliyorsunuz.
Bu durumda yazının dönüştürülmesinin ardından "d" olarak
algılanmış "ol", "m" gibi algılanmış "rn" ya da
olabilecek benzeri kombinasyonlara da dikkat etmek
gerekir. Karakter tiplerinin tanımlanması ve bunların
korunarak dönüştürme işleminin yapılabilmesi için bu
karakter tiplerinin bilgisayarınızda yüklü olması
gerektiğini de unutmayın. Aksi takdirde buna en yakın
karakter tipi seçilecektir.
|
|
|
|