Деякі особливості
При розпізнаванні документів дуже важливо, щоби OCR-система могла вчитись на невпевнено розпізнаних і нерозпізнаних символах. Ця властивість особливо актуальна при розпізнаванні великої кількості сторінок одного документа - навчивши систему один раз, можна пришвидшити процес розпізнавання.
Якими б ефективними не були алгоритми розпізнавання, що використовуються в OCR-системі, при низькій якості зображення уникнути помилок практично неможливо. Тому необхідна перевірка орфографії розпізнаних слів. Для корекції окремих помилок слід організувати взаємодію системи перевірки орфографії та OCR-системи таким чином, щоб забезпечити підбір варіантів символів, які імовірно були розпізнані з помилкою, і таким чином добитися орфографічної коректності слова. Як правило, OCR-системи підтримують велику кількість мов, а підтримка орфографії забезпечується тільки для їх частини. При цьому важливо, щоби існувала можливість поповнення словників вручну користувачем.
Кажучи про швидкість розпізнавання, можна відмітити той факт, що сучасні персональні комп’ютери (з процесорами Pentium і Celeron з тактовою частотою 500..800 MHz і оперативною пам’яттю 64 MB) виконують розпізнавання сторінки формату A4 з текстовим наповненням за 1..3 сек, а при наявності графічних об’єктів - за 20..25 сек. Тому для ефективної роботи з розпізнавання важливіша, все ж таки, точність, оскільки при неточному розпізнаванні виграш у часі буде програний за рахунок часових затрат на усунення помилок.
Дата добавления: 2014-12-08; просмотров: 794;