Сканирование текста

При подготовке книги автору приходится работать и с уже опубликованными материалами, в частности со статьями, книгами. И часто возникает потребность включить в свою книгу цитату, таблицу или другой материал опубликованного источника. Если объем включения невелик, допустим несколько строчек, текст несложно набрать вручную. Однако для больших объемов текста удобнее прибегнуть к помощи сканера и программы распознавания символов.

Сканер, работая по принципу фотоаппарата, передает в компьютер точный снимок-картинку страницы с текстом. Однако работать с таким текстом невозможно: во-первых, в графическом формате страница занимает слишком много места, а во-вторых, сканированный текст можно только читать, но нельзя редактировать и нельзя вставлять его фрагменты в создаваемый автором документ. Сканер не распознает буквы: они для него — некие пятна черного цвета.

Однако разработаны программы, способные перевести сканированный текст из графического в текстовый формат — программы распознавания (OCR). Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали программы первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, распознавать таблицы. И главное, корректно распознавать не только четкие тексты, но и далеко не идеальные, например текст с пожелтевшей газетной вырезки или третьей машинописной копии.

Но распознать текст — полдела. Столь же важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word или Excel.

Трон "короля" OCR в России делят две программы — CuneiForm и FineReader. Обе программы можно приобрести или получить бесплатно при покупке сканера. В частности, компания Hewlett Packard, на долю которой приходится добрых три четверти рынка сканеров в России, поставляет вместе со своей продукцией упрощенную версию CuneiForm.

FineReader традиционно славится высочайшим качеством распознавания, например при текстовом распознавании стандартного книжного текста с помощью FineReader я смог обнаружить не более 5 ошибок на странице распознанного текста. При работе с CuneiForm было до 7—8 ошибок. Что же касается бледных и смазанных документов, то тут FineReader вне конкуренции. Эта система безукоризненно справляется с многоколонными и многостраничными текстами, а также с таблицами, корректно экспортируя их в программы Microsoft Office. Наконец (как и CuneiForm), FineReader способен работать с многоязычными документами — программа поддерживает около 40 языков, в том числе языки республик бывшего СССР.

Едва ли не главное достоинство FineReader — в его простом и удобном интерфейсе (визуальной оболочке программы, с которой и общается пользователь при работе), что редко для профессиональных программ. Для запуска распознавания достаточно положить документ в сканер и нажать единственную кнопку на панели инструментов программы. При распознавании многостраничных документов пользователю нужно только менять страницы и давать команду для продолжения сканирования. По окончании распознавания FineReader самостоятельно объединяет все распознанные страницы в один файл, который потом можно передать в Word или Excel.

Еще большими возможностями обладает профессиональная версия программы — FineReader Professional. Она умеет безукоризненно читать штрих-коды, позволяет добавлять в базу данных новые языки. Кроме того, эта версия великолепно умеет работать с формами типовых документов (модификация FineReader Forms). И уж поистине гигантским интеллектом обладает третья модификация программы — FineReader Рукопись, которая способна корректно распознать даже нечеткий рукописный шрифт.

<16 17 181920 21 22 >

Дата добавления: 2016-03-05; просмотров: 1248;