Сканирование текста

При подготовке книги автору приходится работать и с уже опубликованными материалами, в частности со ста­тьями, книгами. И часто возникает потребность включить в свою книгу цитату, таблицу или другой материал опуб­ликованного источника. Если объем включения невелик, допустим несколько строчек, текст несложно набрать вручную. Однако для больших объемов текста удобнее прибегнуть к помощи сканера и программы распознава­ния символов.

Сканер, работая по принципу фотоаппарата, пере­дает в компьютер точный снимок-картинку страницы с текстом. Однако работать с таким текстом невозможно: во-первых, в графическом формате страница занимает слишком много места, а во-вторых, сканированный текст можно только читать, но нельзя редактировать и нельзя вставлять его фрагменты в создаваемый автором доку­мент. Сканер не распознает буквы: они для него — некие пятна черного цвета.

Однако разработаны программы, способные перевес­ти сканированный текст из графического в текстовый фор­мат — программы распознавания (OCR). Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так рабо­тали программы первого поколения), но и самыми экзо­тическими, вплоть до рукописных. Уметь корректно ра­ботать с текстами, содержащими слова на нескольких язы­ках, распознавать таблицы. И главное, корректно рас­познавать не только четкие тексты, но и далеко не иде­альные, например текст с пожелтевшей газетной вы­резки или третьей машинописной копии.

Но распознать текст — полдела. Столь же важно обеспечить возмож­ность сохранения результата в файле популярного тек­стового (или табличного) формата — скажем, формата Microsoft Word или Excel.

Трон "короля" OCR в России делят две программы — CuneiForm и FineReader. Обе программы можно приобре­сти или получить бесплатно при покупке сканера. В част­ности, компания Hewlett Packard, на долю которой при­ходится добрых три четверти рынка сканеров в России, поставляет вместе со своей продукцией упрощенную вер­сию CuneiForm.

FineReader традиционно славится высочайшим каче­ством распознавания, например при текстовом распоз­навании стандартного книжного текста с помощью FineReader я смог обнаружить не более 5 ошибок на стра­нице распознанного текста. При работе с CuneiForm было до 7—8 ошибок. Что же касается бледных и смазанных документов, то тут FineReader вне конкуренции. Эта си­стема безукоризненно справляется с многоколонными и многостраничными текстами, а также с таблицами, кор­ректно экспортируя их в программы Microsoft Office. На­конец (как и CuneiForm), FineReader способен работать с многоязычными документами — программа поддержива­ет около 40 языков, в том числе языки республик быв­шего СССР.

Едва ли не главное достоинство FineReader — в его простом и удобном интерфейсе (визуальной оболочке про­граммы, с которой и общается пользователь при работе), что редко для профессиональных программ. Для запуска распознавания достаточно положить документ в сканер и нажать единственную кнопку на панели инструментов про­граммы. При распознавании многостраничных документов пользователю нужно только менять страницы и давать команду для продолжения сканирования. По окончании распознавания FineReader самостоятельно объединяет все распознанные страницы в один файл, который потом мож­но передать в Word или Excel.

Еще большими возможностями обладает профессио­нальная версия программы — FineReader Professional. Она умеет безукоризненно читать штрих-коды, позволяет добавлять в базу данных новые языки. Кроме того, эта версия великолепно умеет работать с формами типовых документов (модификация FineReader Forms). И уж поис­тине гигантским интеллектом обладает третья модифи­кация программы — FineReader Рукопись, которая спо­собна корректно распознать даже нечеткий рукописный шрифт.








Дата добавления: 2016-03-05; просмотров: 1064;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.005 сек.