Адрес для входа в РФ: exler.wiki

Как много нам открытий чудных...

02.05.2006 14:26  8478   Комментарии (5)
Вы знаете, что в MS Office есть распознавалка, причем вполне неплохая? Я не знал. Спасибо ne0d1n, который просветил.

Программа называется Microsoft Office Document Imaging и находится в папке "Средства Microsoft Office". (Если компонент не установлен, то Office при первом запуске программы попросит дистрибутивный диск, чтобы его установить.)

Я потестировал - вполне понравилось.



Сканирует быстро и просто, не задавая лишних вопросов. Поддерживает режим сканирования многостраничных документов (опционально). Сам процесс сканирования достаточно наглядный.



Распознается текст очень быстро, так что после сканирования остается только выбрать пункт меню "Отправить текст в Microsoft Word", задав опционально возможность сохранения картинок. Смешанный (русский с английским) текст определяет вполне достойно.

Что классно, при распознавании текст сохраняется в достаточно простом формате (удобном для дальнейшей обработки), и программа старается сохранять только варианты начертания - например, полужирный и курсив. Картинки сохраняются в отдельной папке.

Вот, например, текст Word, полученный после сканирования простого листочка - текст.

Потестировал и на более сложной задаче - журнальный лист в несколько колонок с иллюстрацией: вот  отсканированный лист, вот распознанный документ.

Раньше для решения подобной задачи я пользовался Abbyy FineReader HomeEdition (он, в отличие от FineReader Pro, стоит вполне разумных, а не совершенно заоблачных денег). Но у этой версии есть серьезные недостатки, главный из которых - жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее. Ну и со сканированием (а точнее - с сохранением результатов распознавания) многостраничных документов там тоже большие проблемы - все это делается весьма неудобно

В данном же случае программа, с одной стороны, простенькая, но с другой - делает все что нужно, причем быстро и удобно.

"А пацаны-то и не знают" (с)
02.05.2006 14:26
Комментарии 5

В Офисе есть Документ Сканинг и Документ Имджинг (последний шире). Но при сканировании много ошибок, которые надо редактировать в Ворде. Файнридер и Омнипейдж (другие не пробовал) позволяют редакцию на уровне распознвания и дают возможные варианты замен. Да и качество распознавания много лучше.
06.10.06 20:20
0 0

Ага, я сам бы не узнал, если б не получил однажды документ с расширением .mdi . Оказалось, что это Microsoft Document Imaging, и для чтения нужно установить соответствующий компонент.
02.05.06 23:59
0 0

Понял, спасибо. Значит, мы не знали его много лет 😉
02.05.06 22:21
0 0

Небольшое замечание: Microsoft Office Document Imaging доступно, если я не ошибаюсь, с версии 2002 (т.е. Office XP). В 2000 его еще нет.
02.05.06 22:18
0 0

жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее.

Хм, а кто мешает сохранить из Ворда как "обычный текст" (.txt) ? При этом всё уберётся автоматом. А потом уже делать с текстом всё что нужно.
02.05.06 14:40
0 0
Теги
Сортировать по алфавиту или записям
BLM 21
Calella 144
exler.ru 281
авто 450
видео 4114
вино 360