Воодушевился, решил посмотреть что это за зверь. Под Ubuntu 10.04 собралась нормально, но засырать систему make install не хотелось, собирать пакет тоже, поэтому скачал win сборку и запустил в виртуальной машине под ХР.
Исходный файл с распознаваемым текстом (размер шрифта 10 Times New Roman) получил конвертированием текстового документа в рисунок: OpenOffice odt > PDF> GIMP > tif (без сжатия)
Подсунул ему вот такое изображение:
И вот, что я получил на выхлопе:
Весьма печально - один мусор. На всякий случай привожу параметры запуска.
Решил увеличить шрифт в документе до 14.
Не помогло:
Тот же текст (и тот же файл) c 14-ым шрифтом в FineReader 8:
Будем надеяться, что в скором обозримом будущем Tesseract немного подтянут, хотябы до уровня Cuneiform...
К сожалению пока очень не хватает Open Source-системы распознавания текста уровня хотя бы 6-го FineReader...

Так вроде виндовый tesseract без языковых модулей идет.
ОтветитьУдалитья скачал и подключил языковый модуль, опция -l rus
ОтветитьУдалитьcuneiform+yagf
ОтветитьУдалить