2DeepWeb: Tesseract 3.00 - тест на коленке...

05.10.2010

Tesseract 3.00 - тест на коленке...

На RSS ленте появилась новость, что вышла новая стабильная версия Open Source-системы распознавания текста (OCR) — Tesseract 3.00. В ней появилась поддержка множества языков, среди которых и русский.
Воодушевился, решил посмотреть что это за зверь. Под Ubuntu 10.04 собралась нормально, но засырать систему make install не хотелось, собирать пакет тоже, поэтому скачал win сборку и запустил в виртуальной машине под ХР.

Исходный файл с распознаваемым текстом (размер шрифта 10 Times New Roman) получил конвертированием текстового документа в рисунок: OpenOffice odt > PDF> GIMP > tif (без сжатия)
Подсунул ему вот такое изображение:

И вот, что я получил на выхлопе:

Весьма печально - один мусор. На всякий случай привожу параметры запуска.

Решил увеличить шрифт в документе до 14.
Не помогло:

Тот же текст (и тот же файл) c 14-ым шрифтом в FineReader 8:

Будем надеяться, что в скором обозримом будущем Tesseract немного подтянут, хотябы до уровня Cuneiform...
К сожалению пока очень не хватает Open Source-системы распознавания текста уровня хотя бы 6-го FineReader...