Success Story - rus

Сравнение качества выполнения бизнес-критериев при распознавании отсканированных документов

Мотивация запуска проекта заказчиком: потребность заказчика в обработке больших объемов документов выявила следующие недостатки: большинство доступных открытых решений работают слишком медленно. Кроме того, не определен набор сценариев, при которых решение перестает выдавать приемлемое качество распознавания текста на документе.

Описание исходной ситуации:
  • имеется набор открытых решений для задачи OCR; 
  • предоставлен набор документов и презентаций, на которых требуется распознать текст.

Цели проекта:
  • создать инструментарий для определения лучшего решения и границ его применимости.

Решение MIL Team: создан набор инструментов для тестирования решений TD+OCR и эффективного создания датасетов, состоящих из документов в “естественной” среде. С помощью этих инструментов командой из 2х человек в течении двух недель был создан датасет из 1000 изображений с выделением боксов отдельных слов на странице (можно посчитать человеко-часы на n страниц). Инструменты позволяют выделить изображения, на которых решения показывают низкую точность, и атрибутировать к параметрам изображения (поворот листа, освещение, тени, цветные текст и его фон) те или иные ошибки в работе алгоритмов.

Для построения модели были использованы:
  • Переданный заказчиком датасет электронных документов в формате pdf;
  • Решения для задачи TD+OCR в открытом доступе (Tesseract, EasyOCR).

Результаты моделирования:
  • Инструментарий тестирования TD+OCR решений;
  • Пять датасетов разной “сложности” из фотографий и сканов документов и презентаций.

Заказчик: ИСП РАН

Технологический стек: Python, OpenCV, Labelme


Computer Vision Research Division Engineering Division