OCR-распознавание

OCR-распознавание – инструмент, который позволяет распознавать текст из загруженный в систему сканов документов, фотографий и т.д. Часто в КБНТИ загружаются исторические документы, которые не имеют полноценной электронной копии, а имеют только сканированный оригинал. Тем не менее, потребности бизнеса по работе с этими документами такие же, как и с исходно электронными (машиночитаемыми) документами:

из этих документов должна быть возможность копировать данные (при условии наличия соответствующих разрешений);
по этим документам должна быть возможность искать (как внутри самого документа, так и поиск данных из этого документа в рамках глобального поиска по системе);
для этих документов также должно выполняться автоматическое распознавание, поиск и установка ссылок на ссылочные документы (те документы, на которые в тексте ссылается данный документ).

Для удовлетворения этих потребностей в КБНТИ предусмотрено автоматическое OCR-распознавание всех документов, у которых отсутствует текстовый слой (распознанный и машиночитаемый текст). Качество OCR-распознавания, конечно, зависит от качества исходного файла (скана, картинки и т.д.), чем выше будет качество у исходного файла, тем успешнее пройдет OCR-распознавание.

Настройки OCR-распознавания расположены в консоли администратора.