OCR-распознавание – инструмент, который позволяет распознавать текст из загруженный в систему сканов документов, фотографий и т.д. Часто в КБНТИ загружаются исторические документы, которые не имеют полноценной электронной копии, а имеют только сканированный оригинал. Тем не менее, потребности бизнеса по работе с этими документами такие же, как и с исходно (машиночитаемыми) документами.
Настройки OCR-распознавания расположены в консоли администратора в соответствующем разделе. Среди параметров такие как:
- Активный OCR – параметр указывает используемый движок OCR. Значение должно совпадать с одним из значений поля «Имя движка». На текущий момент КБНТИ поддерживает два варианта: cuneiform и tesseract, наиболее часто используемый – tesseract;
- Язык – используемый при распознавании язык. Задаётся в виде общепринятого сокращения: rus, eng и т.д. Для выбранных языков должны быть установлены данные для распознавания. Возможно указание двух значений через +, например, «rus+eng»;
- Файл общего словаря – служебный файл модуля проверки орфографии;
- Использовать проверку орфографии – параметр регулирует использование дополнительного средства проверки орфографии для возможного улучшения результатов распознавания;
- и другие.