OCR-распознавание – инструмент, который позволяет распознавать текст из загруженный в систему сканов документов, фотографий и т.д. Часто в КБНТИ загружаются исторические документы, которые не имеют полноценной электронной копии, а имеют только сканированный оригинал. Тем не менее, потребности бизнеса по работе с этими документами такие же, как и с исходно (машиночитаемыми) документами.

Настройки OCR-распознавания расположены в консоли администратора в соответствующем разделе. Среди параметров такие как:

  • Активный OCR – параметр указывает используемый движок OCR. Значение должно совпадать с одним из значений поля «Имя движка». На текущий момент КБНТИ поддерживает два варианта: cuneiform и tesseract, наиболее часто используемый  tesseract;
  • Язык используемый при распознавании язык. Задаётся в виде общепринятого сокращения: rus, eng и т.д. Для выбранных языков должны быть установлены данные для распознавания. Возможно указание двух значений через +, например, «rus+eng»;
  • Файл общего словаря служебный файл модуля проверки орфографии; 
  • Использовать проверку орфографии параметр регулирует использование дополнительного средства проверки орфографии для возможного улучшения результатов распознавания;
  • и другие.