Как распознать текст в отсканированном PDF

Отсканированный PDF – это набор картинок. Чтобы выделить, найти или скопировать текст, нужно оптическое распознавание (OCR). После обработки поверх изображения появляется невидимый текстовый слой.

OCR анализирует пиксели страницы и определяет символы. Качество распознавания зависит от чёткости скана: достаточно 200–300 DPI, текст должен быть ровным и контрастным. Перекошенные или засвеченные страницы распознаются хуже.

После обработки вы получаете PDF с «двойным» содержимым: изображение страницы остаётся, но под ним лежит текстовый слой. Это позволяет искать текст (Ctrl+F), копировать фрагменты, а программы чтения с экрана смогут прочитать документ вслух.

Инструмент поддерживает русский и английский языки. При смешанных текстах обычно достаточно выбрать основной язык документа.

Распознать текст (OCR)