Особенно ощутимо это на банковских выписках: десятки страниц операций, которые иначе пришлось бы перебивать руками. Сюда же – бухгалтерские отчёты и акты сверки, прайс-листы поставщиков с сотнями позиций, каталоги товаров с ценами и артикулами, а ещё выгрузки из госсистем (Росстат, ФНС, ЕГРЮЛ, ГИС ЖКХ), которые отдают данные только в PDF. Один прогон – и у вас XLSX или CSV, готовый к фильтрам, сводным таблицам и загрузке в 1С, CRM или BI-систему.
Хорошо работают «электронные» PDF, где таблица – это структура, а не картинка: границы строк и столбцов видны, текст выделяется мышью. С такими файлами сервис восстанавливает структуру с точностью, близкой к ручному переносу. Отсканированные таблицы (картинка без текстового слоя) сначала нужно прогнать через OCR – без него извлечь нечего, потому что для PDF это всего лишь набор пикселей.
XLSX на выходе удобен, когда таблиц много и они должны сразу открыться с заголовками и листами. CSV пригодится для импорта в учётные системы и базы данных – самый «универсальный» формат данных, его читает всё. Если в исходнике несколько таблиц на странице, инструмент извлекает их раздельно, а не сваливает в одну – структура сохраняется.