Как конвертировать PDF в Markdown для работы с AI и LLM

PDF — удобный формат для хранения, но плохой для подачи в языковые модели: текст из обычного скопировать нельзя, таблицы теряются, порядок чтения ломается. Конвертация в Markdown превращает PDF в структурированный текст, который AI понимает без дополнительной обработки.

У конвертации три выходных формата на выбор. Markdown (.md) сохраняет заголовки (#, ##), списки, таблицы и параграфы — идеально для загрузки в RAG-пайплайн, векторную базу или контекст ChatGPT/Claude. JSON с bounding boxes (.json) дополнительно указывает координаты каждого элемента на странице: где именно на листе находится абзац, ячейка таблицы или заголовок. Это нужно для ответов с цитатами-ссылками («смотри страницу 4, левая колонка»). HTML (.html) подходит для встройки в веб-приложения и системы управления знаниями.

Инструмент определяет структуру страницы: разбивает текст на смысловые блоки, восстанавливает правильный порядок чтения (в многоколоночных макетах автоматически), распознаёт таблицы со слиянием ячеек и вложенными заголовками. Для отсканированных PDF без текстового слоя сначала запустите OCR — тогда распознанный текст будет правильно размечен. Цифровые PDF (созданные в Word, Excel, LaTeX) конвертируются напрямую и быстрее.

Практический совет: если документ идёт в RAG-систему, выбирайте Markdown и дополнительно разбивайте результат на чанки по заголовкам второго уровня (##). Для LangChain или LlamaIndex это стандартный сплиттер. Если нужна точная привязка ответа к месту в документе — берите JSON и храните bounding boxes в метаданных вместе с вектором. Для простого копирования и редактирования хватает Markdown: его открывают Notion, Obsidian, VS Code и любой текстовый редактор.

Конвертировать PDF в Markdown