Автоматическое извлечение спецификаций из строительной документации
ИИ-система, которая извлекает спецификации из строительных чертежей и превращает PDF-документацию в структурированные данные: наименования материалов, единицы измерения, объёмы и другие параметры. Вместо ручного поиска таблиц и переноса данных из чертежей заказчик получает автоматический пайплайн обработки проектной документации.
Бизнес-контекст
В строительных и проектных компаниях значительная часть важных данных хранится не в базах данных, а внутри PDF-чертежей: спецификации, ведомости материалов, объёмы, единицы измерения, позиции, таблицы и технические параметры.
До автоматизации такие данные приходилось доставать вручную. Сотрудник открывал проектную документацию, искал нужные листы, находил таблицы, переносил значения в Excel или внутреннюю систему, проверял единицы измерения и сопоставлял позиции с классификаторами.
На небольшом количестве документов это возможно делать руками. Но когда документов десятки тысяч, ручная обработка становится узким местом.
Типовые проблемы такого процесса:
  • нужные спецификации находятся внутри PDF-чертежей, а не в структурированной базе;
  • таблицы могут быть на разных листах и в разном оформлении;
  • ГОСТ-рамки, технические шрифты и качество PDF усложняют распознавание;
  • сотрудники тратят много времени на поиск нужных страниц;
  • ручной перенос данных приводит к ошибкам;
  • данные сложно быстро сопоставлять с классификаторами и внутренними справочниками;
  • поток проектной документации невозможно масштабировать без роста ручного труда.

До автоматизации
Ручной процесс выглядел так:
  • сотрудник открывал проектный PDF;
  • просматривал листы и искал страницы со спецификациями;
  • вручную находил таблицы;
  • переносил наименования, единицы измерения и объёмы;
  • проверял структуру таблицы;
  • исправлял ошибки распознавания или копирования;
  • сопоставлял позиции с классификаторами;
  • загружал данные в Excel или внутреннюю систему.
Если нужно обработать не один проект, а большой архив документации, такой процесс становится слишком медленным. При десятках тысяч документов ручная обработка превращается в постоянную операционную нагрузку.

После автоматизации
Система автоматизирует извлечение данных из проектной документации.
На вход подаются:
  • PDF-чертежи;
  • проектная документация;
  • листы со спецификациями;
  • таблицы внутри технических документов;
  • архивы строительных документов.
На выходе система формирует структурированные данные:
  • наименования материалов;
  • единицы измерения;
  • объёмы;
  • позиции спецификации;
  • табличную структуру;
  • данные, пригодные для загрузки во внутренние системы;
  • основу для сопоставления с классификаторами и справочниками.
Вместо того чтобы вручную искать таблицы и переносить данные, сотрудник получает уже извлечённую и структурированную информацию.

Как работает ИИ
Решение состоит из нескольких этапов обработки документации.
Сначала система анализирует PDF и определяет, какие страницы содержат нужные спецификации. Это важно, потому что в проектной документации может быть много листов, и только часть из них содержит полезные для извлечения таблицы.
Затем выполняется обработка изображения страницы: удаляются лишние рамки, учитывается ГОСТ-оформление, выделяется область с таблицей. После этого система находит таблицу, сегментирует её на строки и столбцы и восстанавливает структуру.
Дальше включается OCR — оптическое распознавание текста. Отдельная сложность здесь в том, что строительные чертежи часто используют технические и ГОСТ-шрифты, которые хуже распознаются стандартными OCR-подходами. Поэтому пайплайн должен учитывать специфику проектной документации, а не просто “прочитать текст с картинки”.
На уровне ИИ и алгоритмов используются:
  • классификация страниц;
  • компьютерное зрение для поиска таблиц;
  • обработка PDF как изображений;
  • сегментация таблиц;
  • восстановление структуры строк и столбцов;
  • OCR для технических шрифтов;
  • постобработка распознанных значений;
  • сопоставление извлечённых данных с классификаторами.
Это не просто OCR. Это пайплайн, который превращает сложный технический PDF в данные, пригодные для дальнейшей автоматической обработки.

Бизнес-эффект
Главная ценность решения — сокращение ручной обработки проектной документации.
Заказчик получает:
  • автоматическую обработку большого массива чертежей;
  • снижение ручного переноса данных;
  • меньше ошибок из-за человеческого фактора;
  • ускорение работы с проектными спецификациями;
  • возможность обрабатывать документацию в потоке;
  • структурированные данные вместо PDF-таблиц;
  • основу для дальнейшей аналитики, расчётов и сопоставления с внутренними справочниками.
В проекте была автоматизирована обработка более 40 000 документов. Система извлекала наименования, единицы измерения и объёмы материалов, снижая долю ручной работы с проектной документацией.

Где применимо ещё
Такой подход можно использовать во всех задачах, где важные данные находятся внутри технических PDF, сканов, таблиц или чертежей.
Примеры применимости:
  • строительная проектная документация;
  • спецификации материалов;
  • ведомости объёмов работ;
  • инженерные чертежи;
  • исполнительная документация;
  • сметы и технические приложения;
  • обработка архивов PDF-документов;
  • извлечение таблиц из сканов;
  • сопоставление данных с классификаторами;
  • автоматизация документооборота в девелопменте;
  • подготовка данных для ERP, BIM или внутренних систем.

Результат
Результат — система, которая превращает строительные чертежи из неструктурированных PDF в пригодные для обработки данные.
Заказчик получает не просто распознанный текст, а извлечённые спецификации: позиции, материалы, единицы измерения, объёмы и структуру таблиц. Это позволяет быстрее работать с проектной документацией, уменьшить ручной труд и встроить обработку документов в более крупный цифровой процесс.
Такой кейс особенно ценен для компаний, у которых накоплены большие архивы проектной документации и где ручной перенос данных мешает масштабировать процессы.

Стек
Python, OpenCV, PyTorch, FastAPI, OCR, обработка PDF, компьютерное зрение, сегментация таблиц, восстановление структуры таблиц, распознавание ГОСТ-шрифтов.
Контакты:
+7 (931) 390-78-71
german_leontiev@mail.ru
Made on
Tilda