Бизнес-контекстВ строительных и проектных компаниях значительная часть важных данных хранится не в базах данных, а внутри PDF-чертежей: спецификации, ведомости материалов, объёмы, единицы измерения, позиции, таблицы и технические параметры.
До автоматизации такие данные приходилось доставать вручную. Сотрудник открывал проектную документацию, искал нужные листы, находил таблицы, переносил значения в Excel или внутреннюю систему, проверял единицы измерения и сопоставлял позиции с классификаторами.
На небольшом количестве документов это возможно делать руками. Но когда документов десятки тысяч, ручная обработка становится узким местом.
Типовые проблемы такого процесса:
- нужные спецификации находятся внутри PDF-чертежей, а не в структурированной базе;
- таблицы могут быть на разных листах и в разном оформлении;
- ГОСТ-рамки, технические шрифты и качество PDF усложняют распознавание;
- сотрудники тратят много времени на поиск нужных страниц;
- ручной перенос данных приводит к ошибкам;
- данные сложно быстро сопоставлять с классификаторами и внутренними справочниками;
- поток проектной документации невозможно масштабировать без роста ручного труда.
До автоматизацииРучной процесс выглядел так:
- сотрудник открывал проектный PDF;
- просматривал листы и искал страницы со спецификациями;
- вручную находил таблицы;
- переносил наименования, единицы измерения и объёмы;
- проверял структуру таблицы;
- исправлял ошибки распознавания или копирования;
- сопоставлял позиции с классификаторами;
- загружал данные в Excel или внутреннюю систему.
Если нужно обработать не один проект, а большой архив документации, такой процесс становится слишком медленным. При десятках тысяч документов ручная обработка превращается в постоянную операционную нагрузку.
После автоматизацииСистема автоматизирует извлечение данных из проектной документации.
На вход подаются:
- PDF-чертежи;
- проектная документация;
- листы со спецификациями;
- таблицы внутри технических документов;
- архивы строительных документов.
На выходе система формирует структурированные данные:
- наименования материалов;
- единицы измерения;
- объёмы;
- позиции спецификации;
- табличную структуру;
- данные, пригодные для загрузки во внутренние системы;
- основу для сопоставления с классификаторами и справочниками.
Вместо того чтобы вручную искать таблицы и переносить данные, сотрудник получает уже извлечённую и структурированную информацию.
Как работает ИИРешение состоит из нескольких этапов обработки документации.
Сначала система анализирует PDF и определяет, какие страницы содержат нужные спецификации. Это важно, потому что в проектной документации может быть много листов, и только часть из них содержит полезные для извлечения таблицы.
Затем выполняется обработка изображения страницы: удаляются лишние рамки, учитывается ГОСТ-оформление, выделяется область с таблицей. После этого система находит таблицу, сегментирует её на строки и столбцы и восстанавливает структуру.
Дальше включается OCR — оптическое распознавание текста. Отдельная сложность здесь в том, что строительные чертежи часто используют технические и ГОСТ-шрифты, которые хуже распознаются стандартными OCR-подходами. Поэтому пайплайн должен учитывать специфику проектной документации, а не просто “прочитать текст с картинки”.
На уровне ИИ и алгоритмов используются:
- классификация страниц;
- компьютерное зрение для поиска таблиц;
- обработка PDF как изображений;
- сегментация таблиц;
- восстановление структуры строк и столбцов;
- OCR для технических шрифтов;
- постобработка распознанных значений;
- сопоставление извлечённых данных с классификаторами.
Это не просто OCR. Это пайплайн, который превращает сложный технический PDF в данные, пригодные для дальнейшей автоматической обработки.
Бизнес-эффектГлавная ценность решения — сокращение ручной обработки проектной документации.
Заказчик получает:
- автоматическую обработку большого массива чертежей;
- снижение ручного переноса данных;
- меньше ошибок из-за человеческого фактора;
- ускорение работы с проектными спецификациями;
- возможность обрабатывать документацию в потоке;
- структурированные данные вместо PDF-таблиц;
- основу для дальнейшей аналитики, расчётов и сопоставления с внутренними справочниками.
В проекте была автоматизирована обработка более 40 000 документов. Система извлекала наименования, единицы измерения и объёмы материалов, снижая долю ручной работы с проектной документацией.
Где применимо ещёТакой подход можно использовать во всех задачах, где важные данные находятся внутри технических PDF, сканов, таблиц или чертежей.
Примеры применимости:
- строительная проектная документация;
- спецификации материалов;
- ведомости объёмов работ;
- инженерные чертежи;
- исполнительная документация;
- сметы и технические приложения;
- обработка архивов PDF-документов;
- извлечение таблиц из сканов;
- сопоставление данных с классификаторами;
- автоматизация документооборота в девелопменте;
- подготовка данных для ERP, BIM или внутренних систем.
РезультатРезультат — система, которая превращает строительные чертежи из неструктурированных PDF в пригодные для обработки данные.
Заказчик получает не просто распознанный текст, а извлечённые спецификации: позиции, материалы, единицы измерения, объёмы и структуру таблиц. Это позволяет быстрее работать с проектной документацией, уменьшить ручной труд и встроить обработку документов в более крупный цифровой процесс.
Такой кейс особенно ценен для компаний, у которых накоплены большие архивы проектной документации и где ручной перенос данных мешает масштабировать процессы.
СтекPython, OpenCV, PyTorch, FastAPI, OCR, обработка PDF, компьютерное зрение, сегментация таблиц, восстановление структуры таблиц, распознавание ГОСТ-шрифтов.