We help machines to see better

AThesist

Полностью автоматическое решение по структуризации данных распознавания в PDF файлах научных работ СССР и Российской федерации (диссертационные материалы), хранящихся в библиотечных фондах Российских библиотек. Решение предназначено для перевода неструктурированной текстовой (текстовый слой PDF, полученный с помощью распознавания сканов работ) и графической информации (сопроводительные изображения, схемы, графики и т.д.) в формат, содержащий основные структурные элементы (заголовки, абзацы, иллюстрации, таблицы, колонтитулы, математические и физико-химические формулы, и т.д.) с «привязкой» по координатам к расположению на исходных сканах. Выходной формат данных (JSON) является базой для воссоздания научных работ в формате электронной книги (epub, fb2).

^ Наверх