Образование / Новости 12 сентября 2025 г. 10:37

Специализированный язык обработки данных для таблиц создали в Сибири

Новосибирск. 12 сентября. ИНТЕРФАКС - Ученые Института динамики систем и теории управления имени В. М. Матросова СО РАН (ИДСТУ СО РАН, Иркутск) разработали новый язык паттернов для извлечения наборов записей из документных таблиц редактируемых форматов рабочих книг, текстовых документов, веб-страниц и других, сообщает издание СО РАН "Наука в Сибири" со ссылкой на институт.

"В рамках крупного научного проекта Министерства науки и высшего образования РФ в нашем институте исследуются вопросы первичной обработки табличных данных, представленных в открытых источниках государственного экологического мониторинга озера Байкал и Байкальской природной территории. Первичная обработка данных во многом определяет стоимость и достоверность результатов последующего анализа данных. По современным оценкам, до 80% рабочего времени аналитиков данных занимает именно этот этап", - отмечается в сообщении.

Отмечается, что при текущем уровне развития информационных технологий данные процессы в общем случае не могут выполняться без участия человека, однако автоматизация должна сократить число операций, в которых задействованы люди.

"Одним паттерном можно покрыть целый класс таблиц, созданных по одному шаблону. Например, таблицы с гидрохимической характеристикой грунтовой воды, публикуемые в ежегодном государственном отчете по экологическому мониторингу озера Байкал, содержат данные, собранные за определенные временные рамки, но при этом оформляются по одному шаблону, и поэтому их структура может быть описана одним RTL-паттерном (register transfer level, который моделирует синхронную цифровую схему - ИФ)", - говорится в сообщении.

"С помощью RTL-паттернов из коллекции государственных докладов "О состоянии озера Байкал и мерах по его охране" были извлечены данные, касающиеся загрязнений озера Байкал и Байкальской природной территории за период с 2016 по 2023 год", - говорит автор разработки, ведущий научный сотрудник лаборатории комплексных информационных систем ИДСТУ СО РАН Алексей Шигаров.

В настоящее время новый язык применяется в ИДСТУ СО РАН для извлечения информации, структурированной в виде таблиц и представленной в различных открытых информационных ресурсах по Байкальской природной территории и озеру Байкал с целью создания цифровой платформы экологического мониторинга окружающей среды БПТ и озера.