Интеллектуальный анализ: как в МИФИ создают цифровой фундамент для технологического лидерства России

Сегодня мы публикуем интервью с Алексеем Анатольевичем Артамоновым, доктором технических наук, заведующим кафедрой анализа конкурентных систем НИЯУ МИФИ. Недавно Алексей Анатольевич блестяще защитил докторскую диссертацию, посвященную интеллектуальному анализу данных. В своей работе он предложил систему, которая способна превращать хаос неструктурированной информации (от научных статей до постов в соцсетях) в стройные знания. Это интервью — о том, как устроен этот «цифровой процесс», где он применяется и какие перспективы открывает перед наукой и обществом.

Первоначально интервью было опубликовано на портале "Новости мира инноваций".

— Алексей Анатольевич, прежде чем мы поговорим о вашей докторской, расскажите немного о вашем научном пути. Чему была посвящена ваша кандидатская диссертация? Как вы пришли к теме интеллектуального анализа данных?

— Впервые с темой, которая дальше определила направление моих исследований я соприкоснулся на кафедре «Анализ конкурентных систем» Института международных отношений Национального исследовательского ядерного университета «МИФИ». Кафедру долгие годы возглавлял мой учитель, Борис Николаевич Оныкий — выдающийся ученый, доктор технических наук, профессор, ректор и президент МИФИ. Именно под его руководством я защитил кандидатскую диссертацию.

С 2008 года на кафедре проводились работы по разработке мультиагентных систем обработки научно-технической информации. Было понятно, что существенный рост возможностей публикаций информации в сети приведет к необходимости разработки принципиально новых методов, алгоритмов и программных средств потоковой обработки, анализа, визуализации и доставки целевой информации для различных пользователей. Уже тогда мы столкнулись с вызовом, который сегодня стоит особенно остро: как эффективно находить и обрабатывать огромные массивы научно-технических данных.

В 2016 году защитил кандидатскую диссертацию по теме – «Трехуровневая система агентного поиска и обработки научно-технической информации». В основе нашего подхода лежали мультиагентные технологии — когда множество автономных «агентов» выполняют поиск и анализ информации, обмениваясь данными друг с другом. Это позволяло решать задачу гораздо быстрее и эффективнее, чем при использовании традиционных методов.

Под научным руководством Бориса Николаевича на кафедре сформировалась сильная школа мультиагентных технологий, фундаментальный принцип которой — подготовка высококвалифицированных научно-педагогических кадров из числа выпускников кафедры с их обязательным вовлечением в реальные научно-исследовательские проекты. За последние десять лет, с 2016 по 2026 год, школа показала впечатляющие результаты: была защищена одна докторская (моя) и пять кандидатских диссертаций по специальности «Системный анализ, управление и обработка информации, статистика», реализовано более 20 хоздоговорных работ общим объемом свыше 100 миллионов рублей — и все в интересах органов исполнительной власти Российской Федерации, организаций контура Госкорпорации «Росатом» и других ключевых заказчиков. Это не просто цифры, это показатель доверия к нашим разработкам и реального спроса на результаты нашего труда. Моя докторская диссертация — во многом продолжение и развитие тех идей, которые мы закладывали вместе с ним, только теперь на новом, более высоком уровне, с учетом современных вызовов и технологий.

Особую признательность я хотел бы выразить моему научному консультанту по докторской диссертации —научному руководителю Лаборатории информационных технологий им. М.Г. Мещерякова Объединенного института ядерных исследований Владимиру Васильевичу Коренькову. Его глубокая экспертиза в области системного анализа и обработки информации, а также многолетний опыт руководства крупными научными проектами помогли мне выстроить целостную методологию и увидеть системные связи между, казалось бы, разрозненными задачами.

— Ваша докторская диссертация выглядит как фундаментальный труд, в котором решено сразу несколько глобальных проблем. Можете ли вы простыми словами объяснить, в чем суть вашего главного научного прорыва? Кто еще вовлечен в эти исследования?

— В какой-то момент стало очевидно: классические подходы к хранению и анализу «ломаются» о слабоструктурированные массивы данных. Текст научной статьи — это не просто набор слов, это сложная система взаимосвязей. Если мы хотим извлекать из таких массивов реальные новые знания, а не просто статистику, нам нужны новые методологические принципы. Поэтому я начал двигаться в сторону построения единой модели для описания абсолютно разных объектов — будь то человек в соцсети или сложный композитный материал, описанный в тысячах статей. Это и привело меня к теме докторской диссертации, в которой предложена целостная экосистема для интеллектуального анализа.

Если говорить простыми словами, создан «универсальный цифровой конструктор». Суть в том, что раньше для каждого типа данных (будь то патенты, статьи или посты) использовался свой набор инструментов и моделей. В работе предложена единая модель цифрового объекта. Представьте: любой объект — от научной статьи до профиля пользователя — теперь описывается одинаково: у него есть статические свойства (например, дата рождения или автор), динамические (частота публикаций), и вычисляемые (индекс цитируемости или рейтинг риска). К этому добавляется граф связей с другими объектами.

Второй элемент — это методы «насыщения» данных. Предложены и разработаны инструменты, которые извлекают из «сырого» текста научной статьи структурированные факты: физические величины в системе СИ, координаты организаций авторов, ключевые термины, данные из таблиц и др.

Эти исследования — это большая командная работа. В диссертации аккумулирован опыт, полученный при руководстве выполнении масштабных проектов. Мы взаимодействовали с ведущими отраслевыми институтами — это Объединенный институт ядерных исследований, Фонд перспективных исследований, АО «Прорыв», РФЯЦ-ВНИИТФ им. ак. Е. И. Забабахина, ВНИИА им. Н.Л. Духова, НИИ «Графит» и др. Без сильной команды ученых, программистов и аналитиков реализовать такой комплексный подход было бы невозможно.

— Как тема вашей диссертации соотносится с государственными приоритетами — программой «Приоритет 2030», задачами технологического лидерства России и, конкретно, с национальными проектами технологического лидерства (НПТЛ)? Ведь сейчас много говорят о доверенном искусственном интеллекте и качественных данных для промышленности.

— Это очень своевременный вопрос, потому что наша работа как раз лежит в той точке, где фундаментальная наука встречается с государственным заказом. Программа «Приоритет 2030» ставит перед университетами амбициозную задачу — быть не просто образовательными центрами, а драйверами технологического развития страны. В диссертации решена прикладная, инженерная проблема: как превратить гигантские массивы сырой, неструктурированной информации в работающий инструмент для принятия решений в высокотехнологичных отраслях.

Чтобы понять, как именно наши разработки встраиваются в реализацию национальных проектов технологического лидерства на государственном уровне, важно выделить два ключевых аспекта.

Первый — это доверенные данные. Любая система искусственного интеллекта сегодня — это, по сути, набор алгоритмов, обученных на данных. Если данные «грязные», противоречивые, разрозненные — результаты ИИ будут недостоверными. А в атомной энергетике, медицине или оборонной промышленности цена ошибки недопустима. Именно поэтому мы в диссертации разработали комплекс методов «насыщения данных» — автоматического извлечения, нормализации и верификации фактов из научной литературы и технической документации. Это создаёт тот самый фундамент, без которого невозможно говорить о цифровизации критически важных отраслей.

Приведу конкретный пример, который напрямую касается НПТЛ «Новые атомные и энергетические технологии». Мы выполнили проект для ВНИИА им. Н.Л. Духова (контур Госкорпорации «Росатом»), в рамках которого проанализировали более 40 тысяч научных публикаций по облученным реакторным материалам. Наша система автоматически «прочитала» эти статьи, выделила из них числовые данные о свойствах материалов — предел прочности, твёрдость, радиационную стойкость, дозы облучения, температуры — и привела их к единым стандартам, к системе СИ. В итоге мы сформировали структурированную базу данных с почти 9 тысячами верифицированных точек. Это не просто коллекция фактов — это доверенный набор данных, который сегодня используется инженерами Росатома для прогнозирования поведения материалов, планирования экспериментов и, в конечном счёте, для повышения безопасности и эффективности атомных энергоблоков. Вручную такой объем данных обрабатывали бы больше года — мы сделали это за три месяца. Это и есть практическое ускорение технологического цикла в рамках государственных приоритетов. (Работа проводилась совместно с кафедрой «Физические проблемы материаловедения» МИФИ.)

Второй аспект — это доверие к самому ИИ. В критических отраслях недостаточно получить прогноз от «чёрного ящика», нужно понимать, на каком основании система сделала тот или иной вывод. Поэтому в нашей методологии заложен принцип прозрачности и интерпретируемости. Эксперт всегда может проследить логику: от исходной научной статьи до вычисленного показателя. Мы строим так называемые «доверяемые аналитические системы», где каждый результат имеет свой цифровой след, и человек остаётся ключевым звеном принятия решений. Это особенно важно, когда мы говорим о внедрении ИИ в процессы, связанные с безопасностью и обороноспособностью страны.

Таким образом, моя диссертация – это инженерный фундамент для информационно-аналитического обеспечения национальных проектов технологического лидерства. Мы создаём технологии, которые позволяют перевести задачи мониторинга научно-технического развития, формирования карт кооперации и управления рисками из ручного, трудоёмкого процесса в область масштабируемого, управляемого и верифицируемого интеллектуального анализа. И это напрямую работает на достижение технологического суверенитета России.

— Одной из самых впечатляющих частей вашей работы выглядит визуализация данных — графы и «научно-технологические ландшафты». Что это такое и чем это может помочь, например, при планировании международного сотрудничества?

— Вы абсолютно правы, визуализация — это тот мост, который соединяет сложные алгоритмы и человеческое понимание. Ученый или руководитель не хочет изучать сырые таблицы, он хочет видеть карту.

Мы разработали инструмент построения гетерогенных графов. Например, взяв 48 тысяч публикаций ОИЯИ, мы построили граф, где красные узлы — это организации, а розовые — ключевые научные слова. Ребра между ними показывают, какая организация активно исследует какую тему. Визуально мы сразу видим тематические кластеры: где изучают физику частиц, где — ядерную медицину, и т.д. Применив фильтр, можно детально изучить сотрудничество по конкретному проекту.

Еще более мощный инструмент — «научно-технологический ландшафт» (НТЛ). Это трехмерная поверхность: по осям — темы и время, по высоте — количество публикаций.

Именно такие карты сегодня требуются на государственном уровне для реализации национальных проектов технологического лидерства. Потому что карта технологической кооперации — это основа для принятия решений о финансировании и международном сотрудничестве. Это ключевые документы, которые фиксируют всех участников проекта, перечень технологий, продуктовые цепочки и объёмы финансирования. По сути, это аналитический срез состояния целой отрасли. Раньше такие карты формировались вручную, на основе экспертных оценок, и это был долгий, трудоёмкий и не всегда объективный процесс.

А теперь представьте: мы берём наш инструмент построения научно-технологических ландшафтов и с его помощью в реальном времени анализируем, как развиваются исследования по редкоземельным металлам — а это один из приоритетов НПТЛ «Новые материалы и химия». Мы видим, кто является мировым лидером, какие страны и институты наиболее продуктивны, с кем у России уже есть научные связи, а с кем их нет, но есть потенциал. И на основе этих объективных данных государственный заказчик может принимать решение: с этим институтом из Китая стоит подписать соглашение о кооперации, а в этой тематике у нас критическое отставание — надо срочно запускать собственный исследовательский центр и финансировать его через государственную программу.

По сути, мы создали инструмент, который переводит формирование карт технологической кооперации из области интуитивных экспертных решений в область управляемого, масштабируемого и верифицируемого интеллектуального анализа больших данных. Это и есть практическая реализация того, как фундаментальная наука, которую мы делаем на кафедре, превращается в реальный механизм поддержки государственных решений. И, как показала апробация на данных ОИЯИ, этот подход работает — он даёт ответы, которые раньше было невозможно получить без многомесячной ручной работы целой группы аналитиков.

— Какие перспективы развития вашей системы вы видите, и куда планируете двигаться в ближайшие годы?

— Защита диссертации — это, безусловно, важный этап, но не финишная черта, а скорее точка отсчёта для нового, ещё более масштабного движения. Та работа, которую мы проделали за эти годы, заложила прочный фундамент, но этот фундамент требует надстройки. Мы видим несколько магистральных направления развития, и по каждому из них уже начата работа.

Первое направление — это углублённая интеграция современных нейросетевых моделей. Сейчас мы используем классические методы машинного обучения и обработки естественного языка — они хорошо работают для структурирования фактов, извлечения ключевых слов и нормализации величин. Но следующий шаг — это переход к тонкому семантическому анализу. Мы хотим, чтобы система не просто находила числовые значения в тексте, а понимала контекст: различала, например, когда автор сообщает о результатах собственного эксперимента, а когда цитирует чужую работу; улавливала нюансы тональности в социальных профилях; могла выявлять скрытые взаимосвязи между событиями, которые не лежат на поверхности. Для этого мы планируем внедрять современные языковые модели, включая отечественные разработки, адаптируя их под специфику научно-технических и социальных задач. Важно, чтобы это были не «тяжёлые» модели, требующие огромных вычислительных ресурсов, а оптимизированные решения, которые можно разворачивать в корпоративных контурах заказчиков.

Второе направление — расширение предметных областей. Мы успешно апробировали систему на атомной энергетике, медицине, финансовой безопасности. Но наш инструментарий универсален.

И, конечно, важнейшая часть этой работы — образовательная. Именно в Институте международных отношений мы готовим специалистов, которые завтра будут внедрять эти технологии в промышленности, науке и на государственной службе. Наша цель — создать полноценную образовательную траекторию, от базовых курсов по системному анализу до практических инженерных семинаров по работе с большими данными и интеллектуальному анализу. Мы готовим специалистов, которые одинаково свободно говорят на языке данных, на языке международных отношений и на языке предметной области заказчика.

Интеллектуальный анализ: как в МИФИ создают цифровой фундамент для технологического лидерства России

Полезные ссылки

Контакты

Форма поиска

Интеллектуальный анализ: как в МИФИ создают цифровой фундамент для технологического лидерства России

Полезные ссылки

Контакты