Общелабораторный семинар (Кашунин И.)
Thursday 14 November 2024 -
15:00
Monday 11 November 2024
Tuesday 12 November 2024
Wednesday 13 November 2024
Thursday 14 November 2024
15:00
Алгоритмы машинного обучения для мониторинга устройств МИВК ЛИТ ОИЯИ
-
Ivan Kashunin
(
JINR
)
Gennady Ososkov
(
Joint Institute for Nuclear Research
)
Александр Баранов
(
(JINR)
)
E.I. Lysenko
(
MLIT JINR
)
Алгоритмы машинного обучения для мониторинга устройств МИВК ЛИТ ОИЯИ
Ivan Kashunin
(
JINR
)
Gennady Ososkov
(
Joint Institute for Nuclear Research
)
Александр Баранов
(
(JINR)
)
E.I. Lysenko
(
MLIT JINR
)
15:00 - 15:40
Room: 134/3-* - 310
Крупнейшими составляющими МИВК ЛИТ ОИЯИ являются грид сайты JINR CMS Tier-1 и JINR WLCG Tier-2. Данные ресурсы обладают высоким уровнем отказоустойчивости, благодаря своевременному реагированию специалистами на различные сбои. В этом им помогает система мониторинга LITmon [2], которая позволяет отслеживать тысячи различных параметров и выводить основные из них на экран оператора, упрощая слежение за вычислительным комплексом. Часть данных выводится специалистам в виде текстовых логов, например вывод логов серийных консолей серверов. Их чтение и классификация представляют собой рутинную задачу мониторинга логов, которую необходимо выполнять несколько раз в день, чтобы узнать о многих критичных ситуациях, связанных с оборудованием. Для выполнения задачи мониторинга логов с серийных консолей была организована система их хранения в специальной базе данных (БД) на основе программного обеспечения (ПО) Loki, а так же платформы безопасности на базе ПО Wazuh. Для этого же был создан специальный информационный экран, использующий ПО Grafana, который позволяет составлять так называемые регулярные выражений, чтобы фильтровать логи оставляя только те, которые информируют о критичных ситуациях, исключая сообщения, свидетельствующие о нормальной работе серверов. Однако, с началом эксплуатации, выяснилось, что практика использования такого рутинного алгоритма формирования регулярных выражений имеет важный недостаток, – возникает большое число ложных срабатываний. Решение проблемы ложных срабатываний путём написания более сложных регулярных выражений потребовало бы значительных усилий и усложнило процесс классификации логов для нахождения тех, что сигнализируют об ошибках. Более эффективным подходом для решения проблемы такой классификации стало применение рекуррентных нейронных сетей (РНН) типа LSTM. Для генерации обучающей выборки, требуемой для тренировки нейросети, нами был разработан алгоритм создания запросов к БД на базе простых регулярных выражений. Затем полученная выборка вручную дорабатывалась для исключения элементов, не соответствующих определенному классу. Преимущество данного подхода в том, что такая доработка менее затратна по сравнению с рутинным алгоритмом, где требовалось написание кода. Здесь достаточно было только удалить ненужные элементы из обучающей выборки, что гораздо проще. С помощью библиотек pytorch была разработана нейромодель LogMon для мониторинга логов. Она была обучена на различных выборках, сгенерированных, как указано выше, и способна вести классификацию по 8 различным типам регулярных выражений. Далее было проведено тестирование на реальной выборке логов, накопленной за 2 недели. Для оценки эффективности алгоритмов была рассчитана известная метрика полнота как процент правильно распознанных отказов оборудования по отношению ко всем поданным на вход логам. Также был рассчитан процент распознавания ошибок алгоритмами с учетом ошибок индикации по классам. Результаты для нейромодели LogMon следующие: полнота = 97,21%, распознавание ошибок алгоритма = 99,19%. Для рутинного алгоритма эти результаты составили 62,87% и 47,02% соответственно, что говорит о несомненном преимуществе нейросетевого подхода. __Machine learning algorithms for JINR MLIT MICC devices monitoring__ Monitoring the serial console logs of JINR MLIT MICC servers has always been a pressing issue. To reduce the response time to failure, the classification of a large number of lines, which is a routine and labor-intensive process, must be repeated several times a day. The solution to this problem was to create special regular expressions that allowed separating logs with errors. However, such an approach resulted in a multitude of false positives. The problem was settled by creating a neural network model, LOGmon. It enabled to increase the percentage of log recognition, while significantly reducing the number of false positives. The application of this model in the LITmon monitoring system will enhance the level of server reliability by providing timely warnings about possible emergency situations. The report presents a neural network algorithm and the implemented neural model that allows creating an alternative to the typical algorithm on top of regular expressions used in the JINR MLIT MICC.