Мониторинг кластера HTCondor

6 Jul 2023, 15:45
15m
Room 403

Room 403

Speaker

Egor Tsamtsurov (JINR)

Description

В рамках участия в различных экспериментах ОИЯИ предоставляет вычислительные ресурсы в виде batch-кластера, развернутого в виде виртуальных машин в облаке ОИЯИ на базе системы HTCondor. Так как batch-система - многокомпонентная сложная система, то одним из ключевых аспектов обеспечения ее бесперебойной работы является постоянный мониторинг состояния ее основных компонентов. В докладе представлена разработанная система мониторинга кластера HTCondor на базе стека технологий Node Exporter, Prometheus, Grafana. Рассмотрена общая архитектура системы мониторинга, взаимодействие ее подсистем и дополнительно разработанные компоненты: сборщик с возможностью параметризации запуска и динамически генерируемые панели визуализации полученных данных. Описаны процессы, происходящие в системе: начиная со сбора информации и заканчивая ее визуализацией. Разработки открыты и опубликованы, что позволяет свободно интегрировать их в сторонние инфраструктуры.

Primary author

Presentation materials