Speaker
Description
В рамках участия в различных экспериментах ОИЯИ предоставляет вычислительные ресурсы в виде batch-кластера, развернутого в виде виртуальных машин в облаке ОИЯИ на базе системы HTCondor. Так как batch-система - многокомпонентная сложная система, то одним из ключевых аспектов обеспечения ее бесперебойной работы является постоянный мониторинг состояния ее основных компонентов. В докладе представлена разработанная система мониторинга кластера HTCondor на базе стека технологий Node Exporter, Prometheus, Grafana. Рассмотрена общая архитектура системы мониторинга, взаимодействие ее подсистем и дополнительно разработанные компоненты: сборщик с возможностью параметризации запуска и динамически генерируемые панели визуализации полученных данных. Описаны процессы, происходящие в системе: начиная со сбора информации и заканчивая ее визуализацией. Разработки открыты и опубликованы, что позволяет свободно интегрировать их в сторонние инфраструктуры.