Development of a software suite for testing server hardware

29 Oct 2024, 16:45
15m
3-310 (MLIT)

3-310

MLIT

Oral Information Technology Information Technology

Speaker

Egor Tsamtsurov (JINR)

Description

Тестирование серверного оборудования перед его вводом в эксплуатацию играет весомую роль в обеспечении надежной и бесперебойной работы развернутых систем на Многофункциональном Информационно-Вычислительном Комплексе Объединенного Института Ядерных Исследований (МИВК ОИЯИ). Основной целью тестирования является выявление скрытых дефектов, которые могут возникнуть при критических нагрузках на оборудование. Существуют различные эмпирические методы, описанные в производственных стандартах, используемые для выявления неисправностей оборудования. В докладе представлена система автоматизированного тестирования серверного оборудования, включающая автоматизацию установки средств тестирования, запуск тестов и сбор журналов тестирования. В текущей реализации тестирование осуществляется посредством метода Highly Accelerated Stress Screening (HASS), где в качестве параметров выступает максимальная температура испытуемого компонента в момент нагрузки. Важнейшей частью рассматриваемой системы является подсистема мониторинга, которая требуется для сбора и анализа температурных показателей тестируемых компонентов. Анализ данных мониторинга на этапе тестирования позволяет определить время тестирования с заданной точностью. Помимо инструментов мониторинга Node Exporter, Prometheus, Prometheus Gateway и Grafana, в системе используется Stress ng для нагрузки оборудования синтетическими тестами. Все из рассмотренных подсистем являются свободно распространяемыми, предложенная в докладе система может быть беспрепятственно использована для реализации подобного тестирования в аналогичных инфраструктурах.

Testing of server equipment prior to its operation is crucial for ensuring reliable and uninterrupted performance of deployed systems at the Multifunctional Information and Computation Complex of the Joint Institute for Nuclear Research (MICC JINR). The main purpose of testing is to identify hidden defects that may arise under critical loads on the equipment. There are various empirical methods described in production standards used to detect equipment failures. The paper presents an automated system for testing server equipment, including automation of test installation, launching tests, and collecting test logs. In the current implementation, testing is carried out using the method of Highly Accelerated Stress Screening (HASS), where the maximum temperature of the tested component during loading serves as a parameter. A key part of the considered system is the monitoring subsystem required for collecting and analyzing temperature data from the tested components. Data analysis during the testing phase allows determining the duration of testing with a given accuracy. In addition to the monitoring tools such as Node Exporter, Prometheus, Prometheus Gateway, and Grafana, the system uses Stress ng to load the equipment with synthetic tests. All of these subsystems are freely distributed, and the proposed system can be easily implemented for similar testing in comparable infrastructures.

Primary author

Egor Tsamtsurov (JINR)

Co-authors

Konstantin Lukyanov (MLIT, JINR) Mr Nikita Balashov (JINR)

Presentation materials