Methods of Statistical Analysis in Server Hardware Failure Prediction

30 Oct 2024, 14:50
15m
3-310 (MLIT)

3-310

MLIT

Oral Information Technology Information Technology

Speaker

Альберт Дзахоев

Description

В работе Многофункционального информационно-вычислительного комплекса (МИВК) Лаборатории информационных технологий (ЛИТ) Объединенного института ядерных исследований (ОИЯИ) задействован большой объем серверного оборудования, которое обеспечивает вычислительными ресурсами многие научные группы и эксперименты. Некоторые компоненты этого оборудования подвержены износу и должны своевременно заменяться для обеспечения бесперебойной работы комплекса. В МИВК формируется склад запасных частей, что позволяет ускорить процесс замены выходящего из строя оборудования. В докладе рассмотрена рекомендательная система, позволяющая прогнозировать выход из строя компонентов серверов и оптимизировать планирование склада запасных частей. Кроме того, представлены инструменты для сбора показателей работы оборудования, их хранения и последующей обработки, а также примеры статистических методов для прогнозирования отказов. Разработанное решение построено на свободно распространяемых компонентах и может использоваться в аналогичных инфраструктурах. В дальнейшем планируется интегрировать его в систему инвентаризации ОИЯИ.

In the operation of the Multifunctional Information and Computing Complex (MICC) of the Laboratory of Information Technologies (LIT) at the Joint Institute for Nuclear Research (JINR), a large volume of server equipment is utilized, which provides computational resources to many scientific groups and experiments. Some components of this equipment are subject to wear and must be replaced in a timely manner to ensure the uninterrupted operation of the complex. A spare parts warehouse is established within the MICC, allowing for faster replacement of failing equipment. The report discusses a recommendation system that enables the prediction of server component failures and optimizes the planning of the spare parts inventory. Additionally, it presents tools for collecting equipment performance indicators, their storage and subsequent processing, as well as examples of statistical methods for failure prediction. The developed solution is built on freely distributed components and can be used in similar infrastructures. It is planned to integrate it into the JINR inventory system in the future.

Primary authors

Mr Nikita Balashov (JINR) Альберт Дзахоев

Presentation materials