Исследование применимости метода на основе журнала событий для организации отказоустойчивых самобалансирующихся вычислений

7 Jul 2023, 12:45
15m
Room 310

Room 310

Distributed Computing Systems Distributed Computing Systems

Speaker

Dr Sergey Vostokin (Samara National Research University)

Description

В связи с ростом объема прикладных вычислений в области обработки больших данных и искусственного интеллекта, а также при решении традиционных задач численного моделирования, возникает необходимость в программах, способных развертываться и исполняться на гибридных окружениях, состоящих из произвольной совокупности сетевых вычислительных ресурсов. Такими ресурсами являются виртуальные машины различных облачных провайдеров; парк компьютеров компаний, временно простаивающий в нерабочее время; компьютеры “добровольцев”, как в проекте BOINC и других подобных проектах; свободные узлы крупных вычислительных кластеров.

Применение гибридных окружений позволяет уменьшить себестоимость вычислений, а также добиться их высокой производительности. Однако ключевыми проблемами, которые приходится решать при написании приложений для вычислительного окружения гибридного типа, являются проблемы отказоустойчивости и балансировки нагрузки. В силу специфики гибридного окружения само приложение, а не его вычислительное окружение (например, облако за счет виртуализации оборудования), должно решать обозначенные проблемы: компоненту приложения необходимо быстро приступать к вычислениям на вновь подключаемом ресурсе, в тоже время внезапное или плановое отключение ресурса с развернутым на нем компонентом приложения не должно приводить к отказу всего приложения. В работе представлено экспериментальное исследование метода организации вычислений и архитектура приложения, обладающего перечисленными свойствами при параллельной обработке множества независимых задач.

Особенностью предложенной организации вычислений является запуск функционально идентичных копий SPMD-приложений, которые синхронизируются и разделяют между собой нагрузку благодаря случайному выбору решаемых задач и обмену данными через журнал событий. Событиями в исследуемой архитектуре являются результаты выполнения задач. В экспериментах на имитационной модели проведена оценка объема избыточных вычислений вследствие такой организации приложений и накладных расходов на управление журналом событий через традиционный механизм запуска задач публичной облачной платформы Everest ИППИ РАН.

Показано, что предлагаемая организация вычислений позволяет успешно решать проблему отказоустойчивости и балансировки нагрузки, обеспечивая ускорение тогда, когда допустим избыточный объем вычислений (при доступности и низкой себестоимости вычислительных ресурсов). Предложенный метод организации вычислений может быть адаптирован для приложений с динамически формируемым множеством зависимых задач и реализаций на основе технологий блокчейна. Программный код и результаты его нагрузочного тестирования доступны в репозитории проекта Templet.

Summary

The report presents an experimental study of the applicability of the method based on the event log for organizing fault-tolerant self-balancing computing. It is shown that the proposed organization of computing makes it possible to successfully solve the problems of fault tolerance and load balancing, providing acceleration with some excessive amount of computing. The method can be adapted for applications with a dynamically generated set of dependent tasks and implementations based on blockchain technologies.

Primary author

Dr Sergey Vostokin (Samara National Research University)

Presentation materials