(по материалам кандидатской диссертации)
Одним из ключевых компонентов в реализации проекта NICA, наравне с ускорителем и детекторными установками BM@N, MPD и SPD, является вычислительная инфраструктура, которая необходима для обработки, анализа, хранения и передачи больших объёмов экспериментальных данных. В ЛИТ создана распределённая гетерогенная вычислительная среда, построенная на базе ПО DIRAC. В неё входят кластеры Tier1 и Tier2, суперкомпьютер «Говорун», кластер NICA, кластер DDC, облака стран-участниц ОИЯИ, кластер UNAM в Мексике и кластер IMDT в Монголии и др. Для интеграции облачных ресурсов был разработан новый программный инструментарий, позволяющий напрямую интегрировать облака, работающие на базе ПО OpenNebula.
Для повышения эффективности работы построенной среды разработаны и реализованы методики мониторинга задач и передач данных. Разработан принципиально новый подход к анализу выполнения больших пакетов задач, позволяющий анализировать сотни тысяч задач и определять ресурсы, работающие неэффективно. Разработана методика организации обработки экспериментальных данных, подтвердившая свою эффективность при обработке данных 8-го сеанса эксперимента BM@N.
Построенная инфраструктура была использована для решения задач экспериментов MPD, BM@N и SPD. Всего было успешно выполнено более 3.5 миллионов задач со средним временем выполнения 8 часов.
Distributed Heterogeneous Computing Environment for Processing Experimental Data from the NICA Accelerator Complex
(based on the PhD thesis)
One of the key components in the implementation of the NICA project, alongside the accelerator and detector setups BM@N, MPD, and SPD, is the computing infrastructure required for processing, analyzing, storing, and transferring large volumes of experimental data. Distributed heterogeneous computing environment based on the DIRAC software was established in the Laboratory of Information Technologies (LIT). This environment includes Tier1 and Tier2 clusters, the Govorun supercomputer, the NICA cluster, the DDC cluster, cloud resources from JINR member states, the UNAM cluster in Mexico, the IMDT cluster in Mongolia, and others. To integrate cloud resources, a new software toolkit was developed, enabling direct integration with OpenNebula-based clouds.
To improve the efficiency of the deployed environment, task monitoring and data transfer methods have been developed and implemented. A fundamentally new approach to analyzing large task batches has been introduced, allowing for the analysis of hundreds of thousands of tasks and identifying inefficiently operating resources. A methodology for organizing experimental data processing has been developed and proven effective in processing data from the 8th run of the BM@N experiment.
The implemented infrastructure has been used to address computational tasks for the MPD, BM@N, and SPD experiments. In total, over 3.5 million tasks have been successfully executed, with an average runtime of 8 hours.