SCIENCE BRINGS NATIONS TOGETHER
Общелабораторный семинар (Гребень Н., Конак А., Романычев Л., Пелеванюк И., Ильина А., Кондратьев А.)
MLIT-134/3-310 - Комната семинаров
MLIT
Семинар участников IX ежегодной научной конференции молодых ученых и специалистов "Алушта-2025"
и участников презентаций молодых ученых на 61-ой сессии ПКК по ядерной физике
-
-
11:00
→
11:15
Промежуточное программное обеспечение для высокопропускной обработки данных комплекса SPD Online Filter 15m
«SPD Online Filter» — это программно-аппаратный комплекс для многоступенчатой высокопропускной обработки данных, получаемых с детектора SPD. Его основная задача – первичная обработка данных с целью сокращения их объема для долговременного хранения и последующей полной обработки.
«SPD Online Filter» включает в себя специализированный вычислительный кластер, комплекс промежуточного программного обеспечения и комплекс прикладного программного обеспечения. Комплекс промежуточного ПО состоит из трёх микросервисных систем, взаимодействующих через легковесные API-шлюзы для маршрутизации запросов и брокер сообщений для развязки микросервисов-производителей и микросервисов-потребителей. Вместе они формируют настраиваемый, отказоустойчивый и масштабируемый конвейер обработки данных.
В данном докладе показана архитектура как программного комплекса, так и входящих в него подсистем; демонстрируется согласованное взаимодействие между компонентами и показано, как они в совокупности обеспечивают надежную, масштабируемую обработку первичных данных для удовлетворения требований эксперимента SPD.SPD Online Filter High-Throughput Processing Middleware
«SPD Online Filter» is a hardware-software system designed for multi-stage, high-throughput processing of data from the SPD detector. Its main task is the primary processing of data, in order to reduce its volume for long-term storage and subsequent full processing.
«SPD Online Filter» consists of a dedicated computing cluster, middleware software, and a set of application-level services. The middleware layer consists of three microservice-based systems that communicate via lightweight API gateways for request routing and a message broker to decouple producers and consumers. Together, they form a configurable, fault-tolerant, and scalable data-processing pipeline.
This report illustrates the architecture of the overall system and its constituent subsystems, demonstrates the coordinated interaction among components, and shows how they work together to deliver reliable, scalable, real-time processing of raw detector data to meet the SPD experiment’s requirements.Speaker: Nikita Greben -
11:15
→
11:30
SPD Data management 15m
Продолжается активная подготовка к запуску эксперимента SPD на коллайдере NICA, однако исследования в области спиновой физики уже начались. Ведется работа с большими объемами данных, получаемых в процессе моделирования физических процессов, исследуемых экспериментом. Для организации надежного хранения, распространения и обеспечения доступности этих данных развернута специальная инфраструктура, позволяющая ими управлять, а также генерировать новые.
В докладе будет рассмотрено текущее состояние дел в области управления данными эксперимента SPD: как они создаются, хранятся и распределяются между вычислительными центрами. Будет рассказано о текущих вычислениях, объёмах производимых данных и стратегиях их хранения. Также будут рассмотрены инструменты и решения, используемые для управления данными.
Доклад позволит получить представление о том, как продвигается работа в области управления данными эксперимента SPD, а также о трудностях, с которыми сталкиваются при их обработке и долгосрочном хранении.SPD Data management
Active preparations to launch the SPD experiment at the NICA collider are underway, but research in the field of spin physics has already begun. Researchers are currently working with large amounts of data obtained during the simulation and reconstruction of the studied physical processes. To ensure the reliable storage, distribution and accessibility of this data, a dedicated infrastructure has been deployed. This report describes the current status of the SPD data management: how they are processed, stored and distributed among different data centers. It discusses current processing, the volume of data produced, and storage strategies used. The tools and solutions employed for the data management will also be examined. Through this report, listeners will gain insight into the progress of work on data management for the SPD experiment, as well as any challenges encountered in its processing and long-term storage.
Speaker: Alexey Konak (JINR) -
11:30
→
11:45
Пилотные приложения для распределённого выполнения задач в системе SPD Online Filter 15m
Пилотные приложения играют ключевую роль в распределённых вычислениях, обеспечивая динамическое управление ресурсами и выполнение задач. Они широко используются в высокопроизводительных вычислениях и крупномасштабных экспериментах, предоставляя гибкий механизм для управления вычислительными задачами. Однако отсутствие единой абстракции и общепринятых практик привело к появлению множества реализаций с различной степенью портируемости и эффективности. В этом докладе будут рассмотрены различные архитектуры пилотных приложений, их ключевые компоненты и принципы работы. Особое внимание будет уделено механизму позднего связывания (late binding), который позволяет динамически распределять задачи и повышать эффективность использования ресурсов. Наше решение представляет собой двухкомпонентную систему, состоящую из пилота и демона. Оно использует многопоточную архитектуру, учитывающую особенности эксперимента SPD, обеспечивая выполнение задач, их мониторинг и отчётность о статусе. В докладе будет представлен взгляд на использование пилотных приложений в распределённых системах и их конкретное применение в эксперименте SPD.
Pilot Applications for Distributed Task Execution in the SPD Online Filter System
Pilot applications play a crucial role in distributed computing, enabling dynamic resource management and workload execution. These applications are widely used in high-performance computing and large-scale experiments, providing a flexible mechanism for managing computational tasks. However, the lack of a unified abstraction and best practices has led to the emergence of numerous implementations with varying degrees of portability and efficiency. This talk will explore different architectures of pilot applications, their key components, and operational principles. Special attention will be given to the late-binding mechanism, which allows for dynamic task distribution and improved resource utilization efficiency. Our solution is a two-component system consisting of a pilot and a daemon. It employs a multithreaded approach that accounts for the specifics of the SPD experiment, ensuring task execution, monitoring, and status reporting. The presentation will provide insights into the use of pilot applications in distributed systems and their specific application in the SPD experiment.
Speaker: Leonid Romanychev -
11:45
→
12:00
Автоматизация обработки данных 9-го сеанса BM@N в распределённой среде DIRAC 15m
Весной 2025 года запланирован 9-й сеанс набора данных эксперимента BM@N. Начиная с февраля 2023 года, когда были получены данные 8-го сеанса, обработка данных BM@N осуществляется с использованием географически распределённой гетерогенной среды, построенной на основе программного обеспечения DIRAC Interware. Для 9-го сеанса была разработана автоматизированная методика запуска задач. Обработка данных начинается при появлении файлов типа RAW, связанных с 9-м сеансом, в файловом каталоге DIRAC. Специальный сервис периодически проверяет файловый каталог на наличие новых файлов, требующих обработки, и запускает соответствующие задачи. Поскольку обработка данных BM@N выполняется в два этапа (сначала преобразование из формата RAW в DIGI, а затем из DIGI в DST), необходимо определить два триггера: один для поступления RAW-файлов, а другой — для DIGI-файлов.Использование автоматизации при обработке экспериментальных данных позволяет оперативно получать информацию о качестве экспериментальных данных, что даёт возможность своевременно устранять возникающие проблемы.
Automation of BM@N Run9 data processing on a DIRAC distributed infrastructure
In spring 2025, the 9th data-taking run is scheduled for the BM@N experiment. Since February 2023, when data from the 8th run were acquired, the BM@N data processing has been carried out using a geographically distributed heterogeneous infrastructure based on the DIRAC Interware software. For the 9th run, an automated task-launching methodology has been developed. The processing is triggered by the appearance of RAW-type files associated with the 9th run in the DIRAC file catalog. A dedicated service periodically checks the catalog for new files requiring processing and initiates the corresponding tasks. Since BM@N data processing occurs in two stages (first, RAW → DIGI format conversion, followed by DIGI → DST conversion), two task triggers must be defined: one for the arrival of RAW files and another for DIGI files. Automating the processing pipeline enables rapid feedback on the experimental data quality, allowing for timely Data Quality monitoring and issue resolution.
Speaker: Igor Pelevanyuk (Joint Institute for Nuclear Research) -
12:00
→
12:15
Цифровая карта технологий: детекторы, ускорители, компетенции 15m
В Институте накоплен значительный опыт разработки детекторных и ускорительных систем, соответствующего оборудования и сотрудничества с промышленными и научными партнерами. Однако отсутствие централизованной базы знаний затрудняло поиск информации о существующих технологиях, компетенциях и поставщиках, что приводило к ограниченному обмену опытом между подразделениями. Для решения этой задачи разработан веб-сервис, обеспечивающий учет и контекстный поиск данных как об оборудовании, материалах и технологиях Института, так и о накопленных компетенциях; визуализацию данных для внутренних сотрудников ОИЯИ; интеграцию информации из разных научных групп и отделов. Проект реализован силами молодых учёных, IT-специалистов и представителей научных групп. Дальнейшее развитие сервиса направлено на совершенствование модулей динамического обновления и визуализации данных, модулей расширенного поиска по накопленной базе данных.
Digital technology map: detectors, accelerators, competencies
JINR has accumulated extensive experience in the development of detector and accelerator systems, related equipment and collaboration with industrial and scientific partners. However, the lack of a centralized knowledge base made it difficult to find information on existing technologies, competencies, and suppliers, limiting the exchange of experience between the departments. To address this issue, a web service was developed and subsequently included in the services of the JINR Digital EcoSystem. It enables the registration and contextual search of data on the Institute’s equipment, materials, technologies, and accumulated competencies. The service also provides data visualization for JINR employees and integrates information from different scientific groups and departments. The project was created by young researchers, IT specialists, and scientists.
Speaker: Ms Анна Ильина (MLIT JINR) -
12:15
→
12:35
Поиск и систематизация научных публикаций для цифрового репозитория ОИЯИ 20m
Актуальность цифровых репозиториев публикаций как информационных систем, обеспечивающих доступность результатов научных исследований, сегодня невозможно переоценить. Особенно актуальны развитие и модернизация их функционала для автоматизированного сбора библиографических метаданных. В ОИЯИ отсутствие институционального цифрового репозитория подчеркивает важность решения этой проблемы. Эффективный доступ к актуальной информации о научных публикациях сотрудников, аффилированных с ОИЯИ, критически важен для оценки интеллектуального потенциала Института. Автоматизированные системы позволяют существенно сократить дублирование и ручной ввод данных о публикациях, упростить доступ к научной информации и повысить эффективность ее анализа. Современный репозиторий интегрирует данные из доверенных источников данных в единую систему, обеспечивает долговременное хранение и удобный доступ к информационным активам Института.
Collection and systematization of scientific publications for the JINR digital repository
The relevance of digital repositories of publications as information systems that ensure the availability of scientific research results cannot be overestimated today. The development and modernization of their functionality for the automated collection of bibliographic metadata is relevant. At JINR, the lack of institutional repository structures allows finding solutions to this problem. Effective access to up-to-date information on employees of scientific publications related to JINR is very important for assessing the intellectual potential of the Institute. Automated systems allow reducing duplication and manual data entry in publications, limiting access to scientific information and increasing the efficiency of its analysis. A modern repository integrates data from verified data sources into a single system, provides long-term storage and convenient access to the Institute's information assets.
Speaker: Andrey Kondratyev (JINR)
-
11:00
→
11:15