Распределенные вычисления в экспериментальных и теоретических исследованиях ОИЯИ

В рамках научного направления «Распределенные и высокопроизводительные вычисления для подготовки, реализации и поддержки экспериментальных и теоретических исследований, проводимых в рамках крупных инфраструктурных проектов ОИЯИ» проводятся работы по следующим темам.

Эксперимент BM@N:

 

Эксперимент MPD:

 

Эксперимент SPD:

 


Тема: Интеграция современных систем распределённой обработки больших данных для эксперимента по столкновению частиц BM@N проекта NICA

Руководитель: к.т.н. Герценбергер К. В.

Аннотация

Научно-исследовательская программа проводимого с 2015 года международного эксперимента BM@N на строящемся ускорительном комплексе класса мегасайенс NICA направлена на исследование фазовой диаграммы кварк-глюонной материи при экстремальных барионных плотностях и температурах. Данные исследования тесно связаны с астрофизикой и изучаемыми ей процессами формирования звезд. Получаемые данные по релятивистским столкновениям тяжелых ионов позволят изучить структуру плотной барионной материи, её уравнение состояния, определить детали фазового перехода, ответить на вопросы о существовании критической точки. Для проведения исследований в рамках эксперимента BM@N необходима разработка современного программного обеспечения, используемого для обработки и мониторинга больших данных, получаемых с установки.

Обработка и анализ экспериментальных данных являются неотъемлемой частью экспериментов на ускорительных установках. Для современных научных исследований характерно оперирование огромными объемами данных, регистрируемых в ходе высокоинтенсивных столкновений частиц в эксперименте, которые необходимо достаточно быстро обработать и своевременно получить физический результат, соответствующий поставленной цели. Современные вычислительные комплексы характеризуются гетерогенностью по программным и аппаратным ресурсам и географической распределенностью, в связи с чем в данной работе решается задача разработки и внедрения программных решений, базирующихся на современных системах обработки и управления большими данными, для распределенной обработки данных, получаемых на установке эксперимента. Комплексное решение поставленной задачи включает, в том числе, интеграцию Каталога файлов с данными событий эксперимента n разработку сервиса автоматизации распределенной обработки потока данных эксперимента с учетом выбранных систем. Для апробирования развернутой платформы целесообразно создать и протестировать макет распределённой обработки данных для эксперимента BM@N на предоставленных вычислительных системах.

Возможные темы дипломных работ

  1. Внедрение Каталога файлов со смоделированными и экспериментальными данными эксперимента BM@N на базе платформы RUCIO для реализации высокоинтенсивной обработки.
  2. Разработка сервиса автоматизации распределенной обработки данных эксперимента BM@N при помощи решения Apache Airflow.
  3. Создание и апробация комплексной методики (синтетические тесты и использования макета обработки) оценки производительности распределенных вычислительных систем для эксперимента BM@N

Общие требования к студентам

  • Знание языка программирования Python.
  • Знание языка программирования C++.
  • Знание основ операционной системы Linux.
  • Навыки в разработке программного обеспечения.

 


Тема:Разработка и внедрение современных систем мониторинга качества и визуализации поступающих данных событий столкновения частиц физического эксперимента BM@N проекта NICA.

Руководитель: к.т.н. Герценбергер К. В.

Аннотация

Научно-исследовательская программа проводимого с 2015 года международного эксперимента BM@N на строящемся ускорительном комплексе класса мегасайенс NICA направлена на исследование фазовой диаграммы кварк-глюонной материи при экстремальных барионных плотностях и температурах. Данные исследования тесно связаны с астрофизикой и изучаемыми ей процессами формирования звезд. Получаемые данные по релятивистским столкновениям тяжелых ионов позволят изучить структуру плотной барионной материи, ее уравнение состояния, определить детали фазового перехода, ответить на вопросы о существовании критической точки. Для проведения исследований в рамках эксперимента BM@N необходима разработка современного программного обеспечения, используемого для мониторинга качества больших данных, получаемых с установки, и визуализации данных событий столкновения частиц.

Возможные темы дипломных работ

    1. Разработка конфигурируемой системы контроля качества данных (DQA) эксперимента BM@N с возможностью использования в различных режимах: для онлайн-гистограммирования и реконструкции, для автоматической проверки новой версии ПО, а также для произвольного ручного запуска.

Краткое описание представленной задачи:

В крупных экспериментах по столкновению частиц контроль качества поступаемых данных играет крайне важную роль. Особенностью современных экспериментальных установок является то, что контроль качества функционирования большого количества детекторов различного типа и назначений представляет собой достаточно сложную и комплексную проблему. Для обеспечения эффективной работы детекторной установки необходимо совершенствовать автоматизацию сбора данных, в том числе обеспечивать удобный своевременный контроль операторами в ходе проведения эксперимента поступаемых данных, например, для осуществления оперативного вмешательства в случае возникновения проблем. Разработка программной системы контроля качества данных позволит как осуществить мониторинг поступаемых данных с различных поддетекторов установки, визуализируемых в виде гистограмм, так и контролировать текущее состояние и эффективность программных систем обработки событий эксперимента BM@N, избежав перехода к менее эффективным версиям ПО. Реализация системы предусматривает клиент-серверную архитектуру с графическим представлением контрольных гистограмм по данным на центральном веб-сервисе (например, JupyterLab), получающим отображаемые распределения от программного обеспечения эксперимента, базирующегося на пакете CERN ROOT. Кроме того, система контроля качества должна предоставлять возможность легкого добавления новых типов гистограмм в удобном для пользователя формате.

Общие требования к студентам

  • Знание языков программирования С++ и Python, основ операционной системы Linux. Приветствуется знание решения Jupiter Notebooks (JupyterLab), среды CERN ROOT.

    2. Разработка и внедрение на веб-платформе современной системы визуализации событий столкновения частиц физического эксперимента BM@N.

Краткое описание представленной задачи:

Графическое представление и мониторинг событий столкновения частиц, регистрируемых детекторными системами, являются важной частью и применяются во всех современных, крупных физических экспериментах. Системы визуализации событий используются как на этапе проектирования и обработки полученных данных для проверки и отладки моделей, а также алгоритмов обработки данных, для визуализации данных реконструкции и физического анализа, так и требуются для мониторинга и контроля выборочных событий эксперимента в режиме онлайн, то есть во время идущего эксперимента. В рамках работы для решения данной задачи рассматривается внедрение существующей современной системы визуализации (предлагается Phoenix Event Display) и мониторинга событий столкновения частиц и геометрии детекторов физического эксперимента как Web-сервиса. Система должна позволять графически отображать и управлять геометрией детекторов, модельной информацией (точками, треками частиц) и реконструированными данными (хитами, треками, сработавшими башнями калориметров) как во время, так и после сеансов эксперимента. Кроме того, данная система должна обеспечивать интерактивность: повороты, масштабирование, выбор и настройку отдельных объектов.

Общие требования к студентам

  • Знание современных систем веб-программирования React/TypeScript или Angular, языка программирования python, основ операционной системы Linux.

 


Тема:Внедрение программных решений по хранению информации об эксперименте и используемым форматам хранения данных эксперимента BM@N.

Руководитель: к.т.н. Герценбергер К. В.

Аннотация

Научно-исследовательская программа проводимого с 2015 года международного эксперимента BM@N на строящемся ускорительном комплексе класса мегасайенс NICA направлена на исследование фазовой диаграммы кварк-глюонной материи при экстремальных барионных плотностях и температурах. Данные исследования тесно связаны с астрофизикой и изучаемыми ей процессами формирования звезд. Получаемые данные по релятивистским столкновениям тяжелых ионов позволят изучить структуру плотной барионной материи, ее уравнение состояния, определить детали фазового перехода, ответить на вопросы о существовании критической точки. Для проведения исследований в рамках эксперимента BM@N необходима разработка и использование современного программного обеспечения для хранения и предоставления на обработку данных эксперимента, а также вспомогательной информации, требуемой для проведения обработки полученных событий.

Возможные темы дипломных работ

    1. Выбор и оценка эффективности применения современной NoSQL базы данных (рассматривается Cassandra или MongoDB) для хранения параметрических данных в базе данных состояний эксперимента BM@N.

Краткое описание представленной задачи:

Важной частью систем, как работающих в режиме онлайн (во время идущего эксперимента), так и решающих задачи после него, включая обработку и анализ полученных физических данных, являются информационные системы, построенные на современных базах данных и предлагающие различные пользовательские сервисы для прозрачного доступа и управления хранимыми данными и информацией о проводимом эксперименте. Одна из важных программных систем эксперимента – база данных состояний направлена на хранение, обработку и использование параметров и режимов работы различных устройств и детекторов установки в онлайн и офлайн системах обработки данных эксперимента, в том числе алгоритмах реконструкции и физического анализа событий столкновения частиц. Соответствующая информационная система решает также задачу удобного доступа и управления требуемыми параметрическими данными подсистем установки для их учета на всех этапах обработки событий столкновения частиц эксперимента. В настоящее время разработана и используется базы данных состояний на реляционной СУБД PostgreSQL. Однако с учетом современных тенденций и целесообразности использования NoSQL баз данных для хранения большого числа параметрических данных произвольного формата, в рамках данной работы необходимо провести исследование эффективности применения современных NoSQL решений для хранения параметрических данных эксперимента BM@N.

Общие требования к студентам

  • Знание основ реляционных и NoSQL баз данных, SQL, языка программирования C++, основ операционной системы Linux. Приветствуется знание среды CERN ROOT.

    2. Разработка и внедрение специализированного формата miniDST для хранения реконструированных данных событий эксперимента BM@N.

Краткое описание представленной задачи:

Модель обработки данных эксперимента BM@N имеет многоуровневую структуру. При обработке экспериментальных данных полученные с детекторов данные событий столкновения частиц оцифровываются и переводятся в понятный пользователям ROOT-формат. Далее макрос реконструкции восстанавливает информацию о частицах, зарегистрированных детекторами, их треках и других параметрах, которая записывается в выходной файл формата DST. После чего для исследования физических свойств материи, образованной в результате столкновения тяжелых ионов с мишенью, проводится физический анализ реконструированных данных. В случае обработки модельных данных, содержащими полную информацию об образованных частицах, полученную при помощи генераторов событий, моделируется прохождение частиц через детекторы при помощи пакетов транспорта частиц, и эта информация преобразуется в отклики детекторов. На следующем шаге также реконструируются события столкновения частиц с сохранением в выходной DST формат, и производится финальный физический анализ с опубликованием результатов.

Для физического анализа зачастую используют не формат DST, содержащий максимально полную информацию о реконструированных событиях столкновения частиц, а более компактный miniDST (иногда даже nanoDST). Одной из основных целей приведения к формату miniDST и его использованию является исключение зависимости от конкретного языка программирования с целью проведения физического анализа пользователями с применением удобного им инструментария. Помимо этого при переходе к формату miniDST компактность файлов данных достигается уменьшением их размера за счет реализации различных процедур, таких как введение дополнительного отбора на первичную вершину, удаление веток дерева событий, не требующихся для физического анализа, уменьшение разрядности значений (преобразование вещественных чисел двойной точности в одинарную), удаление контрольной Монте-Карло информации и других вспомогательных действий. После выбора современного формата хранения miniDST, его утверждения и реализации необходимо провести генерацию данных в новом формате для набранных экспериментальных и моделированных данных эксперимента BM@N, оценить эффективность перехода к новому формату.

Общие требования к студентам

  • Знание языка программирования C++, основ операционной системы Linux, современных систем хранения и обработки больших данных. Приветствуется знание среды CERN ROOT.

 


Тема: Разработка комплекса программ для моделирования, получения и обработки данных эксперимента MPD

Руководители: к.ф.-м.н. Рогачевский О.В., к.ф.-м.н. Гнатич С.

Аннотация

МPD (MultiPupose Detector) это основной эксперимент по релятивистской ядерной физике, который готовится к запуску в ОИЯИ (г.Дубна, Россия) в ближайшие годы. Цель эксперимента — изучение фазовой диаграммы квантовой хромодинамики в области энергий столкновения 4 — 11 ГэВ, которые будут доступны на адронном коллайдере NICA для программы ускорения ядер.

Эксперимент МPD предназначен для регистрации частиц, образующихся в столкновении тяжелых ионов в точке пересечения пучков ионов в коллайдере NICA. При столкновении тяжелых ядер (А > 200) рождается большое число различных частиц (~1000). Реконструкция таких событий является одной из сложнейших задач, как с алгоритмической точки зрения так и с вычислительной. С учетом требований современной физики таких событий должно быть получено миллиарды, и для их хранения после запуска эксперимента потребуются сотни петабайт дискового или же ленточного пространства в год. Сбор, обработка и хранение такого объема данных требует разработки и реализации новых алгоритмов для реконструкции событий, моделирования и физического анализа данных с использованием высокопроизводительных и распределенных вычислений. Основная часть этих работ для эксперимента MPD практически реализована, но требуется дальнейшее ускорение работы этих алгоритмов и развертывание их на существующих вычислительных ресурсах института ОИЯИ и других институтах коллаборации MPD.

Возможные темы дипломных работ

  1. Разработка системы мониторирования и управления различными под-детекторами и экспериментом в целом.
  2. Разработка программ визуализации детекторов и данных.
  3. Разработка различных баз данных для хранения параметров детекторов и записанных событий столкновений.

Общие требования к студентам

  • Знание одного из языков программирования C++ / Python / Javascript.
  • Знание основ БД.
  • Навыки в разработке программного обеспечения.

 


Тема: Распределенная обработка данных эксперимента SPD

Руководители: к.т.н. Олейник Д.А.  к.т.н. Петросян А.Ш.

Аннотация

SPD (Spin Physics Detector) это планируемый эксперимент по спиновой физике на адронном коллайдере NICA, мегасайенс-установке, которая строится в ОИЯИ (г.Дубна, Россия). Основная цель эксперимента - проверка основ квантовой хромодинамики (КХД), фундаментальной теории сильных ядерных взаимодействий, путем изучения поляризованной структуры нуклона и спиновых явлений при столкновении продольно и поперечно поляризованных протонов и дейтронов с энергией центра масс до 27 ГэВ и светимостью до 1032 см-2 с-1. Для этого будут проведены измерения зависящих от поперечного импульса партонных распределений (TMD PDF) для глюонов в таких сложных процессах, как рождение очарованных частиц, состояний чармония и прямых фотонов.

Детектор SPD проектируется как универсальный 4π-спектрометр, основанный на современных технологиях. Общее количество каналов регистрации в установке SPD составляет около 500000. С учетом ожидаемой максимальной частоты столкновений частиц в коллайдере около 3 МГц, суммарный поток данных с детектора можно оценить, как 20 ГБ/с, что эквивалентно 200 ПБ/год (для эксперимента предполагается выделить 30% пучкового времени коллайдера). Сбор, обработка и хранение такого объема данных представляет собой серьезную проблему для вычислительной инфраструктуры эксперимента и требует разработки новых методов и подходов для реконструкции событий, моделирования и физического анализа данных с использованием высокопроизводительных и распределенных вычислений. Однако в Российской Федерации отсутствует опыт построения вычислительных систем с подобной производительностью, что делает обозначенную в настоящем проекте проблему крайне актуальной.

В рамках проекта планируется разработать и реализовать на уровне прототипов программно-аппаратных решений модель обработки данных для эксперимента SPD, включая фильтрации данных в режиме реального времени с использованием технологий искусственного интеллекта, систему распределенной обработки данных и программное обеспечение для автономной (оффлайн) обработки данных, способное эффективно использовать многоядерные и гетерогенные вычислительные ресурсы. Для достижения поставленных целей будут разработаны соответствующие алгоритмы обработки данных с применением методов машинного обучения с использованием глубоких нейронных сетей.

Возможные темы дипломных работ

  1. Проектирование и разработка элементов комплекса промежуточного программного обеспечения для специализированного вычислительного комплекса "SPD OnLine Filter"
  2. Разработка программной платформы  прикладного программного обеспечения для специализированного вычислительного комплекса  SPD OnLine Filter"
  3. Разработка программной платформы прикладного программного обеспечения эксперимента SPD на основе GAUDI
  4. Адаптация элементов системы управления нагрузкой  PanDA для эксперимента SPD
  5. Проектирование и разработка элементов системы управления процессами обработки данных  в географически распределенной среде для эксперимента SPD.

Общие требования к студентам

  • Знание языка программирования Python, C++.
  • Базовые навыки работы с системой контроля версий Git.
  • Знание основ БД.
  • Навыки в проектировании программного обеспечения.

 


Тема: База данных системы подключения DAQ SPD

Руководители: к.ф.м.н. Прокошин Ф.В. 

Аннотация

SPD (Spin Physics Detector) это планируемый эксперимент по спиновой физике на адронном коллайдере NICA, мегасайенс-установке, которая строится в ОИЯИ (г.Дубна, Россия). Основная цель эксперимента - проверка основ квантовой хромодинамики (КХД), фундаментальной теории сильных ядерных взаимодействий, путем изучения поляризованной структуры нуклона и спиновых явлений при столкновении продольно и поперечно поляризованных протонов и дейтронов с энергией центра масс до 27 ГэВ и светимостью до 1032 см-2 с-1. Для этого будут проведены измерения зависящих от поперечного импульса партонных распределений (TMD PDF) для глюонов в таких сложных процессах, как рождение очарованных частиц, состояний чармония и прямых фотонов.

Детектор SPD задуман как универсальный 4π-спектрометр, основанный на современных технологиях. Предполагается использовать различные типы детекторов: дрейфовые трубки и камеры, сцинтилляционные детекторы, MRPC, черенковские счетчики, кремниевые детекторы. Для каждого элемента детекторных систем существует свой набор параметров,которые необходимо учитывать при работе установки и обработке данных. Сигналы с детекторов поступают на интерфейсные карты, подсоединенные к концентратором первого и второго уровня. Каждый элемент этой цепочки также имеет уникальные параметры, которые должны хранится в базе данных и быть доступны. Для учета оборудования установки и его характеристик разрабатывается информационная система. Создан прототип базы данных для хранения информации, в которой характеристики каждого устройства привязаны к уникальному Hardware ID. Разрабатываются средства автоматизированного заполнения данных а также интерфейсы доступа к данным для  пользователей (GUI и командной строки) ипрограмм (API)

Необходимо разработать информационную систему для организации схемы (mapping) системы сбора данных, устанавливающую  соответствие каналов на выходах концентраторов DAQ с элементами установки. Общее количество каналов регистрации в установке SPD составляет около 500000, поэтому построение схемы подключений должно быть автоматизированным, а доступ к схемам и параметрам компонент должен быть быстрым и безотказным.

В рамках проекта необходимо

  • разработать базу данных для хранения мэппинга
  • создать средства обеспечивающие доступ к ней пользователей а также ввод данных
  • создать API для автоматического доступа к данным различных программ и устройств.

Для эффективного построения схемы соответствия должна быть реализована автоматическая процедура позволяющая собирать данные о подключенных элементах системы путем их опроса. Также следует предусмотреть функционал выключения канала или группы каналов из набора данных.

При разработке следует учитывать необходимость обслуживания большого количества одновременных запросов на доступ к информации, что потребует введения промежуточного уровня — сервера приложений с функцией кэширования. Работа должна проводиться во взаимодействии со специалистами группы DAQ SPD

Возможные темы дипломных работ

     1. Проектирование базы данных мэппинга DAQ эксперимента SPD.

Создать базу данных для описания схемы подключения элементов системы сбора данных установки SPD. Схема устанавливает соответствие между каналом с которого поступает с DAQ и уникальным Hardware ID  устройства, сигнал с которого поступает на данный канал.

Разработать интерфейс пользователя, позволяющий:

  • получать номер канала по HWID либо наоборот.
  • визуализировать схему подключений на разных уровнях
  • задавать параметры соединений вручную  (по одному и группами) а также загружать схемы подключения из файлов.
  • разработать API (REST, Python, C++) со сходным функционалом

     2. Разработка  системы автоматического построения мэппинга DAQ эксперимента SPD

Создать программное обеспечение позволяющее проводить автоматический опрос элементов системы DAQ, считывание возвращаемой информации и построение схемы соединений.

     3. Разработка приложений для доступа к базе данных мэппинга DAQ.

Создать приложение промежуточного уровня, предоставляющее интерфейс для доступа к БД, обеспечение одновременную обработку большого числа запросов.

Общие требования к студентам

  • Знание языка программирования Python, желательно C++
  • Базовые навыки работы с семейством ОС Linux
  • Базовые навыки работы с системой контроля версий Git.
  • Знание основ БД.
  • Навыки в проектировании программного обеспечения.

 


Тема: Информационная система физических метаданных эксперимента SPD

Руководители: к.ф.м.н. Прокошин Ф.В., к.т.н. Петросян А.Ш.

Аннотация

SPD (Spin Physics Detector) это планируемый эксперимент по спиновой физике на адронном коллайдере NICA, мегасайенс-установке, которая строится в ОИЯИ (г.Дубна, Россия). Основная цель эксперимента - проверка основ квантовой хромодинамики (КХД), фундаментальной теории сильных ядерных взаимодействий, путем изучения поляризованной структуры нуклона и спиновых явлений при столкновении продольно и поперечно поляризованных протонов и дейтронов с энергией центра масс до 27 ГэВ и светимостью до 1032 см-2 с-1. Для этого будут проведены измерения зависящих от поперечного импульса партонных распределений (TMD PDF) для глюонов в таких сложных процессах, как рождение очарованных частиц, состояний чармония и прямых фотонов.

Детектор SPD задуман как универсальный 4π-спектрометр, основанный на современных технологиях. Общее количество каналов регистрации в установке SPD составляет около 500000.

С учетом ожидаемой максимальной частоты столкновений частиц в коллайдере около 3 МГц, суммарный поток данных с детектора можно оценить, как 20 ГБ/с, что эквивалентно 200 ПБ/год (для эксперимента предполагается выделить 30% пучкового времени коллайдера). Сбор, обработка и хранение такого объема данных представляет собой серьезную проблему для вычислительной инфраструктуры эксперимента, поэтому эффективная организация метаданных крайне важна для организации набора,  реконструкции и моделирования событий а также для физического анализа данных с использованием высокопроизводительных и распределенных вычислений. Работа с массивами данных такого масштаба будет производится, пожалуй, впервые в истории отечественной экспериментальной физики, что делает обозначенную в настоящем проекте задачу крайне интересной и перспективной.

Планируется разработать и реализовать на уровне прототипов  информационную систему для сбора хранения и предоставления доступа к физическим метаданным эксперимента SPD. К ним относятся

  • информация о наборах данных (датасетах), включая наследование и ссылки на конфигурации  задач которые создали эти датасеты.
  • сечения и конфигурации использованные для моделирования
  • информация о параметрах пучка (светимость, поляризация)
  • настройки онлайн фильтра

 

В рамках проекта необходимо спроектировать базы данных для хранения информации, разработать средства получения информации, создать интерфейсы доступа к данным для программ (API) и пользователей (GUI и командной строки). При разработке следует учитывать необходимость обслуживания большого количества одновременных запросов на доступ к информации, что потребует введения промежуточного уровня — сервера приложений с функцией кэширования. В ходе выполнения проекта необходимо ознакомится с принципами организации хранения и обработки данных на установке. Работа будет проводится в тесном взаимодействии с разработчиками других информационных систем установки, установки (онлайн фильтром, системой хранения и передачи данных, диспетчерами задач обработки, системой DAQ и базой онлайн конфигурации), а также программного обеспечения обработки и анализа данных

Возможные темы дипломных работ

  1. Проектирование БД физических метаданных эксперимента SPD.
  2. Разработка средств получения метаданных, их транспортировки и записи в БД.
  3. Разработка API и интерфейсов пользователя для доступа к метаданным .

Общие требования к студентам

  • Знание языка программирования Python.
  • Базовые навыки работы с семейством ОС Linux,
  • Базовые навыки работы с системой контроля версий Git.
  • Знание основ БД.
  • Навыки в проектировании программного обеспечения.