(по материалам кандидатской диссертации)
Современные методы интеллектуального анализа данных (ИАД), основанные на технологиях машинного обучения, обработки естественного языка и визуализации, требуют адаптации под специфику научно-технической информации (НТИ), которая характеризуется разнообразием форматов, неструктурированностью и слабоструктурированностью данных. В работе рассматривается разработка компонентной архитектуры программного комплекса ИАД НТИ, обеспечивающей горизонтальную масштабируемость для работы с большими массивами данных. Автором предложены специализированные алгоритмы извлечения и насыщения данных, учитывающие особенности научных публикаций: выделение ключевых слов текста, физических величин и единиц измерений, химических элементов, таблиц, изображений, унификацию названий аффилиаций и стран, а также определение межправительственных объединений. Программный комплекс состоит из четырех основных блоков: клиент-серверного модуля, распределенное управления рабочим процессом, обработки и насыщения данных, хранилище данных. Архитектура системы обеспечивает гибкость и возможность расширения функциональности за счет учета использования современных технологических решений. Система способна работать с различными источниками данных, включая PDF-документы, веб-страницы и базы данных, и предоставляет интерактивные аналитические панели для визуализации результатов. Теоретическая и практическая значимость работы проявляется в развитии существующих подходов к ИАД и внедрении разработанных решений в реальные проекты. В частности, система была успешно применена для создания базы данных свойств и структур облученных материалов, цифровизации экспериментальных данных, формирования репозитория научных публикаций Объединенного института ядерных исследований.
COMPONENT ARCHITECTURE OF THE SOFTWARE COMPLEX FOR INTELLECTUAL ANALYSIS OF SCIENTIFIC AND TECHNICAL INFORMATION
(based on the PhD thesis)
Modern methods of intelligent data analysis (IDA) based on machine learning, natural language processing, and visualization technologies require adaptation to the specifics of scientific and technical information (STI), which is characterized by a variety of formats and unstructured and poorly structured data. The present work deals with the development of the component architecture of the STI IDA program complex, which provides horizontal scalability for working with large data. The author presents specialized algorithms for data extraction and saturation, taking into account the peculiarities of scientific publications, including the extraction of text keywords, physical quantities and units of measurement, chemical elements, tables, images, the unification of names of affiliations and countries, as well as the definition of intergovernmental associations. The program complex is composed of four main blocks: a client-server module, a distributed workflow management module, a data processing and saturation module, and a data warehouse. The system's architecture offers flexibility, enabling the augmentation of its functionality through the integration of contemporary technological solutions. The system's capacity to operate with diverse data sources, encompassing PDF documents, web pages, and databases, is a notable feature. It furnishes interactive analytical dashboards to facilitate the visualization of results, thereby enhancing the system's utility. The theoretical and practical significance of the work is evident in the development of existing approaches to IDA and the implementation of the developed solutions in real-world projects. In particular, the system has been successfully implemented in several notable projects, including the creation of a database of properties and structures of irradiated materials, the digitalization of experimental data, and the establishment of a repository of scientific publications from the Joint Institute for Nuclear Research.