Доклад посвящен интеллектуальному анализу научно-технической информации на примере патентной документации. Патентные данные представляют собой релевантный источник информации о долгосрочных технологических тенденциях и практическом воплощении инноваций. Анализ патентов представляет определенную сложность из-за их специфической структуры, обеспечивающей юридическую защиту изобретения, а не детальное раскрытие его сути. В работе рассматриваются особенности анализа патентной информации, при этом особое внимание уделяется современным подходам и методам извлечения ценной информации из патентных данных для определения перспективных направлений развития технологий. В частности, в работе проведен анализ и разбор данных по рубрикам, датам, языкам представления, авторам, владельцам и др. С целью проведения семантического анализа из аннотаций патентов создан корпус документов и определен словарь корпуса, которые использовались для обучения нейросетевой языковой модели на основе Word2Vec. Семантический анализ необходим для анализа текстового содержания патентов, извлечения ключевых терминов, фраз и концепций, характеризующих каждый патент, а также их последующей классификации.
Intellectual Analysis of Scientific and Technical Information Based on Patent Documentation
This presentation focuses on the intelligent analysis of scientific and technical information, using patent documentation as an example. Patent data represents a relevant source of information on long-term technological trends and the practical implementation of innovations. However, analyzing patents presents certain challenges due to their specific structure, which prioritizes legal protection of the invention rather than a detailed explanation of its essence. This work explores the specifics of patent information analysis, emphasizing modern approaches and methods for extracting valuable insights from patent data to identify promising avenues for technological development. In particular, the study analyzes and examines in detail data related to classifications, dates, languages of submission, authors, owners, and other relevant fields. To conduct semantic analysis, a document corpus was created from patent abstracts, and a corresponding vocabulary was defined. These resources were used to train a neural network language model based on Word2Vec. Semantic analysis is crucial for analyzing the textual content of patents, extracting key terms, phrases, and concepts that characterize each patent, and supporting their classification.