Применение методов машинного обучения для задачи распознавания русских дореволюционных печатных текстов

6 Jul 2021, 17:20
15m
403 or Online - https://jinr.webex.com/jinr/j.php?MTID=mf93df38c8fbed9d0bbaae27765fc1b0f

403 or Online - https://jinr.webex.com/jinr/j.php?MTID=mf93df38c8fbed9d0bbaae27765fc1b0f

Sectional reports 9. Big data Analytics and Machine learning Distributed computing, HPC and ML for solving applied tasks

Speaker

Mr Владислав Федоров (ф-т ВМК МГУ им. М.В. Ломоносова)

Description

Настоящая работа посвящена вопросам применения технологий оптического распознавания символов и методов машинного обучения для распознавания печатных русскоязычных текстов XIX века. Анализируются особенности данной задачи по сравнению с общей задачей оптического распознавания символов. Проводится обзор существующих методов и программ для решения рассматриваемой проблемы. Предлагается свой адаптивный подход к построению программной системы распознавания подобных текстов на основе открытой платформы Tesseract. Приводятся предварительные результаты исследования эффективности предложенного подхода и сравнения с имеющимися решениями. Работа выполнена при финансовой поддержке РФФИ (грант № 20-07-01053 А).

Primary authors

Mr Владислав Федоров (ф-т ВМК МГУ им. М.В. Ломоносова) Nikolay Ershov (Moscow State University)

Presentation materials

There are no materials yet.