Speaker
Mr
Владислав Федоров
(ф-т ВМК МГУ им. М.В. Ломоносова)
Description
Настоящая работа посвящена вопросам применения технологий оптического распознавания символов и методов машинного обучения для распознавания печатных русскоязычных текстов XIX века. Анализируются особенности данной задачи по сравнению с общей задачей оптического распознавания символов. Проводится обзор существующих методов и программ для решения рассматриваемой проблемы. Предлагается свой адаптивный подход к построению программной системы распознавания подобных текстов на основе открытой платформы Tesseract. Приводятся предварительные результаты исследования эффективности предложенного подхода и сравнения с имеющимися решениями. Работа выполнена при финансовой поддержке РФФИ (грант № 20-07-01053 А).
Authors
Mr
Владислав Федоров
(ф-т ВМК МГУ им. М.В. Ломоносова)
Nikolay Ershov
(Moscow State University)