Обучение без учителя на данных узкой направленности агрегированных автоматически.

6 Jul 2021, 15:50
15m
310 or Online - https://jinr.webex.com/jinr/j.php?MTID=m326d389213a5963a1114b8cbf9613612

310 or Online - https://jinr.webex.com/jinr/j.php?MTID=m326d389213a5963a1114b8cbf9613612

Sectional reports 9. Big data Analytics and Machine learning Round table on IT technologies in education

Speaker

Ekaterina Pavlova (Saint Petersburg State University)

Description

Информация, публикуемая пользователями в открытом доступе, может служить хорошим ресурсом для сбора данных при формировании датасетов для обучения нейронных сетей. Одной из самых больших существующих платформ для обмена фотографиями и видеозаписями является Instagram. Основным методом взаимодействия пользователей друг с другом на данной платформе является публикация изображений. При этом доступны такие функции как: добавление описания к изображению, хэштег, отметка рамкой на изображении и т.д.
Это обстоятельство позволяет исследователям использовать Instagram для применения методов машинного обучения и анализа изображений.

Данная платформа обладает рядом особенностей, которые могут быть использованы при создании обучающих датасетов для нейросетевых моделей, работающих с изображениями. С помощью хэштегов можно получать наборы размеченных данных по заданной тематике. Кроме того, метаданные, получаемые вместе с изображением, могут быть полезны для поиска связанных с тематикой профилей, уточнения разметки и автоматического взаимодействия с пользователями.

Получение данных с платформы Instagram возможно несколькими общеизвестными способами: последовательность запросов к официальному API платформы, использование инструментов автоматизации работы веб-браузера и всевозможных веб-краулеров. Эксплуатация официального API обладает рядом ограничений, описанных в документации. Меняющийся интерфейс Instagram делает затруднительным применение таких инструментов автоматизации работ веб-браузера, как Selenium. В то время как использование веб-краулера показывает свою эффективность для сбора общедоступных изображений, а также связанных с ними метаданных.

Полученные таким образом базы данных, после предварительной обработки могут быть использованы в качестве обучающих датасетов для нейронных сетей. Предварительная обработка такого рода датасетов необходима, поскольку данные могут быть сильно разрознены. С помощью моделей классификации возможно очистить датасет от ошибок “разметки”, допущенных пользователями в описаниях к публикуемых изображений.

Нашей целью является создание автоматического приложения, способного создавать тематические датасеты по хэштегам и профилям. В функционал приложения также входит отслеживание хэштега и автоматическая публикация ответного сгенерированного изображения. Генерация осуществляться с помощью наложения маски, полученной нейронной сетью для сегментации объектов, однако, для улучшения качества сегментации, предварительно используется super-resolution модель.

Проблема неточности разметки, полученной из метаданных, была решена с помощью self-supervised обучения модели. Применение метода DINO (self-distillation with no labels) с нейронной сетью, в основе которой лежит трансформер, способствовало улучшению качества сегментации.

В результате была создана система, способная реагировать на события платформы Instagram. Ответ пользователю формируется с помощью нейронных моделей и автоматически публикуется.

Primary authors

Mr Oleg Iakushkin (Saint Petersburg State University) Ekaterina Pavlova (Saint Petersburg State University)

Presentation materials